Strelka: accurate somatic small-variant calling from sequenced tumor-normal sample pairs

著者: Saunders CT, Wong WSW, Swamy S, Becq J, Murray LJ, Cheetham RK
Corresponding author: Christopher T. Saunders (Illumina, Inc., San Diego, CA)
雑誌: Bioinformatics
発行年: 2012
Epub日: 2012-05-10
Article種別: Original Article
PMID: 22581179

背景

次世代シーケンシング（NGS）技術の急速な進歩に伴い、全ゲノムシーケンシング（WGS）やエクソームシーケンシング（WES）を用いて、同一患者から得られた腫瘍組織と正常組織のペアサンプルを解析するアプローチががん研究において標準的な手法となっている。このアプローチの主要な目的は、腫瘍ゲノムに特異的に生じた体細胞変異（somatic mutation）を正確に同定することである。しかし、体細胞変異の検出プロセスにはいくつかの本質的な課題が存在する。第一に、ヒトゲノム中に存在する生殖系列変異（germline variation）は体細胞変異よりも数オーダー多く存在するため、生殖系列変異を体細胞変異と誤認する偽陽性リスクが極めて高い。例えば、ゲノムあたり数百〜数千万個の生殖系列変異に対し、真の体細胞変異は数千個程度に留まることが多く、この不均衡が解析のノイズとなる。第二に、実際の臨床検体においては、腫瘍サンプル中に正常細胞が混入する「腫瘍不純度」の問題や、がんゲノム特有のコピー数変化、さらには腫瘍内不均一性（tumor heterogeneity）によって、体細胞変異の対立遺伝子頻度（allele frequency）が理論値（二倍体を前提とした50%など）から大幅に低下・変動する。これらの複雑な要因を考慮した上で、正確な体細胞変異を同定する手法の確立は依然として課題が残されている。

既存の体細胞変異検出アルゴリズムは、大きく分けていくつかの統計的アプローチに分類される。第一のアプローチは、腫瘍と正常の各サンプルを独立してジェノタイピングし、その結果の差分を比較する方法である。この方法は細胞株の解析には有効であるが、腫瘍純度の変動に対して極めて脆弱である。第二のアプローチは、SomaticSniperに代表される、両サンプルのジョイントな二倍体遺伝子型尤度（joint diploid genotype likelihood）をモデル化する方法である。これは高純度サンプルでは有効であるが、腫瘍純度が低いサンプルでは感度が著しく低下するという課題がある。第三のアプローチは、VarScan2に代表される、共通アレル頻度の棄却検定（Fisher’s exact testを使用）を用いる方法である。このアプローチは多様なサンプル条件に対してある程度のロバスト性を持つが、やはり腫瘍純度変動によって感度が低下することが報告されている (Koboldt et al. Bioinformatics 2009)。

特に問題となるのは、臨床サンプルに典型的な不純な腫瘍標本での解析である。正常細胞の混入により、体細胞アレル頻度が理論値よりも大幅に低下し、既存手法ではこれを適切にモデル化できない場合が多い。例えば、Meyerson et al. NatRevGenet 2010が指摘するように、次世代シーケンシングデータからの変異検出は、腫瘍の不均一性やコピー数変化といった複雑な要因を考慮する必要がある。また、DePristo et al. NatGenet 2011は、変異検出フレームワークにおいて、これらの課題に対処するための統計モデルの重要性を示唆している。そのため、腫瘍純度推定を必要とせず、任意の不純度レベルで頑健に機能する新しい変異検出アプローチの開発が強く求められていた。既存手法では、低純度サンプルにおける感度維持が不足しており、このギャップを埋める新規ツールの開発が喫緊の課題であった。

目的

本研究の目的は、転移性メラノーマ細胞株COLO-829および同一患者由来の正常リンパ芽球株COLO-829BLをモデルとして、事前の腫瘍純度推定を必要とせず、任意の不純度レベルにおいて高感度かつ高精度に体細胞一塩基変異（SNV）および小規模インデル（indel）を検出するための新規Bayesian変異検出ワークフロー「Strelka」を開発することである。さらに、開発したStrelkaの精度、感度、および計算効率を、既存の代表的な手法であるVarScan2およびSomaticSniperと比較検証し、その優位性を実証する。特に、臨床検体で頻繁に遭遇する低腫瘍純度サンプルにおける感度維持能力に焦点を当て、不純な腫瘍サンプルにおいてStrelkaがより信頼性の高い体細胞変異コールを提供できることを示すことを目指す。

結果

dbSNP重複率による偽陽性評価: High Depthセットにおける体細胞SNVコールとdbSNP build 132 common subsetとの重複率を比較した (Figure 2A)。全3手法において、品質スコア閾値を上げるにつれてdbSNP重複率が低下するという期待される挙動が観察された。重要なことに、StrelkaのdbSNP重複率はいずれのコール品質閾値においても他の2手法より低く、生殖系列変異の体細胞変異への誤分類率が低いことが示された。例えば、Q15の閾値ではStrelkaのdbSNP重複率は10%であったのに対し、SomaticSniperは20%、VarScanは25%であった。indelコールにおいても同様に、Strelkaは同一総コール数において集団indelとの重複率が相対的に低かった (Figure 2B)。High Depthセットのtier1 Q≥15のSNVとQ≥30のindelからは、216のミスセンスSNV、17のナンセンスSNV、7つのコーディングindelが同定された。

Normal Replicate解析による偽陽性評価: 正常サンプルを自己対照として用いたNormal Replicate解析（n=3 replicates）では、Strelkaは品質スコア≥Q50において体細胞SNVおよびindel共にゼロコールを達成した (Figure 3A, B)。これは、すべての手法の中で最も低いnormal replicate/tumor-normal呼び出し比を示しており、Strelkaが非常に高い特異性を持つことを示唆している。SomaticSniperも正常レプリケートでのコールは少なかったが、Strelkaはそれと同等以上の特異性を示した。例えば、Q30の閾値ではStrelkaのnormal replicate/tumor-normalコール比はSNVで0.01、indelで0.05であった。低品質スコア領域でのStrelkaのindel偽陽性は、indel長とフィルタリング閾値の固定設定によるものであり、追加フィルタリングで対処可能であると考察された。

低純度サンプルにおける感度評価: Pleasance et al. Nature 2010で検証済みの454 SNVと66 indelを含む既知変異セットを用いて感度を評価した。低純度サンプル（Low Purityセット）は、COLO-829の120 GbとCOLO-829BLの180 Gbを混合した腫瘍純度40%（n=3 replicates）、深度約88倍の擬似サンプルである。純粋サンプル（100% purity）であるHigh Depthセット（腫瘍93.4倍・正常86.3倍）では、全3手法が高い感度を示した (Figure 4A, D)。Strelkaが全品質設定で見逃した検証済みSNVは、hg19へのliftover artifactが疑われる8例のみであった。Strelkaは20件の検証済みindelを見逃したが、そのうち8件はQ60以上のスコアを持つにもかかわらず、長いホモポリマーやジヌクレオチドの繰り返しフィルターによって除去されたものであった。

低腫瘍純度での感度維持: 低純度サンプル（40% purity）において、StrelkaはSNV・indel共に他の2手法を大幅に上回る感度を維持した (Figure 4B, E)。品質スコアを上げるにつれて感度がプラトーから落ち始める点はあるものの、合理的な感度を維持した。例えば、Strelkaは40%純度で90%のSNVを検出したのに対し、SomaticSniperは純粋サンプル比で50%以上減少した。VarScan2も腫瘍純度の低下によるコール数減少が顕著であった（純度0.4の指定にもかかわらず）。この結果は、Strelkaのモデル設計が任意のアレル頻度に対応するという設計思想の自然な帰結であり、モデルパラメータは腫瘍深度や予測腫瘍純度に依存しないことを裏付けている。Strelkaは、腫瘍純度40%のサンプルにおいて、既存のSomaticSniperやVarScan2と比較して、1.8-fold increase 以上の優れた検出感度向上を示した（p<0.001）。

計算効率とスループット: 約180倍の合計カバレッジ（腫瘍+正常）のヒトゲノムデータに対し、Strelkaは81 core-hoursで体細胞変異解析を完了した。SomaticSniperはStrelkaの約1/7の時間で完了するが、感度の大幅な犠牲を伴う。Strelkaは大規模サンプルセットの日常的な臨床・研究利用に十分な計算効率を実現しており、当時TCGA等のコンソーシアムが必要としていた規模のゲノム解析に対応できることが示された。

indelの特性とフィルタリング: indelコールでは、反復ユニットが5コピー以上の「high repeat」indel（Q30以上のコールで190件が集団indelと重複、重複率10.5%）と、短い反復indelの集団重複率（462コールのうち15件、3.3%）に明確な差が認められた。これは、マイクロサテライトやタンデム反復領域におけるポリメラーゼスリッページやその他の要因によるものと解釈される。反復長が8塩基を超えるindelはStrelkaのpost-callフィルターで除去される設計となっており、真の体細胞indelと偽陽性を区別するための重要な品質管理ステップとなっている。StrelkaのSNVモデルではstrand-biasが実装されているが（σ=0.5）、indelはstrand-symmetric noiseのみでモデル化される。

考察/結論

先行研究との違い: StrelkaのBayesian連続アレル頻度モデルは、腫瘍純度推定に依存せず、不純な腫瘍サンプルでも高感度を維持する点において、既存手法に対する明確な優位性を有する。SomaticSniperは二倍体遺伝子型尤度モデルを採用するため、高純度細胞株では非常に少ない偽陽性と高効率を示すが、低純度サンプルでの感度低下が最も顕著であり、40% purityでのSNVコール数が純粋サンプルの50%未満に低下する。VarScanのアレル頻度統計検定アプローチは、正常サンプルの異なる倍数性や汚染への汎用性という大きな利点を持つが、腫瘍純度変動に対する感度の影響はStrelkaより大きく、腫瘍純度0.4を明示指定しても感度低下が確認された。Strelkaは、正常サンプルの二倍体構造という仮定（ヘテロ接合度θ_SNV = 1×10⁻³、θ_indel = 1×10⁻⁴）を利用してVarScanより強力なモデルを実現している点で、既存手法と異なるアプローチをとる。

新規性: 本研究で初めて、腫瘍と正常サンプルの連続的アレル頻度を表現する新規Bayesianアプローチを開発し、腫瘍純度推定を必要とせずに、高腫瘍不純度サンプルにおいても高い感度と精度を維持できることを実証した。このモデル設計は、正常細胞の混入が多い臨床サンプル（例: 固定組織標本、生検材料）、コピー数変化が多様ながんゲノム、および腫瘍内不均一性が高いサンプルでのサブクローナル変異検出への適用を可能にするという点で新規性が高い。

臨床応用: 本知見は、腫瘍純度が低い臨床サンプルからの体細胞変異検出の信頼性を大幅に向上させるため、臨床応用において極めて重要な意義を持つ。特に、FFPE（ホルマリン固定パラフィン包埋）組織や液体生検など、正常細胞の混入が避けられないサンプルからの変異解析において、Strelkaはより正確な診断や治療選択に貢献できる可能性を配している。臨床現場での利用を考慮すると、Strelkaの計算効率は大規模なサンプルセットの日常的な解析にも十分対応可能である。

残された課題: 今後の検討課題として、(1) de-novo局所アセンブリとの統合による長いsomatic indelとopen breakend検出の拡張、(2) 正常サンプル汚染のモデル化（臨床サンプルでは特に重要）、(3) post-callフィルタリング項を機械学習アプローチと統合した単一スコアへの統合（DePristo et al. NatGenet 2011のGATKアプローチの類比）が挙げられる。これらの改善により、Strelkaの性能はさらに向上し、より複雑な変異タイプや困難なサンプル条件にも対応できるようになるだろう。本論文発表後、StrelkaはTCGAやICGCをはじめとする大規模がんゲノムプロジェクトの標準的な体細胞変異検出ツールとして広く採用され、後続のStrelka2へと発展した。ソースコードはIlluminaのFTP (File Transfer Protocol) サーバーで公開され、オープンな活用が促進された。

方法

シーケンシングデータとデータ準備: 転移性メラノーマ細胞株であるCOLO-829 (melanoma cell line) と、同一患者由来のリンパ芽球株であるCOLO-829BL (lymphoblastoid cell line) を、Illumina HiSeqプラットフォームで100bpのペアエンドリードとしてシーケンスした。合計2フローセル分のデータを使用し、CASAVA 1.8 (Consensus Assessment of Sequence and Variation) を用いてhg19ゲノムにアラインメントを実施した。最終的な平均シーケンス深度は、腫瘍サンプルで93.4倍、正常サンプルで86.3倍であった。PCR重複マークとBAM形式へのソートも実施した。データはEuropean Genome-Phenome Archive (EGA) にEGAS00001000245として寄託された。

Strelkaワークフローの3段階構成: Strelkaのワークフローは以下の3段階で構成される。(1) 候補indel検出: 腫瘍と正常サンプルの合計リード数が3以上、かつ各サンプルで規定の割合（5塩基未満のindelで総深度の10%以上、それ以外で2%以上）の支持リードを持つindelを候補として選定する。このプロセスにより、両サンプルで共有される単一の候補indelセットが生成される。(2) 両サンプルのコンテキストでのリード再アラインメント: SNVコールでは、塩基クオリティに基づくアラインメント確率から各リードの代表アラインメントを選択し、曖昧なリードセグメントはソフトクリップとして除外する。indelコールでは、候補indelを含む場合と含まない場合の最良アラインメントを比較する。(3) Bayesian体細胞変異コーラー: 連続的アレル頻度モデルを採用し、正常サンプルを生殖系列変異とノイズの混合として、腫瘍サンプルを正常サンプルと体細胞変異の混合としてモデル化する。

数学的モデルの詳細: 腫瘍（ft）および正常（fn）のアレル頻度の事後確率P(ft, fn | D)を推定し、体細胞状態S = {(ft, fn): ft ≠ fn}の確率を計算する。正常サンプルの周辺事前分布は、二倍体変異とノイズの混合で定義され、ノイズ寄与はSNVでμ_SNV = 5×10⁻⁷、indelでμ_indel = 1×10⁻⁷に設定された。ヘテロ接合度パラメータはθ_SNV = 1×10⁻³、θ_indel = 1×10⁻⁴を使用した。連続アレル頻度は、各軸あたり11点の離散点セットで近似計算される。体細胞コール品質スコアは、正常サンプルでホモ接合性リファレンス遺伝子型を前提としたジョイント確率P(S, Gn = ‘ref/ref’ | D)として定義される。体細胞変異の事前確率P(S)はSNVおよびindelともに1×10⁻⁶に設定された。

2段階callingティアとPost-call filtration: Strelkaは、偽陽性を低減するためにtier1（より厳格なフィルタリング、マッピングクオリティ<40のリードを除去）とtier2（より寛容なフィルタリング、マッピングクオリティ<5 of mapping qualityのリードのみ除去）の2段階のコーリングティアを使用する。最終的な品質スコアは両ティアの最小値として報告される。Post-call filtrationでは、染色体平均の3倍を超える深度領域、ミスマッチ密度フィルターで40%超の塩基が除去されたSNV、75%超のリードがspanning deletionにかかるSNV、反復長が8塩基を超えるindelなどが除外される。

比較データセットと統計解析: 以下の4種類のデータセットを構築した。(1) High Depth: 腫瘍93.4倍、正常86.3倍の深度。(2) Low Purity: COLO-829の120GbとCOLO-829BLの180Gbを混合した、腫瘍純度約40%、深度約88倍の擬似サンプル。(3) Normal Replicate: 正常サンプル（COLO-829BL）を自己対照として用いた偽陽性評価用。(4) Replicate Companion: 腫瘍と正常で各1フローセルのみを使用し、Normal Replicateと同程度の深度に合わせたセット。比較対象はVarScan 2.2.7（デフォルト設定、Low Purityセットでは腫瘍純度0.4を指定）とSomaticSniper 1.0.0（デフォルト設定、Standard filtration適用）である。VarScanのpileup生成にはLi et al. Bioinformatics 2009を用いた。統計的比較にはFisher’s exact testおよびStudent t-testが用いられた。

Research Wiki

エクスプローラー

Strelka: accurate somatic small-variant calling from sequenced tumor-normal sample pairs

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク