• 著者: Kristian Cibulskis, Michael S. Lawrence, Scott L. Carter, Andrey Sivachenko, David Jaffe, Carrie Sougnez, Stacey Gabriel, Matthew Meyerson, Eric S. Lander, Gad Getz
  • Corresponding author: Gad Getz (Broad Institute of MIT and Harvard, USA)
  • 雑誌: Nature Biotechnology
  • 発行年: 2013
  • Epub日: N/A
  • Article種別: Original Article
  • PMID: 23396013

背景

がんゲノム解析において体細胞変異 (somatic single-nucleotide variants; sSNV) の正確な同定は、ドライバー変異の発見、腫瘍進化の理解、個別化治療の実装に不可欠である。しかし、臨床検体ではいくつかの技術的課題が存在する。第一に、腫瘍純度が低い(正常細胞が混在する)こと、第二に、腫瘍内不均一性によりサブクローナル変異のアレル頻度が低いこと(純粋腫瘍でアレル頻度が5%まで低下しうるとCarter et al. NatBiotechnol 2012が報告)、第三に、ホルマリン固定パラフィン包埋 (FFPE) 処理等による系統的シークエンシングエラー(FFPE由来のC>T変異や酸化損傷由来のC>A変異など)が存在することである。これらの要因により、特に低アレル頻度の変異は見逃されやすいという課題があった。

既存の変異検出ツール、例えばGATK UnifiedGenotyper、SomaticSniper、JointSNVMix、Strelkaなどは、主に生殖細胞系変異の検出に最適化されており、アレル頻度0.5前後の変異に対する感度が最大化されていた。このため、アレル頻度20%以下のサブクローナル変異に対する感度は低く、シークエンシングアーチファクトとの区別も困難であった。例えば、Navin et al. Nature 2011Imielinski et al. Cell 2012などの先行研究では、サブクローナル変異の重要性が示唆されているものの、標準的なシークエンシング深度ではその検出が困難であった。これらの課題により、腫瘍の不均一性や正常細胞混入による低アレル頻度の変異を正確に検出する手法は、これまで不足していた。

The Cancer Genome Atlas (TCGA) プロジェクトやInternational Cancer Genome Consortium (ICGC) のような大規模がんゲノムプロジェクトでは、腫瘍サンプル当たりエクソーム100〜150×、全ゲノム30〜60×の深度で数万の腫瘍が解析されており、不純・不均一ながんサンプルに特化した高感度かつ高特異的な体細胞変異コールツールの開発が喫緊の課題として残されていた。特に、腫瘍内不均一性や正常細胞混入による低アレル頻度の変異を正確に検出する手法は、腫瘍のサブクローン構造や進化を解明する上で不可欠であり、既存ツールの性能ではこのニーズを満たすには不足しており、この点が未解明であった。

目的

本研究の目的は、腫瘍純度が低く、腫瘍内不均一性により低アレル頻度の体細胞一塩基変異(sSNV)が存在するがんサンプルにおいて、これらの変異を高感度かつ高特異性で検出するベイズ分類器MuTectを開発し、その性能を検証することである。また、MuTectをがんゲノム解析の標準ツールとして確立することを目指した。

さらに、本研究では、シミュレーションデータではなく実際のシークエンシングデータを用いて、変異検出ツールの感度と特異性を系統的に評価するための新規ベンチマーク手法を開発し、MuTectの性能をシークエンシング深度、塩基品質、アレル頻度の関数として定量的に評価することも重要な目的とした。これにより、既存の変異検出ツールと比較して、特に低アレル頻度変異に対するMuTectの優位性を明確に示し、がんゲノム解析におけるサブクローン構造や腫瘍進化の解明に貢献することを目指した。

結果

感度の定量的評価と競合ツールとの比較: MuTectは、アレル頻度0.20、腫瘍サンプル深度30×の条件で95.6%の感度を達成した。この感度推定値は、3,753例の大腸癌バリデーション変異セットのダウンサンプリング、およびvirtual tumorベンチマークの3つのアプローチ間で高い一致を示した(変動係数中央値3.1%)。深度50×では感度が99.9%に向上し、アレル頻度0.10、深度30×では58.9%の感度を示した(Figure 2b, Supplementary Table 1)。特に低アレル頻度領域での感度において、MuTectは競合ツールを大きく上回った。アレル頻度0.10、深度30×の条件での競合ツール比較(高信頼性; HC設定)では、MuTectが53.2%の感度を示したのに対し、Strelka HCは29.7%、JointSNVMix HCは16.8%、SomaticSniper HCは7.4%にとどまった。これは、MuTectが最低頻度領域で競合ツールの最大7倍以上の感度を持つことを示している。アレル頻度0.40では、すべてのツールが99.3%以上の感度(標準; STD設定)を示し、低アレル頻度領域での性能差が顕著であった。感度と特異性のトレードオフを示すROC曲線解析においても、MuTectは各アレル頻度で最大のAUC(曲線下面積)を示した(Figure 2a)。

エクソーム深度(150×)での低頻度変異検出: エクソームシークエンシングで一般的な150×の深度では、MuTectはアレル頻度3%の変異に対しても66.4%の感度を達成した。これは、純粋腫瘍で二倍体領域のヘテロ接合変異を仮定した場合、がん細胞の約10%に存在するサブクローナル変異(アレル頻度5%)を標準エクソーム深度で検出できることを意味し、サブクローナル解析の実用性において極めて重要である。アレル頻度0.05での感度はMuTect HCで16.0%であったが、深度60×に増加させることで51.9%に向上した。同条件でJointSNVMix HCおよびSomaticSniper HCはそれぞれ2.0%以下の感度にとどまり、深度増加による感度改善もほとんど見られなかった(Figure 4a)。慢性リンパ球性白血病 (CLL) におけるアレル頻度5〜8%のサブクローナル変異検出に関するLandau et al. Cell 2013の研究では、これらの変異が初回治療までの時間の独立した予後因子であることが示されており、MuTectの低頻度変異検出能力の臨床的意義を裏付けている。

偽陽性率の評価と特異性: 腫瘍データにおける偽陽性率(真の参照サイトを体細胞変異と誤検出するエラー)は、フィルター非適用時(STD設定)では深度5×で6.7 Mb⁻¹、深度30×で20.1 Mb⁻¹まで上昇した(Figure 3a)。しかし、HCフィルターを適用することで、偽陽性率は深度30×で1.00 Mb⁻¹まで大幅に低下した。さらに、PONフィルター(HC + PON)を適用することで、偽陽性率は0.51 Mb⁻¹まで抑制された。個々のフィルターの寄与を見ると、「Proximal gap」フィルターは低深度で、「Strand bias」フィルターは深度非依存的に機能した。「Clustered position」フィルターが最も多くの部位を排他的に排除したが、多くの偽陽性は複数のフィルターによって重複して除去された。STD設定での偽陽性率の中央値は10.2 Mb⁻¹(範囲0.7〜20.1)、HC設定での中央値は1.0 Mb⁻¹(範囲0.2〜3.1)であり、感度を大幅に犠牲にすることなく特異性を改善できることを示した。

マッチト正常サンプルでの生殖細胞系誤分類率: マッチト正常サンプルデータにおける生殖細胞系変異の誤分類率(真の生殖細胞系変異を体細胞変異と誤分類するエラー)は、正常サンプル深度8×で2.4 × 10⁻³であったが、深度12×では0.2 × 10⁻³未満に急減した(Figure 3d)。これは、エクソーム全体(約30 Mb × 50未知変異/Mb × 0.2 × 10⁻³)で1未満の誤分類という極めて高い特異性を意味する。dbSNPに既知の部位では、生殖細胞系変異である事前確率を高く設定(θN=5.5)することで、未知部位(θN=2.2)と区別し、誤分類率をさらに低減した。

独立バリデーション率(複数のがん種での実証): 既存バージョンのMuTectを用いた複数の公表研究において、コーディング領域における独立バリデーション率の一貫性が確認された(Table 2)。多発性骨髄腫(94.6%、偽陽性率0.16 Mb⁻¹)、頭頸部扁平上皮癌(95.8%、0.14 Mb⁻¹)、乳癌(94.5%、0.16 Mb⁻¹)、前立腺癌(95.6%、0.06 Mb⁻¹)、大腸癌(94.8%、0.31 Mb⁻¹)、CLL(93.0%、0.06 Mb⁻¹)、肺腺癌(96.2%、0.46 Mb⁻¹)など、累計データが示され、中央値偽陽性率0.16 Mb⁻¹は全ゲノムデータよりも低く、コーディング領域でのアーチファクト低頻度を反映した。特筆すべき検証例として、アレル頻度7%(8/102リード)の変異がMuTectで検出され、超深度シークエンシング(約6,000×)で後続バリデーションされた事例が報告された。

考察/結論

先行研究との違い: MuTectは、がんゲノム研究における体細胞変異コールのデファクトスタンダードとなり、TCGAプロジェクトの全癌種解析を含む数千の研究で広く使用されてきた。既存のSomaticSniperやJointSNVMixが固定50%アレル頻度を仮定していたことと対照的に、MuTectはLODスコアによるアレル頻度fの明示的モデル化を感度向上の核心としている点で根本的に異なる設計思想に基づいている。このアレル頻度を考慮したベイズ分類器の導入により、特に低アレル頻度変異の検出において、MuTectは他のツールと比較して顕著な優位性を示した。

新規性: 本研究で初めて開発された「Virtual tumor法」という新規ベンチマーク設計も方法論的貢献である。これは、シミュレーションではなく実際のリードデータを用いながら、既知位置・既知アレル頻度の真陽性変異で系統的評価を可能にした点で新規性が高い。この手法により、MuTectの感度と特異性の感度曲線(ROC)が全アレル頻度帯域で最良のトレードオフを示すことが、客観的に実証された。また、MuTectのフィルター群は、感度を犠牲にすることなく偽陽性コールを効果的に排除するように慎重に調整されており、この点も新規性として挙げられる。

臨床応用: MuTectの低純度・低頻度変異の検出能は、液体生検(循環腫瘍DNA; ctDNA)や微量検体からの体細胞変異同定に直結する。EGFR、KRAS、TP53などのドライバー遺伝子における低頻度変異の早期検出や治療モニタリングへの応用が進んでおり、臨床的意義は大きい。CLLにおけるサブクローナル変異(アレル頻度5〜10%相当)が予後へ影響を与えるというLandau et al. Cell 2013の報告は、本手法の臨床的有用性の具体的な証拠である。標準エクソーム深度(100〜150×)でがん細胞10%のサブクローナル変異(アレル頻度5%)を検出できる能力は、腫瘍内不均一性を反映した治療反応性や耐性獲得機序の解析に不可欠であり、精密医療の実現に向けた重要な基盤技術となる。

残された課題: 今後の検討課題として、超低アレル頻度(<1%)変異の検出精度向上(ユニーク分子識別子; UMIシークエンシング等との組み合わせ)、腫瘍内不均一性に伴うサブクローナル変異の系統解析への展開、人工知能を活用したシークエンシングエラーモデルの高度化、および非コーディング領域での偽陽性率のさらなる低減が挙げられる。また、本手法のアーキテクチャはWGS、パネルシークエンシング、ctDNA解析など広範なゲノム解析プラットフォームに適用可能であり、今後も進化が期待される。後継ツールのMuTect2では挿入欠失変異検出への拡張が実現されており、さらなる機能向上が進められている。

方法

MuTectの設計: MuTectは、マッチト腫瘍・正常DNAの次世代シークエンシングデータ(リードのアライメントと標準的な前処理後)を入力として、各ゲノム座を独立して解析する。主要な4つのステップが実装された。(1) 低品質リードの除去: シークエンシングエラーやアライメントエラーに起因する偽陽性を減らすため、低品質のシークエンスデータを除去した。(2) ベイズ分類器による腫瘍サンプルでのバリアント検出: 参照モデルM0(変異なし)とバリアントモデルMfm(アレル頻度fの変異あり)の対数尤度比(LODスコア)を計算し、LODスコアが所定の決定閾値θT=6.3を超える場合に候補変異として宣言した。このモデルはアレル頻度fを明示的にモデル化しており、これがSomaticSniperやJointSNVMix(固定50%アレル頻度仮定)との感度差の核心である。(3) シークエンシングアーチファクトを排除する6つのフィルター: 不正確なリード配置や非独立的なシークエンシングエラーに起因する偽陽性を排除するため、「Proximal gap」「Poor mapping」「Triallelic site」「Strand bias」「Clustered position」「Observed in Control」の6種類のフィルターを適用した(Table 1)。(4) マッチト正常サンプルとの比較による体細胞/生殖細胞系の判定: 腫瘍サンプルで検出された各変異を、マッチト正常サンプルでのデータに基づいて体細胞変異、生殖細胞系変異、または分類不能として指定した。さらに、Panel of Normal Samples (PON) フィルターを追加し、125例の正常サンプルデータで2例以上に認められる部位を除外することで、稀なエラーモードによる偽陽性を排除した。

ベンチマーク設計: 変異検出ツールの性能を評価するため、2つの補完的なベンチマーク手法を開発した。(a) ダウンサンプリング法: Network et al. Nature 2012による大腸癌3,753例の既知体細胞変異(中央値アレル頻度0.28、範囲0.07〜0.94)のデータセットを使用し、リードをランダムに除外してシークエンシング深度を変化させることで、既知変異の検出感度を評価した。この手法は元の変異のアレル頻度を維持しつつ、深度変化での感度を測定できる。(b) Virtual tumor法: NA12878とNA12891の2個人の全ゲノムシークエンシング (WGS) データ(Illumina HiSeq、1 Gbゲノム領域)を用い、既知生殖細胞系変異位置にNA12891のリードをNA12878データに混入させることで、既知位置・既知アレル頻度の「仮想体細胞変異」を作成した。これにより、シミュレーションデータではなく実際のリードを使いながら、既知の真陽性変異に対する感度と特異性を系統的に評価することが可能となった。特異性測定のためには、同一正常サンプルから作成した仮想腫瘍・正常データセットを用い、検出された変異をすべて偽陽性とした。これらの手法を組み合わせることで、シークエンシング深度、塩基品質、アレル頻度に対する感度と特異性の依存性を詳細に解析した。統計解析には、ベイズ分類器を用いた尤度比検定を主要な手法として採用した。