• 著者: Mwenifumbo JC, Marra MA
  • Corresponding author: Marco A. Marra (BC Cancer Research Centre)
  • 雑誌: Nature Reviews Genetics
  • 発行年: 2013
  • Epub日: N/A
  • Article種別: Review
  • PMID: 23594910

背景

次世代シーケンス技術の急速な発展により、がんゲノムの全ゲノム・全エクソームシーケンスが現実的なコストで実施可能となった。2008年に第二世代技術を用いた最初のがんゲノム(急性骨髄性白血病、AML)が解析されてから約4年で、少なくとも25癌種から約800ゲノムがシーケンスされた。かつては一人のゲノム解析に10年以上と38億ドルを要していたが、本レビュー発表時点ではコストは数千ドルまで低下していた。この技術革新は、がんの基礎生物学知識を大幅に増加させ、がんの予防、診断、予後予測、治療の進歩に貢献する機会をもたらした。しかし、がんゲノムシーケンス研究の目的は多岐にわたり、ドライバー変異の同定、変異シグネチャの解明、クローン進化の追跡、個別化医療への応用など、特定の研究目標によって最適な研究設計は大きく異なる。例えば、がん予防は、適切に設計された次世代がんゲノムシーケンス研究から大きな恩恵を受ける可能性のある重要な分野である。家族ベースおよび症例対照研究デザインは、個人の癌素因となる遺伝性多型を解明するために不可欠となる。癌素因を知ることは、ライフスタイル行動や医療介入が癌リスク、罹患率、死亡率を低減する場合、患者、医療従事者、医療システムに利益をもたらす。サンプル数、シーケンス深度、対象部位、解析手法の選択が研究成果の質を左右するため、研究設計の原則を体系的に整理し、研究者が特定の目的に合わせて最適なアプローチを選択できるよう支援することが求められていた。先行研究では、Stratton et al. Nature 2009ががんゲノムの概念を提示し、Meyerson et al. Nature Reviews Genetics 2010が第二世代シーケンスによるがんゲノム解析の技術的進歩を概観したが、具体的な研究設計戦略に関する実践的なガイダンスは不足しており、この領域には知識ギャップが残されていた。特に、急速に増加する発表論文の妥当性と重要性の評価を促進するため、がんゲノムシーケンス研究の設計戦略と方法論的考慮事項を包括的に解説し、特定の研究目的に合わせたアプローチを提示する必要があった。

目的

本レビューの目的は、次世代がんゲノムシーケンス研究における主要な設計戦略を体系的に論じ、各設計の目的、強み、限界を明らかにすることである。具体的には、単症例研究、ドライバー変異発見コホート、マルチオームコホート、検証コホートの4つの主要な研究タイプを分類し、それぞれの研究目的に合わせた方法論的考慮事項を詳細に解説する。また、体細胞単一塩基変異(SNV)コーリング手法の比較、構造変異検出のためのペアエンドリードの利用、および臨床的に実用可能な変異の整理も行う。これにより、急速に増加する発表論文の妥当性と重要性の評価を促進し、研究者が自身の研究目標を達成するための最適な設計を選択できるよう支援することを目指す。

結果

がんゲノムシーケンス研究の4つの特定目的: 次世代シーケンスを用いたがんゲノム研究は、これまで主に4つの特定目的を持つものが中心であった(図1)。 (1) ドライバー変異の発見: これは最も一般的な目的であり、がん病態に寄与する体細胞変異の同定は治療標的の発見・開発につながる。例えば、リンパ腫におけるEZH2遺伝子の体細胞変異発見は、EZH2阻害薬の開発へとつながった。 (2) 変異シグネチャの同定: kataegisやchromothripsisなどの新規変異現象が次世代シーケンスによって初めて記述された。変異のゲノム全体にわたる分布とスペクトラムを解析することで、変異プロセスとDNA修復メカニズムの理解が深まる。 (3) クローナル進化の解明: がん治療への応用において特に重要であり、主要サブクローンが共有する変異(薬剤耐性変異など)と微小サブクローン由来のde novoの耐性変異の両方が、KRAS変異によるEGFR標的治療耐性として文書化されている。 (4) 個別化医療の推進: 特定の遺伝子変異に応じた最適薬剤選択による毒性低減と有効性向上が目標である。例えば、髄芽腫は全体的な生存率と分子シグネチャの両方に関して不均一な癌種であり、積極的な治療は実質的な罹患率を犠牲にして死亡率を改善する。積極的な治療レジメンによって最も恩恵を受ける患者を特定することは、髄芽腫生存者の生活の質を改善する大きな可能性を秘めている。これら4つの目的は相互排他的ではなく、単一の研究が複数の目的を同時に達成することもある。

方法論的基礎要件:マッチド正常ゲノム・シーケンス深度・確認再シーケンス: 次世代がんゲノムシーケンス研究には広く合意された方法論的要件が存在する。第一の要件はマッチド正常ゲノムのシーケンスである。癌細胞ゲノムと患者自身の非癌性「正常」ゲノムの比較により、体細胞変異を生殖細胞系列多型から区別する。正常ゲノムのソースとして、血液系悪性腫瘍では皮膚生検(循環腫瘍細胞混入を避けるため)、固形腫瘍では末梢血単核球(PBMC)が主に使われる。平均的な人間は300〜400万個のSNPを持つが、成人がんゲノムの体細胞SNVは数千〜数万個程度であるため、正常ゲノムの変異コーリング品質がsomaticコールの正確性に直接影響する。評価指標としてdbSNPとのオーバーラップ率、transition/transversion比(全ゲノムで約2.1)、SNPアレイとのコンコーダンスが用いられる。第二の要件はシーケンス深度である。30倍カバレッジで3GBの半数体ヒトゲノムをカバーするには約90GBのアライン済み配列が必要であり、一般的にSNP検出には30倍が十分とされているが、正常ゲノムの信頼できる遺伝子型コールには50倍程度が必要という提案もある。がんゲノムは正常ゲノムと異なり、異数性・正常細胞混入・クローナル不均一性により変異アレル頻度が連続的な値を取り得る(0〜100%の範囲)。マイナーサブクローンの変異(変異アレル頻度1〜2%)を検出するには400〜500倍の超高深度シーケンスが必要である。ICGCガイドラインでは腫瘍細胞含有率を少なくとも60〜80%に維持することを推奨しており、高間質含有量のがん(膵癌など)ではマイクロダイセクション・細胞ソーティング・低継代細胞株・異種移植などの腫瘍純化手法が有効である。第三の要件は確認再シーケンスであり、技術固有のシステマティックエラー(ライブラリー作製アーチファクト・シーケンスエラー・アライメント不正確)による偽陽性を排除するため、別技術(Sangerシーケンス・mass spectrometric genotyping・異なる次世代プラットフォームを用いたtargeted capture)で変異の体細胞性を確認する。ICGCは全変異カタログの少なくとも95%が真陽性であること、最低384変異の確認を基準として提案している。

単症例研究の仮説生成と個別化医療への応用: 単症例研究は仮説生成に適しており、特に変異シグネチャの記述(例:小細胞肺癌ゲノムのタバコ関連変異スペクトラム記述)やクローナル進化の探索(例:乳癌転移例の単一塩基解像度での変異進化の追跡)において先駆的な役割を果たしてきた。個別化医療への応用として最もよく引用される事例の一つは、稀な治療抵抗性転移性腺癌患者に対してゲノム・トランスクリプトーム統合解析からチロシンキナーゼ阻害剤治療の仮説が立てられ、部分寛解が観察されたが最終的に薬剤耐性が生じた報告である(Jones et al., Genome Biol 2010)。その後の再シーケンスで転移巣が特に標的とされたキナーゼ経路において広範な進化を遂げ、耐性を獲得していたことが示された。単症例研究の限界は、所見の一般化が困難なことと、どの変異が病態に重要かの推論がエビデンスベースの文献か系統発生学的解析に依存するため新規性に制限があることである。

ドライバー変異発見コホートの統計的検出力と規模: 特定がん種で有意に高頻度に変異する遺伝子(ドライバー)を同定するためには、統計的検出力を確保するためのコホート規模が必要である。ICGCのガイドラインによると、3%の症例に変異するドライバー遺伝子を信頼して検出するには発見コホート約100例・検証コホート約400例の腫瘍正常ペアが必要である。統計的手法としてMutSig(Broad Institute)やMuSiC(Genome Institute of Washington University)が用いられ、バックグラウンド変異率(塩基コンテキスト・ゲノム領域・コホート間で異なる)を超えて有意に高頻度に変異する遺伝子を同定する。バックグラウンド変異率の算出に際しては、遺伝子長・ヌクレオチド組成による本来的な変異率の違いを補正する必要がある。多くの既存コホートは2〜97例と小規模であり、統計的検出力が限られている。高頻度の再発変異は小コホートでも発見可能だが(例:リンパ腫でのEZH2変異)、がん変異ランドスケープの包括的なカタログ化には大コホートが不可欠である。ドライバー変異の発見アプローチとして、(a) 既知がん遺伝子・パスウェイへの変異注釈に基づく直接解釈、(b) MutSig等による統計的再発変異同定、(c) パスウェイ解析(変異ランドスケープが不均一で再発変異が少ない場合に特に有効)、(d) 変異の相互排他性解析によるサブタイプ定義、の4つが説明された。代表的ベンチマーク研究として、多発性骨髄腫(n=23 WGS/n=16 WES、MutSigで10遺伝子同定、n=161例で検証)、メラノーマ(n=25 WGS、MutSigで11遺伝子)、乳癌(n=46 WGS/n=31 WES、MuSiCで18遺伝子)などが具体的なデータとして挙げられた(表2)。

マルチオームコホートとクローナル進化の解析設計: ゲノム(DNA)、トランスクリプトーム(RNA)、エピゲノム(メチル化など)の統合解析(マルチオーム)は、ドライバー変異の発現への影響を包括的に把握できる(図2)。マルチオームコホートの設計では、費用節約のため少数サンプルで全ゲノムシーケンスを行いつつ、多数サンプルに対してはエクソームやトランスクリプトームシーケンスを実施することが多い。エクソームシーケンスは全ゲノムと比べてコストが低く(ゲノムの約1〜2%の配列でコーディング変異の大多数を検出)、より高い深度が得やすいため低頻度サブクローン変異の検出感度が向上する。しかしエクソームは非コード領域の変異を検出できず、捕捉効率の低い領域でのコーディング変異を見逃す欠点もある。RNA-seqは体細胞変異(SNV・インデル)、キメラ転写産物、新規転写産物、選択的スプライシング、アレル不均衡、差次的発現を同時に検出できる強力な補完ツールである。統合オミクス(integration omics)ではゲノム・トランスクリプトーム・エピゲノムの異なる変異種が同一のパスウェイ・遺伝子に収束することを解析し(例:Network et al. Nature 2012)、個別変異型の差異を超えた共通のがん病理を理解できる。インタラクションオミクス(interaction omics)は同一サンプルで複数のオミクス測定を行い、変異やエピゲノム変化が転写産物量や他のオミクス層に与える影響を直接解析する新興分野であり、当時は二重以上のオミクス測定を行った研究が少なく、解析バイオインフォマティクスツールも不足していた。クローナル進化の解析には3つのシーケンス設計がある。(a) 超高深度再シーケンス(>100倍):選択的な体細胞変異位置を高精度で変異アレル頻度測定し、クラスタリング解析によりサブクローン数・腫瘍内不均一性を推定、系統樹の構築が可能で単一サンプルで完結する利点がある。(b) 多部位シーケンス(multi-region sequencing):同一固形腫瘍の空間的に異なる領域を並列解析することで、変異アレル頻度解析なしにクローン不均一性と系統発生を検出できる。(c) 連続多サンプルシーケンス(sequential multi-sample sequencing):診断時・再発時・転移時を経時的に解析し、サブクローン変異の頻度変化から治療耐性獲得タイミングと機序を解明できる。ただし固形腫瘍での連続生検は侵襲性の問題から広く実施されておらず、血液系悪性腫瘍ではより実施しやすい。

SNVコーリング手法の比較と主な技術的課題: 体細胞SNVのコーリングには腫瘍・正常ペアの比較が不可欠であり、多数のツールが開発されている(表1)。偽陽性の原因としてPCRによるduplicate導入とstrand/GC bias、GCリッチ・ATリッチ領域の低カバレッジ、シーケンスエラー(Illuminaは3’末端に集中、454はホモポリマー領域に多い)、アライメントアーチファクト(低マッピング品質領域・単純反復配列・タンデム重複でのmisalignment、インデル周辺でのmisalignment)が挙げられる。代表的ツールの特性として、Samtools mpileup(Bayesian遺伝子型尤度モデル、独立コール)、GATK UnifiedGenotyper・HaplotypeCaller(Bayesianモデル、Variant Quality Score Recalibrator内蔵)、SomaticSniper(腫瘍正常ペア共同コール、Bayesianモデル)、VarScan2(Heuristic Fisher’s exact test、独立または腫瘍正常ペア)、Strelka(連続アレル頻度のBayesianモデル、腫瘍正常ペア)、JointSNVMix(確率グラフィカルモデル)が比較された。各ツールは感度と特異度のバランスが異なり、腫瘍純度・深度・クローン構成の違いにより最適ツールが変わる。低頻度サブクローナル変異(変異アレル頻度1〜2%)には400〜500倍の高深度シーケンスとより感度の高い手法が必要である。

臨床的実用変異と個別化医療の実現への課題: 臨床的実用性を持つ変異として、RET変異(スニチニブ・ソラフェニブ)、BRAF V600E変異(ベムラフェニブ)、KRAS変異(セツキシマブ非感受性の予測因子)、EGFR/ERBB2/ERBB3シグナリング(ゲフィチニブ・エルロチニブ・セツキシマブ・ラパチニブ)、EML4-ALK(クリゾチニブ)、PML-RARA(all trans-retinoic acid)、LRRK(ボルテゾミブ候補)が表にまとめられた(表1)。コホートベースの個別化医療研究試験への移行には多くの課題があり、複数の薬剤が試験アームに必要な場合の費用負担と利益相反の問題、特定の変異を持つ患者のスクリーニングコスト(TripleNegative乳癌の約20%・肺癌の60%以上に潜在的にactionable変異が存在する報告もある)、倫理的観点から末期患者での初期試験が必須となる現状などが課題として議論された。統計的有意性のみでなく、臨床的有意性(相関の強さ・効果サイズ)と技術的信頼性(感度・特異度)が臨床応用の基準として重要であると強調された。例えば、神経芽腫では、ATRX(alpha thalassaemia/mental retardation syndrome X-linked)の体細胞変異が年齢と関連し、年齢は生存の予後マーカーである。また、chromothripsisは神経芽腫および急性骨髄性白血病において不良な生存と関連する。

考察/結論

先行研究との違い: 本レビューは、Meyerson et al. Nature Reviews Genetics 2010が次世代シーケンスによるがんゲノム解析の技術的進歩を概観したのに対し、がんゲノムシーケンス研究の設計を目的別に整理した実践的ガイダンスを提供した点で、これまでのレビューと異なり独自の意義を持つ。

新規性: 本研究で初めて、がんゲノムシーケンスの多様な研究目的を体系的に分類し、それぞれの目的に応じた最適な研究設計と方法論的考慮事項を詳細に解説した。特に、シークエンシング深度、腫瘍純度、変異確認の重要性といった実践的な側面を強調し、研究者が偽陽性・偽陰性を最小限に抑えつつ、信頼性の高い結果を得るための具体的な指針を示した点は新規性が高い。

臨床応用: 本レビューが整理した方法論的枠組みは、がんゲノム情報を臨床応用へと橋渡しする上で重要な基盤となる。特に、個別化医療の推進に向けたコホート設計や、臨床的に実用性のある変異のリストアップは、将来の臨床試験設計や治療戦略の決定に直接的な臨床的意義を持つ。例えば、TCGA et al. Nature 2012は、肺扁平上皮癌の包括的ゲノム解析により、新規の治療標的候補を同定し、個別化医療の可能性を示した。

残された課題: 本レビューが整理した方法論的枠組みは現在も有効であるが、技術の進化により新たな展開が生まれている。SNVコーリングツールはより精緻化され、液体生検(ctDNA)が連続モニタリングの新手段として台頭した。単一細胞シーケンスはクローナル進化解析をより高解像度で実現できるようになった(例:Navin et al. Nature 2011)。非コード変異の解釈と臨床的意義評価も活発に研究されている。本レビュー発表後の10年余で、TCGAは33癌種1万例以上の統合ゲノム解析を完成させ、本レビューが提示したマルチオームコホート設計の大規模実践がほぼ実現している。臨床シーケンスの標準化と普及についても、各国で次世代シーケンスによる包括的がんゲノムプロファイリングが保険適用される段階へと進んでおり、本レビューが先見的に論じた「将来の課題」の多くが現実化しつつある。今後の検討課題として、これらの新技術を既存の設計戦略にどのように統合し、さらに効率的かつ包括的ながんゲノム研究を推進するかが挙げられる。また、倫理的側面やデータ共有の課題も引き続き重要である。

方法

本レビューは、がんゲノムシーケンス研究の設計戦略と方法論的考慮事項を包括的に解説するレビュー論文である。研究は、単症例研究、ドライバー変異発見コホート、マルチオームコホート、検証コホートの4つの主要カテゴリーに分類して論じられた。各カテゴリーについて、その目的、利点、限界、および具体的な実施例が提示された。文献検索は、PubMed、Embase、Web of Scienceなどの主要な医学・生物学データベースから関連する文献を検索し、がんゲノムシーケンス研究の設計に関する最新の知見を統合した。

方法論的基礎要件として、以下の点が詳細に議論された。

  1. マッチド正常ゲノムのシーケンス: 癌細胞ゲノムと患者自身の非癌性「正常」ゲノムの比較により、体細胞変異を生殖細胞系列多型から区別する重要性が強調された。正常ゲノムのソースとして、血液系悪性腫瘍では皮膚生検、固形腫瘍では末梢血単核球(PBMC)が主に用いられる。正常ゲノムのSNPコーリング品質評価指標として、dbSNPとのオーバーラップ率、transition/transversion比(全ゲノムで約2.1)、SNPアレイとのコンコーダンスが挙げられた。
  2. シーケンス深度: SNV検出には30倍カバレッジが一般的に十分とされているが、正常ゲノムの信頼できる遺伝子型コールには50倍程度が必要という提案も紹介された。がんゲノムにおける低頻度サブクローン変異(変異アレル頻度1〜2%)の検出には、400〜500倍の超高深度シーケンスが必要であるとされた。腫瘍純度を少なくとも60〜80%に維持することの重要性も指摘され、マイクロダイセクションや細胞ソーティングなどの腫瘍純化手法が有効であると述べられた。
  3. 確認再シーケンス: 技術固有のシステマティックエラーによる偽陽性を排除するため、Sangerシーケンス、mass spectrometric genotyping、異なる第二世代プラットフォームを用いたtargeted captureなどの別技術による変異の体細胞性確認の必要性が強調された。International Cancer Genome Consortium(ICGC)は、全変異カタログの少なくとも95%が真陽性であること、最低384変異の確認を基準として提案している。

体細胞SNVコーリング手法については、Samtools mpileup、GATK UnifiedGenotyper/HaplotypeCaller、SomaticSniper、VarScan2、Strelka、JointSNVMixといった代表的なツールの特性が比較された。これらのツールは、PCRアーチファクト、シーケンスエラー、アライメントアーチファクトなどの偽陽性原因を最小限に抑えるためのフィルタリング機能を備えている。統計的手法として、MutSigやMuSiCなどのツールがドライバー変異の同定に用いられることが説明された。

臨床的実用性のある変異として、RET、BRAF、KRAS、EGFR/ERBB2/ERBB3シグナリング、EML4-ALK、PML-RARA(promyelocytic leukemia-retinoic acid receptor alpha)、LRRK遺伝子を対象とした治療薬との対応表が提示された。また、ICGCの品質基準(少なくとも95%の体細胞変異が真陽性であること、最低384変異の確認)についても言及された。