- 著者: Matthew Meyerson, Stacey Gabriel, Gad Getz
- Corresponding author: Matthew Meyerson (Dana-Farber Cancer Institute / Broad Institute)
- 雑誌: Nature Reviews Genetics
- 発行年: 2010
- Epub日: N/A
- Article種別: Review
- PMID: 20847746
背景
がんは根本的にゲノムの疾患であり、点変異・コピー数変化・染色体再編成などの体細胞ゲノム変化の蓄積が発症・進展を駆動する。先行研究においてEGFRキナーゼドメイン変異 (Lynch et al. 2004、Paez et al. 2004) が発見され、変異陽性の肺がん患者ではゲフィチニブ/エルロチニブが顕著な生存延長をもたらす一方でEGFR野生型では効果がないことが示された。KRASやBRAFなど他の主要なドライバー遺伝子の変異もSanger法・マイクロアレイを用いた先行研究 (Davies et al. 2002; Wood et al. 2007) で単遺伝子・単カテゴリ単位で同定されてきたが、包括的なゲノム解析は治療標的同定と個別化医療の基盤として未整備であった。従来の技術 (DNAマイクロアレイ・Sanger法: 第一世代シークエンシング) は単一遺伝子変異やコピー数変化を部分的にしか解析できず、点変異・コピー数変化・染色体再編成・微生物感染の全てを同一プラットフォームで検出する手段が不足しており、がんゲノムの包括的解析が未確立であるという知識のギャップ (knowledge gap) が存在していた。2005年以降に登場した第二世代シークエンシング (NGS: next-generation sequencing) は、同一プラットフォームで全ての主要ゲノム変化クラスを検出できるデジタルかつ高スループットな技術であり、がんゲノム解析に革命をもたらしつつある (Metzker et al. NatRevGenet 2010)。
がんゲノム解析には一般的なゲノム解析とは異なる固有の課題が存在する。試料の量 (生検ではごく少量)・質 (FFPE (formalin-fixed paraffin-embedded: ホルマリン固定パラフィン包埋) 標本ではDNAが断片化・架橋)・純度 (腫瘍細胞と非腫瘍細胞の混在)、そして腫瘍内不均一性 (異なるゲノムを持つ複数クローンの共存) が問題となる。がんゲノムの変異頻度は癌腫によって極めて大きく異なり、例えば紫外線誘導悪性黒色腫では約10変異/Mbに達するのに対し、造血器悪性腫瘍では1変異/Mb以下の場合もある。体細胞変異の検出には正常組織との対比が不可欠であり、これが解析デザインの中心課題となる。
目的
全ゲノム・エクソーム・トランスクリプトームシークエンシングを用いたがんゲノムの体細胞変異 (ヌクレオチド置換・小挿入欠失・コピー数変化・染色体再編成・微生物感染) 検出に関する方法論的原理・実験的考慮点・計算的課題を体系的に整理し、がんゲノム解析の現状と将来の診断応用展望を論じること。
結果
がん試料特有の課題と試料要件: がん試料は解析に特有の困難を呈する。試料量については、外科切除検体は十分量が得られる一方で、診断目的の生検 (転移巣から採取) では細胞数が限られ核酸量が不足しがちであり、全ゲノム増幅 (WGA (whole-genome amplification): 全ゲノム増幅) が必要になる場合もある。試料質については、臨床検体の多くがFFPE (formalin-fixed paraffin-embedded: ホルマリン固定パラフィン包埋) 処理を受けており、DNAの架橋・断片化による品質低下が問題となる。FFPE由来核酸の解析には特殊な実験的補正 (酸化損傷への対処) および計算的補正 (人工変異の除去) が必要とされ、背景変異率の増大を招く。腫瘍純度については、悪性細胞と非悪性細胞の混在を考慮した解析モデルが必要であり、例えば腫瘍細胞比率50%・4コピー染色体上の1コピー変異では観察される変異アリル頻度は12.5%となり、これを検出するには十分なカバレッジ深度が求められる (Fig. 2参照)。加えて、腫瘍そのものが異なるゲノムを持つ複数クローンから構成される腫瘍内不均一性も解析の複雑化をもたらし、臨床的意義ある変異と同等に重要なサブクローン変異の検出が課題となる。これらの固有課題はNGSのover-sampling (例: 腫瘍・正常とも30×以上の深いカバレッジ) により部分的に克服できることが示された。
全ゲノムシークエンシング (WGS) の特性と実績: 2008年のAML (acute myeloid leukemia: 急性骨髄性白血病) ゲノムシークエンシングを嚆矢として、小細胞肺がん・黒色腫・乳がんなど複数癌腫でのWGS研究が相次いだ (Table 1:AML・乳がん・黒色腫・小細胞肺がんなど計9研究)。WGSの最大の強みは染色体再編成の網羅的発見にある (Bentley et al. Nature 2008)。前立腺がんにおけるTMPRSS2 (type-2 membrane-anchored protease serine)-ERG (erythroblast transformation specific-related gene) 転座やNSCLC (non-small cell lung carcinoma: 非小細胞肺癌) におけるEML4-ALK (echinoderm membrane-like anaplastic lymphoma kinase) 融合遺伝子転座は従来の細胞遺伝学的手法では系統的発見が困難だったが、ペアエンドWGSにより同定された (Soda et al. Nature 2007)。本レビューの時点ではこれら2つの転座が固形がんで最初に同定された主要な反復転座として紹介され、NGSがこの発見を他のがん種 (前立腺がんでのBRAF/CRAF (cellular raf proto-oncogene) 再編成等) に拡張できることが示された。
点変異の高感度検出には1塩基あたり平均30×以上 (=ヒトゲノム全体で90 Gbのデータ生成) が必要であり、腫瘍純度が低いほど必要カバレッジが増大する。染色体再編成の検出はペアエンド配列の予期せぬマッピングパターン (異なる染色体・位置間のペアリング) を利用するため、より少ないシークエンシング量でも可能である。ジャンピングライブラリ (3 kbスペーシングのペアエンド) を用いれば同一の物理カバレッジを通常の1/10のシークエンシングコストで達成でき (例: 300 bpインサートに対して3 kbインサートは物理カバレッジが10倍高い; Fig. 1)、再編成検出の費用対効果を大幅に改善できる。ただしジャンピングライブラリは大量の高品質DNAを必要とするためFFPE検体への適用が難しく、また各位置のシークエンシングカバレッジ (=点変異検出感度) が低下するという二重のトレードオフが存在する。
検出可能な再編成の種類は広範であり、染色体内再編成 (逆位・タンデム重複・欠失)、非ヒト配列の挿入 (ウイルス配列等)、相互・非相互染色体間転座、複合再編成が全て含まれる。ただし長い反復配列 (Alu・LINE (long interspersed nuclear element) 要素) やセントロメア内の再編成は現行技術では検出困難である。
エクソームシークエンシングの効率性と感度最適化: エクソームはゲノム全体の約1% (約30 Mb) にすぎないため、エクソームシークエンシングでは75×平均カバレッジをわずか3 Gbのシークエンシングで達成できる (全ゲノム30×解析には90 Gbが必要)。この大幅な効率化により多数サンプルの並列解析が可能となる。ハイブリッド選択法 (核酸「ベイト」による目的領域の濃縮; Figure 2) が主要手法であり、腫瘍DNAと正常DNAを並列処理することで低腫瘍純度の試料でも感度高く体細胞変異を検出できる。
大規模エクソーム解析の成果として、BRAF・EGFR・ERBB2 (erythroblastic leukemia viral oncogene homolog receptor)・FGFR2 (fibroblast growth factor receptor 2)・JAK2 (janus kinase 2)・ALKなど重要ドライバーキナーゼ変異が大腸がん・乳がん・膵臓がん・膠芽腫から次々と発見された。膠芽腫でのIDH1 (isocitrate dehydrogenase 1) 変異、膵臓がんでのPALB2 (BRCA2のパートナー: partner and localizer of BRCA2) の生殖細胞系変異の発見はエクソームシークエンシングの代表的成果として引用された。エクソームは染色体再編成検出には適さない (エクソン内・近傍に限定) 点と、エクソン間でキャプチャー効率が不均一なため一部エクソンがカバーされない場合があるという2つが主要な限界である。しかし診断応用では特定のオンコジーン/腫瘍抑制遺伝子を高深度でスクリーニングすることができ、腫瘍細胞比率が低い検体でも感度を確保できる利点がある。
トランスクリプトームシークエンシング (RNA-seq) の特性と限界: RNA-seqはコーディング融合転写産物の検出に最も感度が高く費用対効果に優れたアプローチである。卵巣顆粒膜細胞腫に固有のFOXL2 (forkhead ovarian xenobiotic leucine zipper 2) 遺伝子402C>G体細胞変異 (この腫瘍型の>95%に存在) はRNA-seqにより最初に同定された代表例であり、前立腺がんのBRAF/CRAF再編成もトランスクリプトームシークエンシングから同定された。RNA-seqはさらに遺伝子発現プロファイリング・低発現転写産物の検出・代替スプライシング解析・非コードRNAの同定にも有用であり、腫瘍分類指標の構築にも応用できる。
主要な限界として4点が挙げられた。(1) 正常対照設定の困難: 腫瘍と全く同じ発現プロファイルを持つ正常組織は存在しないため体細胞変異の正常対照比較が難しい。(2) 低発現遺伝子での検出力低下: 発現量が少ない遺伝子はカバレッジ不足で変異コールの統計検出力が低い。(3) 技術的アーティファクト: 逆転写酵素エラーやRNA編集 (特にADAR (adenosine deaminase acting on RNA)によるA-to-I (adenosine-to-inosine) 編集) が偽陽性変異として検出されうる。(4) 非コード再編成の見落とし: 免疫グロブリン-MYC再編成 (Burkittリンパ腫) のようにコード領域外の再編成は融合転写産物を生成しないため検出できない。
各ゲノム変化クラスの検出原理・統計的考慮点 (Fig. 3): 体細胞ヌクレオチド置換はがんゲノムで最も一般的な変化クラスであり、通常は約1変異/100万塩基の頻度で発生する (n=1変異/Mb)。ただしこの頻度はがん種・症例間で極めて大きく異なる: 紫外線誘導悪性黒色腫では約10変異/Mb、DNA修復欠損型過変異腫瘍では数十変異/Mb (最大~100変異/Mb)、一方で造血器悪性腫瘍では<1変異/Mb (例: AMLで0.7変異/Mb以下の事例) であることが示された。さらに挿入・欠失変異 (indel) は点変異に比べて約10-fold 少ない頻度であることが示された。この変異率の大幅な変動は、統計的有意性の評価にあたってサンプル固有の背景変異率補正が不可欠であることを意味する。特にCpG (cytosine-phosphate-guanine) ジヌクレオチドのC→T転移率はその他のコンテクストと大きく異なるため、コンテクスト特異的補正が重要である。
偽陽性変異コールは2種に分類される: (1) 腫瘍・正常とも野生型だが機械シークエンシングエラー・局所アラインメント誤差・ペアリード不一致で変異として誤検出されるもの (stochastic error、高カバレッジとstringent閾値で抑制可能)、(2) 正常試料で生殖細胞系変異が見落とされ腫瘍特異的と誤認されるもの (insufficient coverage due to the normal sample、正常のカバレッジ確保で防止)。
変異アリル頻度は体細胞変異コールの中心的パラメーターであり、腫瘍ゲノムの局所copy number・腫瘍純度・腫瘍内クローン頻度を反映する。生殖細胞系解析では通常1/2 (ヘテロ接合) または1 (ホモ接合) という固定値を取るのに対し、体細胞変異では0から1の任意の値を取りうる。コピー数変化はリードデプスの腫瘍/正常比から推定し、腫瘍純度・倍数性補正が不可欠である。NGSはアレイ技術と異なりシグナル飽和がないため高コピー数レベルを精確に定量できる優位性を持つ。
微生物感染 (HPV (human papillomavirus)・EBV (Epstein-Barr virus)・KSHV (Kaposi’s sarcoma-associated herpesvirus)等) はヒト参照ゲノムにアライメントされない非ヒトリードとして同定でき、本研究では2008年にMerkel cell polyomavirusがトランスクリプトームシークエンシングのサブトラクション法で皮膚Merkel細胞癌から発見された事例が実証例として引用された。この手法により既知病原体検出だけでなく全く新規のがん関連ウイルス発見が可能であることが示された。
計算的解析の体系とツール: NGSデータ解析には複数の計算レイヤーが存在し、本レビューはこれを体系的に整理した (Table 2)。アライメント層ではMAQ (Mapping and Assembly with Qualities)・BWA (Burrows-Wheeler Aligner)・Bowtie・SOAP2・SHRiMP (short haploid read mapping program)・BFAST (blat-like fast accurate search tool)が比較された; BWAはMAQの後継として速度が格段に向上した。変異コール層ではSNVMix (最初のがん特異的体細胞変異コーラー)・VarScan・Samtools (UnifiedGenotyper含む) が整理された。コピー数解析ではCBS (Circular Binary Segmentation)・SegSeqが、変異機能予測ではSIFT・PolyPhen-2・CancerPredict・CHASM (cancer high-throughput annotation somatic mutations)が、視覚化ではCIRCOSとIGV (Integrative Genomics Viewer) が列挙された。体細胞変異の偽陽性率はゲノム全体で10^-6以下に抑制することが目標とされており、これを達成するには十分なカバレッジ (腫瘍純度50%・変異アリル頻度12.5%の場合は30×以上が目安) と多重補正を考慮した統計閾値の設定が必要とされた。WGSの代替として用いられるジャンピングライブラリでは、3 kb間隔のペアを用いることで300 bpインサートライブラリの10倍の物理カバレッジを同一シークエンシングコストで達成できる。de novoがんゲノムアセンブリが最も強力なアプローチになると予測されたが、短リードでは1.5%以上のゲノム領域 (1 kb長リードでも一意マッピングが困難な反復領域) でコンティグ断片化が課題として残った。将来的には循環腫瘍細胞や血清freeシークエンシングDNA (n=数ml規模の血液検体) からの解析が可能になると展望された。
考察/結論
本レビューは2010年時点でのがんゲノム解析における第二世代シークエンシング応用の方法論的基盤を確立した重要文献である。全ゲノム・エクソーム・トランスクリプトームの3アプローチの長所と短所を明確に比較したことが独自の貢献である: WGSは包括的だが高コスト、エクソームは点変異検出に効率的だが再編成検出が困難、トランスクリプトームは融合遺伝子検出に優れるが体細胞変異の正常対照設定が難しい。
先行研究 (マイクロアレイや単一遺伝子Sanger法) と異なり、NGSは点変異・コピー数変化・染色体再編成・感染性病原体を単一実験で包括的に検出できるデジタル性とover-sampling能力を持つ点が本質的に新規 (novel) である。本レビューが初めて体系的に整理したことで、がんゲノム解析の方法論的枠組みが確立された。変異頻度が試料間で大きく異なる (黒色腫約10/Mb対白血病<1/Mb) ことを明示したことで、統計的有意性評価にはサンプル固有の背景変異率補正が不可欠であるという方法論的原則を確立した。
臨床応用への示唆として、EGFR変異陽性肺がんへの選択的治療を引用しながら、ゲノム診断が治療選択の根拠となる精密医療パラダイムを先取りした。デジタルな変異アリル計数という特性は、低腫瘍純度・腫瘍内不均一性・可変倍数性という臨床検体の困難を克服し、循環腫瘍細胞や血清free DNA診断という液体生検の将来像も展望した。
残された課題として、偽陽性・偽陰性変異コールの統計的精緻化、大規模がんゲノムデータの計算コスト、FFPE由来試料での特殊補正、およびde novoアセンブリの実用化が挙げられた。本論文の発表後、TCGAやICGC (International Cancer Genome Consortium) による数千例規模のがんゲノム解析プロジェクトが実現し、著者らが描いた方向性が大規模に実証された (TCGA et al. Nature 2012)。またWGSコストの劇的低下と計算能力の向上により、2020年代には診断的シークエンシングが実臨床に組み込まれる時代へと発展した。本レビューはその理論的・方法論的基盤を整理した先駆的文献として評価される。
方法
本論文はレビューであり独自の実験を行っていない。PubMed (public medicine database)・MedlineおよびNCBI (National Center for Biotechnology Information) 文献データベースを中心に2010年時点の第二世代シークエンシング (次世代シークエンシング, NGS) を用いたがんゲノム研究文献を網羅的に収集し、全ゲノムシークエンシング (WGS: whole-genome sequencing)・エクソームシークエンシング・トランスクリプトームシークエンシング (RNA-seq) の3アプローチを横断的に整理した。原著論文データの数値はPleasance 2010 (黒色腫1例: 深いペアエンドWGS、30×以上のカバレッジ)・Mardis 2009 (急性骨髄性白血病 AML WGS)・Campbell 2008 (肺がん2例のshallow paired-end WGS) 等から引用。がんゲノム解析に特有の試料・解析課題 (腫瘍純度・FFPE標本・腫瘍内不均一性・背景変異率) は既発表の原著論文 (Table 1記載9研究) に基づき体系的にまとめた。計算ツールはTable 2に収載された既存ソフトウェアをカテゴリ別に整理した (アライメント8種: MAQ (Mapping and Assembly with Qualities)/BWA (Burrows-Wheeler Aligner)/Bowtie/SOAP2 (Short Oligonucleotide Alignment Package)等・変異コール5種: SNVMix (single nucleotide variant mixture model)/VarScan (variant scanning tool)/Samtools等・コピー数2種: CBS (circular binary segmentation)/SegSeq・機能予測4種: SIFT (sorting intolerant from tolerant)/PolyPhen-2 (polymorphism phenotyping)等・視覚化2種: CIRCOS (circular ideogram rendering chromosomal software)/IGV (Integrative Genomics Viewer))。有意変異遺伝子の同定においては多重仮説補正 (Bonferroni補正またはFDR (false discovery rate: 偽発見率) 管理) が不可欠であることが示されており、サンプル固有の背景変異率と多重検定補正の統合がMutSig (mutational significance algorithm) 等のツールで実装されていることを論じた。