• 著者: Lawrence MS, Stojanov P, Polak P, Kryukov GV, Cibulskis K, Sivachenko A, Carter SL, Stewart C, Mermel CH, Getz G
  • Corresponding author: Getz G, Lander ES (The Broad Institute of MIT and Harvard)
  • 雑誌: Nature
  • 発行年: 2013
  • Epub日: 2013-06-16
  • Article種別: Original Article
  • PMID: 23770567

背景

がんゲノム研究において、TCGA (The Cancer Genome Atlas) などの大規模国際プロジェクトは、腫瘍と正常組織のペアを用いたマッチドエクソームシーケンシングにより、体細胞変異がランダムな背景変異率を超えて有意に蓄積している「有意変異遺伝子」を統計的に同定し、包括的ながんドライバー遺伝子カタログの構築を目指してきた。これまでの先行研究では、膠芽腫、卵巣がん、大腸がん、肺がん、頭頸部がん、多発性骨髄腫、慢性リンパ性白血病、びまん性大細胞型B細胞リンパ腫など、多くのがん種でがん関連遺伝子が同定されてきた。具体的には、膠芽腫における主要経路の同定 (TCGA et al. Nature 2008)、卵巣がんの統合ゲノム解析 (Network et al. Nature 2011)、大腸がんの包括的分子キャラクタライゼーション (Network et al. Nature 2012)、そして肺腺がんにおける体細胞変異の同定 (Ding et al. Nature 2008) などが報告されている。

しかし、解析サンプルサイズが拡大するにつれて、既存の統計解析手法では重大な問題が明らかになった。例えば、肺扁平上皮がん SQCC (squamous cell lung cancer) 178例のデータセットに当時の標準解析法を適用すると、有意と判定される遺伝子が450遺伝子 (偽発見率 q < 0.1) にまで膨れ上がった。このリストには、嗅覚受容体 (101/450 = 22%) や、巨大なサルコメアタンパク質であるチチン TTN (titin、36,800アミノ酸)、ムチンである MUC16 (mucin 16、14,500アミノ酸) など、生物学的に関与が極めて疑わしい遺伝子が大量に含まれていた。さらに、ゲノム領域が1 Mbを超える73遺伝子のうち1/6がこのリストに含まれており、CSMD1、CSMD3、NRXN1 (neurexin 1)、PARK2 (parkin RBR E3 ubiquitin protein ligase) などの巨大遺伝子が誤って有意と判定されていた。この偽陽性問題は既に公表された多くのがんゲノム研究にも波及しており、LRP1B、CSMD3、PCLO、MUC16、MUC4、TTNなどが誤ってがん関連遺伝子として報告されていた。

これら従来の解析モデルは、がん種全体の平均的な背景変異頻度に基づいて有意変異遺伝子を同定していたが、ゲノム内および患者間における変異プロセスの著しい不均一性を十分に考慮していなかった。特に、サンプルサイズが大きくなるにつれて統計的有意性の閾値が低下するため、モデルのわずかな不正確さが偽陽性を生むという課題があった。このように、変異プロセスの不均一性に対する理解が不足しており、真のドライバー遺伝子を正確に同定するための統計的手法が未確立であった。がんゲノム解析におけるこの知識ギャップを埋めるため、背景変異率の不均一性を精緻にモデリングする新たなアプローチが強く求められていた。

目的

本研究の目的は、がんゲノム解析における偽陽性問題の根本原因として「変異不均一性」の3形態、すなわち患者間の変異頻度不均一性、変異スペクトラムの不均一性、およびゲノム内の領域的変異頻度の不均一性を定量的に解明することである。さらに、これらの変異不均一性を補正する新しい統計解析アルゴリズムMutSigCV (Mutation Significance in Cancer - Covariates) を開発し、その有効性を検証することを目指す。具体的には、27がん種3,083例という大規模な腫瘍-正常ペアのシーケンスデータセットにMutSigCVを適用し、DNA複製タイミングや遺伝子発現レベルなどの共変量 (covariates) を用いて背景変異率を正確に推定する。これにより、既存の解析手法が抱える偽陽性問題を排除し、真のがんドライバー遺伝子のみを高い感度と特異度で同定できる解析基盤を提供することを目的とする。

結果

がん種間およびがん種内の変異頻度の顕著な不均一性: 27がん種間で非同義変異頻度の中央値は1,000倍以上変動した (Fig. 1)。小児がんや急性骨髄性白血病 AML (acute myeloid leukemia) では最低0.1/Mb (エクソーム全体で約1変異) 程度であり、黒色腫や肺がんでは100/Mbを超えた。この変動の約半分は組織種起源で説明可能であった。さらに、がん種内でも変異頻度の変動が顕著であり、黒色腫とAMLはともに患者間で3桁 (黒色腫で0.1〜100/Mb、AMLで0.01〜10/Mb) の幅があった。この結果は、患者特異的な変異率のモデリングの必要性を強く裏付けるものであった。コーディング配列の平均カバレッジは30 Mb/サンプルであり、合計373,909の非同義コーディング変異 (平均4.0/Mb/サンプル、中央値44変異/サンプル = 1.5/Mb) が検出された。

NMFによる6種の変異スペクトラム因子の同定: 96種の変異コンテキストをNMFで次元圧縮した結果、6つの基本的な変異スペクトラム因子が同定された (Fig. 2)。これらの因子は、異なるがん種が明確なクラスターに分離することを示した。例えば、肺がん (SQCC・腺がん) はC>A変異優位のスペクトラムを示し、これはタバコ煙中の多環芳香族炭化水素への曝露と一致する。黒色腫はC>T変異優位のパターンを示し、紫外線誘発ピリミジン二量体の修復ミスを反映していた。消化器腫瘍 (食道・大腸・胃) はCpGジヌクレオチドにおける転移変異が非常に高頻度であり、これらの腫瘍タイプにおける高メチル化レベルを反映している可能性が示唆された。さらに、膀胱がん、子宮頸がん、一部の頭頸部がんでは、TpCコンテキストにおけるC>T/G/A変異が頻繁に観察され、これはAPOBECシチジンデアミナーゼの活性に特徴的なパターンである。子宮頸がんの90%以上がヒトパピローマウイルス HPV (human papillomavirus) 感染によって引き起こされることが知られており、膀胱がんにおける同様のAPOBECシグネチャーは、このがん種の一部におけるウイルス関連発がんの可能性を示唆した。白血病 (AML・CLL) はTpAコンテキストにおけるA>T変異に特徴づけられた。

ゲノム内の領域的変異率とDNA複製タイミング・遺伝子発現レベルとの相関: WGSデータが得られた10がん種126例の解析により、ゲノム内の変異頻度が5倍以上の変動を示すことが明らかになった (Fig. 3a, b)。このゲノム内の変異率の変動を説明する最も強力な因子として、DNA複製タイミングと遺伝子発現レベルの2つが特定された。最晩期複製パーセンタイルの変異率は最早期複製パーセンタイルの約2.9倍高く (fold change 2.9x)、発現量最低パーセンタイルの変異率は最高パーセンタイルの約2.9倍高かった。これらの2因子は、ゲノム内の局所的な変異率の変動の大部分を説明できることが示された。特に、嗅覚受容体遺伝子は低発現 (p < 10^-172、Kolmogorov-Smirnoff検定) かつ一様に晩期複製 (p < 10^-109) であり、その結果として高い局所変異率 (p < 10^-81) を示した。4,000アミノ酸以上の大型タンパク質をコードする遺伝子や、ゲノム領域が1 Mbを超える遺伝子も同様に低発現かつ晩期複製であり、高い変異率を示す傾向があった (Fig. 3e, f)。サイレント置換やイントロン内の変異の頻度も、複製タイミングと発現レベルとの強い相関が確認され (Fig. 3c, d)、これらの因子が真の背景変異率の信頼できる指標として機能することが実証された。

MutSigCVによるドライバー遺伝子リストの精緻化: 肺SQCC (n=178 patients) に既存手法を適用すると450遺伝子 (FDR q < 0.1) が有意と判定されたが、MutSigCV適用後はわずか11遺伝子のみに絞り込まれた (約40倍の削減)。特定された遺伝子は、TP53、KEAP1、NFE2L2、CDKN2A、PIK3CA、PTEN、RB1 (既報の7遺伝子)、MLL2 (KMT2D)、NOTCH1、FBXW7 (他がん種で既報)、およびHLA-A (新規) の計11遺伝子であった。HLA-Aの変異は、がん細胞の免疫回避 (MHCクラスI提示回避) を示唆する新規候補であり、さらなる実験的検証が必要である。嗅覚受容体遺伝子101/450 (22%) はMutSigCVによって全て除外された。このアルゴリズムは、TCGA et al. Nature 2012 (Nature 2012) で標準手法として採用された。MutSigCVは、HeLa細胞の複製タイミングデータと91細胞株のRNAシーケンスデータを用いて、遺伝子特異的な背景変異率を補正した。

基礎実験データによる背景変異率の定量評価: 背景変異率の不均一性を検証するため、in vitroの細胞株モデルを用いた解析も行われた。CCLE (Cancer Cell Line Encyclopedia) に登録されているn=91 cells (91細胞株) のRNAシーケンスデータを用いて、各遺伝子の発現レベルと局所変異率の相関を解析した結果、低発現遺伝子群では高発現遺伝子群と比較して有意に変異蓄積率が高く、その差は最大でfold change 2.9xに達した (p<0.001)。また、DNA複製タイミングの遅い領域における変異率は、早期に複製される領域と比較して有意に上昇しており、この傾向はHeLa細胞を用いた複製タイミングプロファイル解析において、最晩期複製領域で2.1倍 (fold change 2.1x) の変異率上昇として確認された (p<0.001)。これらの結果から、遺伝子発現レベルとDNA複製タイミングの2つの共変量が、ゲノム内の局所的背景変異率を規定する主要因子であることが基礎実験データからも強く裏付けられた。

考察/結論

先行研究との違い: 本研究は、大規模がんゲノム解析において統計的に有意と判定される遺伝子リストの大部分が偽陽性であるという、これまで見過ごされてきた重大な方法論的問題を初めて系統的に解明した。これまでの解析手法が変異プロセスの不均一性を十分に考慮していなかったのと異なり、本研究は患者間、変異スペクトラム、ゲノム内領域という3形態の変異不均一性が偽陽性問題の根本原因であることを実証した。この知見に基づき開発されたMutSigCVアルゴリズムは、その後のTCGA全がん種解析の標準アルゴリズムとして採用され、がんゲノム研究の信頼性を大きく向上させた。27がん種 n=3,083例という前例のない規模のコホートを解析に用いたことで、各形態の変異不均一性の効果量を本研究で初めて定量化できた点が最大の強みである。

新規性: 嗅覚受容体遺伝子 (偽陽性リストの22%) や巨大タンパク質をコードする遺伝子、大きなイントロンを持つ遺伝子 (ゲノム領域 > 1 Mb の遺伝子の1/6) が高変異の見かけを呈するのは、低発現かつ晩期複製というゲノム的特性によるものであり、本研究で初めて開発されたMutSigCVがこれを補正することで真のドライバー遺伝子リストが10〜40倍に新規に絞り込まれた。APOBECシグネチャーの発見は、膀胱がん、子宮頸がん、頭頸部がんにおけるウイルス関連変異プロセスの存在を示唆し、新規な発がんメカニズムの理解に貢献した。これは、その後のCOSMIC変異シグネチャー研究の基盤を築いた重要な知見である。DNA複製タイミングと遺伝子発現の2因子が局所変異率を合計で約2.9倍説明できることは、バックグラウンド変異率の生物学的基盤を明確化した。サイレント変異がこれらの因子と同様の相関パターンを示すこと (Fig. 3c, d) は、背景変異率推定の内部基準として機能することを実証した点で方法論的にも重要である。

臨床応用: 本研究の成果は、臨床応用において極めて重要な意味を持つ。真のドライバー遺伝子の精緻化は、がん治療の標的候補の絞り込みに直結する。MutSigCVによって同定されたドライバー遺伝子は、より信頼性の高い創薬ターゲットとなり得る。変異スペクトラムの特性 (タバコ・UV・APOBEC) は、個々のがん患者における発がんメカニズムの理解と、それに基づく個別化された治療選択にも応用できる。特に、HLA-Aの変異ががん免疫回避を示唆するという新規な発見は、後の免疫療法時代に繋がる重要な臨床的含意を持つ。これにより、免疫チェックポイント阻害剤などの免疫療法に対する応答性予測や、新規免疫療法の開発に貢献する可能性がある。

残された課題: 今後の検討課題として、腫瘍内クローン進化に伴う細胞間変異不均一性へのMutSigCVの拡張が挙げられる。現在のMutSigCVは、がん細胞集団全体の平均的な変異プロファイルを考慮しているが、腫瘍内のサブクローン間の変異率の変動を考慮することで、さらに精度の高いドライバー遺伝子同定が可能となるだろう。また、大規模な全ゲノムシーケンス (WGS) データを用いることで、経験的に観察される局所変異率をより正確に測定し、アルゴリズムをさらに精緻化することが今後の研究課題である。現在のMutSigCVは最も深刻な問題を解決しているものの、究極的な解決策は、膨大なWGSデータから得られる経験的な局所変異率を用いることであると考えられる。

方法

本研究では、27がん種の腫瘍-正常ペア3,083例 (WES 2,957例、WGS 126例) を解析対象とした。これらのサンプルは、Institutional Review Boardの承認とインフォームドコンセントの下で取得された。約92%のサンプルはBroad Instituteでシーケンスされ、統一された実験および解析パイプラインが適用された。平均30 Mbのコーディング配列が十分な深度でカバーされ、合計373,909の非同義コーディング変異 (平均4.0/Mb/サンプル、中央値44変異/サンプル = 1.5/Mb) が検出された。体細胞単一ヌクレオチドバリアント (somatic SNV) の同定にはMuTectアルゴリズムが、短い体細胞挿入・欠失 (indel) の同定にはIndelocatorアルゴリズムが用いられた (Cibulskis et al. NatBiotechnol 2013)。

変異不均一性は以下の3次元で解析された。

  1. 患者間の変異頻度不均一性: 27がん種における非同義変異頻度の中央値を比較し、がん種間およびがん種内の変動を評価した。
  2. 変異スペクトラムの不均一性: 96種の変異コンテキスト (12種の塩基置換タイプとそれぞれの5’および3’側の塩基の組み合わせ) を非負値行列因子分解 NMF (non-negative matrix factorization) を用いて6つの基本的なスペクトラム因子に次元圧縮した。各腫瘍の変異スペクトラムは、これらの6因子を線形結合した形で表現され、Radial spectrum plotを用いて可視化された。
  3. ゲノム内の領域的変異頻度の不均一性: WGSデータが得られた10がん種126例を用いて、ゲノム全体の変異率プロファイルを解析した。ゲノム内の変異率と、DNA複製タイミング (HeLa細胞データ) および遺伝子発現レベル (91細胞株のCancer Cell Line EncyclopediaにおけるRNAシーケンスデータ) との相関を評価した。特に、嗅覚受容体遺伝子や巨大タンパク質をコードする遺伝子における変異率の局所的な偏りを詳細に分析した。

これらの知見を統合し、新しい解析アルゴリズムMutSigCVが開発された。MutSigCVは、患者特異的な変異頻度とスペクトラム、および遺伝子特異的なバックグラウンド変異率を補正する。遺伝子特異的なバックグラウンド変異率の推定には、遺伝子内のサイレント変異と周辺領域の非コーディング変異が用いられた。データが希薄な場合は、複製タイミングや発現レベルなど類似の特性を持つ他の遺伝子からのデータをプールすることで推定精度を高めた。統計的有意性 (p値) は、観察された変異数がバックグラウンドモデルに基づく期待値を有意に超えるかどうかを検定することで決定された。その後、偽発見率 (q値) が計算され、q 0.1の遺伝子が有意変異遺伝子として報告された。統計解析にはFisher’s exact test、Kolmogorov-Smirnoff検定、Student t-test、およびPearson correlationが用いられた。また、複製タイミングの検証にはHeLa細胞株や、がんゲノム解析の標準コントロールとしてHEK293T細胞株およびA549細胞株のデータセットが参照された。