- 著者: Felix Dietlein, Donate Weghorn, Amaro Taylor-Weiner, et al.
- Corresponding author: Felix Dietlein; Eliezer M. Van Allen; Shamil R. Sunyaev (Dana-Farber/Harvard)
- 雑誌: Nature Genetics
- 発行年: 2020
- Epub日: N/A
- Article種別: Original Article
- PMID: 32015527
背景
がんゲノムには大量の体細胞変異が存在するが、このうち腫瘍発生を駆動する driver mutation は少数であり、残りは機能的に中立な passenger mutation である (Vogelstein et al. Science 2013)。ドライバー遺伝子の同定は MutSigCV (Lawrence et al. Nature 2013)・dNdScv (Martincorena et al. Cell 2017)・OncodriveCLUST・OncodriveFM 等で実施されてきたが、高変異量がん (メラノーマ・膀胱癌・子宮内膜癌) では APOBEC や polymerase ε mutator phenotype 等の変異プロセス特異的 passenger 変異がドライバー同定の背景ノイズとなり、検出力が低下するという課題があった。Bailey et al. Cell 2018 が 26 ツールを統合した PanCanAtlas 解析でも、低頻度 (mutation frequency < 1%) のドライバーは依然として捕捉困難であった。
Passenger 変異はその発生したヌクレオチドコンテキスト (隣接塩基) を反映する変異プロセスに特異的なコンテキストで優先的に発生 (Alexandrov et al. Nature 2013) するのに対し、driver 変異は機能的に重要な位置に発生し、必ずしも特定のコンテキストを好まない。この非対称性を活用して passenger と driver を区別できる可能性が示唆されていたが、「unusual nucleotide context」を能動的にドライバー検出シグナルとして取り込むアルゴリズムは未開発であり、その生物学的有用性は 未解明 のままで残されていた。さらに既存手法は trinucleotide (96 context) に閉じており、heptanucleotide 以上の broader context への拡張は手薄であった。
目的
変異のヌクレオチドコンテキストを活用し、passenger 変異から「乖離した」変異シグナルをドライバー候補として検出する新規ドライバー遺伝子同定法 MutPanning を開発し、既存の手法との比較においてその性能優位性を 28 がん種・11,873 腫瘍-正常 WES データセットで実証すること。また 21 がん経路への分類とプロテイン-プロテイン相互作用解析により、機能的に意味のある低頻度ドライバーを抽出する。
結果
Unusual context が driver の指標として機能することの実証:メラノーマ 582 例で 10 既知ドライバー + 5 非がん遺伝子の変異コンテキストを解析し、非がん遺伝子の変異は典型的 passenger context (UV-induced C>T at TpC) に集中する一方、がん遺伝子変異の多くは unusual context に位置することを示した (Fig 2a)。recurrence pattern を mutational likelihood で層別化したところ、weakly mutable (unusual) context での recurrent 変異は CGC 登録ドライバーに 16.7% が分類されるのに対し、highly mutable context では 9.7% に過ぎず (χ² P = 6.48 × 10⁻⁴、Fig 2b, 2c)、unusual context が driver indicator として機能することを定量化した。Nonsynonymous/synonymous 比も unusual context (likelihood < 0.5) で baseline と有意差 (P = 1.47 × 10⁻⁴、beta-binomial) を示した。
Composite likelihood の broader context への拡張効果:trinucleotide (3-mer) から heptanucleotide (7-mer)・11-mer に拡張すると、メラノーマ C>T 変異の予測精度 (観測 vs 予測の相関係数) は 0.76 → 0.91 に改善した (Fig 1c-f, Extended Data Fig 1)。膀胱癌・乳癌・子宮頸癌・大腸癌・子宮内膜癌・メラノーマの 6 がん種で residual variance の有意な低減が確認された (Extended Data Fig 4)。これは extended context が unusual context の sparsity を捕捉する上で重要であることを示す。
既存 7 手法に対する性能優位性:MutPanning は 11,873 例の study cohort、TCGA、MC3 の 3 データセット全てで他の 7 手法を上回り、28 がん種中 26 がん種で最高性能を達成した (Fig 3、Extended Data Fig 6-9)。CGC と OncoKB の両 reference database、precision at 5% recall、ROC AUC 等いずれの指標でも一貫して 1 位を示した。性能差は context-specific passenger mutation 分布を持つがん (膀胱癌 n=317・子宮内膜癌 n=327・メラノーマ n=582) で最大であった。高変異量だが context-independent な肺腺癌 (n=446)・肺扁平上皮癌では他手法と同等で、context dependency の存在が MutPanning 優位の前提であることが示された。
460 ドライバー遺伝子・827 遺伝子-がん種ペア・21 経路への分類:FDR<0.25 で 460 ドライバー遺伝子・827 遺伝子-がん種ペアを同定した (Fig 4)。Cohort size と driver 数の相関は R=0.66、background mutation rate との相関は R=0.24 で、検体数と検出感度の関係が定量化された。Literature evidence 別の分類は: Level A (CGC 登録) 63% (523/827)・Level B (同がん種実験支持) 13% (106/827)・Level C (異がん種支持) 14% (115/827)・Level D (支持なし) 4-10% (FDR 閾値依存)。Driver 遺伝子は protein-protein interaction で 21 経路にクラスタリングされ、MAPK・mTOR-PI3K・cell-cycle・DNA repair・chromatin modification 等の主要 hallmark に加え、RNA binding・ribosome function・Rho GTPases・immune signaling を含む (Fig 6a, 6b)。
既存 4 カタログを補完する 169 新規 CGC 遺伝子-がん種ペア:Lawrence (25)・Martincorena (12)・TCGA marker papers (11)・Bailey (51) の従来 4 大カタログ全てに含まれなかった 169 の CGC gene-tumor pairs を新規同定 (Fig 4, Fig 5b, 5d)。これらは random gene-tumor ペアと比較し発現差異 5.4 倍濃縮 (χ² P = 4.90 × 10⁻³⁷、Supplementary Fig 33) と機能的役割 (47% CGC / 50% OncoKB) で有意な濃縮を示した。新規同定された具体的遺伝子には NOTCH2・MAML2・FGFR4・ERRFI1・FGFRL1・IKZF3・ERF・ETV6・HNF1A・CTNND2・TCF7L1・ANAPC1・BTG1・CCNQ・ROCK2・AIM2・STAT3・BIRC3・BIRC6・SF3B2・ESRP1・KLHL6・UBE2A・UBR5・POLR2A・REV3L・RECQL4・RECQL5・JMJD1C・SMARCA2・SMAD3 が含まれる。CGC 遺伝子-がん種ペアの 85% が「2 つ以上の従来カタログで報告」を recapitulate しており consistency も担保された (Fig 5c)。
Pathway-level mutation pattern と低頻度 driver の捕捉:21 経路のうち 8 経路では ≥60% の変異シグナルが ≤2 遺伝子に集中 (mTOR-PI3K・apoptosis・Wnt・Notch 等)、残り 13 経路では rare driver の long tail にシグナルが広く分散していた (chromatin modification・DNA repair・immune signaling、Supplementary Fig 36)。Mutation frequency 1% という低頻度のドライバーも検出可能で、従来手法では検出閾値以下に埋もれていた経路レベルの mutation pattern を浮かび上がらせた。NOTCH2 と CTNNB1 の Wnt 経路における TCF7L1 媒介相互作用、ERRFI1 → EGFR 抑制、POLR2A → MED12 mediator 複合体等、PPI ネットワークが新規ドライバーの機能的意義を強化した (Fig 6a)。
考察/結論
本研究は「driver 変異は特定のヌクレオチドコンテキストを好まないが、passenger 変異はプロセス特異的コンテキストに集中する」という生物学的原理に基づく新規ドライバー遺伝子同定法 MutPanning を開発し、28 がん種・11,873 検体での体系的ベンチマークでその性能優位性を実証した。先行研究との違い: Bailey et al. Cell 2018 が 26 計算ツールを組み合わせた包括的解析と異なり、MutPanning は単一統一手法でより多くの新規 CGC ドライバー (169 vs 51) を同定した。Martincorena et al. の dNdScv は dN/dS 比に基づく強力なアプローチであるが、context-specific passenger が豊富な高変異量がん (メラノーマ・膀胱癌) では感度に限界があり、これと対照的に MutPanning は unusual context をシグナルとして取り込むことで補完した。OncodriveFML 等の context-calibrated 背景モデルは「passenger が好む context をペナルティ化」する受動的戦略であるのに対し、MutPanning は「driver が unusual context を好む」という能動的シグナルを正面から定式化した点で対照的である。
新規性: 本研究で初めて unusual nucleotide context が driver mutation の indirect proxy として体系的に活用され、これまで報告されていない 169 の CGC gene-tumor pairs が既存 4 大カタログを補完する形で報告された。Composite likelihood model の 7-11 塩基への拡張により、メラノーマで mutation probability prediction の精度を 0.76 → 0.91 へ改善する新規アプローチを確立した。460 ドライバーを 21 経路にクラスタリングし、RNA binding・ribosome function・Rho GTPases・immune signaling など Hallmarks of Cancer (Hanahan et al. Cell 2011) の標準的枠組みに含まれなかった経路もドライバー的役割を持つ可能性を提示したのは新規な貢献である。
臨床応用: 460 ドライバー遺伝子カタログ (www.cancergenes.org / GenePattern 上で MutPanning 利用可能) は 臨床応用 上以下を可能にする: (1) 精密医療における actionable mutation 同定の高解像度化、(2) bench-to-bedside の橋渡し として NOTCH2・FGFR4・STAT3 等の新規ドライバーへの既存薬剤 (NOTCH inhibitor・FGFR inhibitor・STAT3 inhibitor) の re-purposing、(3) GENIE・MSK-IMPACT (Cheng et al. JMolDiagn 2015) ・PCAWG・ICGC・HMF などの大規模 sequencing 事業との統合による低頻度 driver の臨床的アノテーション、(4) 個別腫瘍ゲノムの probabilistic driver annotation。
残された課題: 本研究の limitation と 今後の検討 課題: (1) 肺腺癌・肺扁平上皮癌等の context-independent 高変異がんではすべての手法 (MutPanning を含む) で性能限界が残る、(2) Non-coding region (promoter・enhancer・lncRNA・UTR) の driver 変異への拡張 (現状は exome のみ)、(3) Structural variant (translocation・CNA) ・epigenetic alteration の統合、(4) Single-cell sequencing への適用、(5) 今後の研究 として tumor-in-normal contamination の影響評価 (特に blood tumor)、(6) Low-frequency mutational hotspot (Chang et al. NatBiotechnol 2016) の系統的検出、(7) Driver-passenger 分類の確率的個別化 (1 腫瘍ごと) への拡張、(8) Composite likelihood model の更なる広 context 化 (15-21 塩基) の意義検証、が 今後の方向性 として挙げられる。
方法
アルゴリズム構成: MutPanning は composite likelihood model に基づく context-dependent mutability スコアと Monte Carlo simulation による empirical P value を組み合わせる。(1) 7-11 塩基まで拡張した broader nucleotide context で各ゲノム位置の mutability score λ_g を計算 (Bayesian hierarchical clustering で類似 mutational process を持つ検体をグループ化)。(2) 各遺伝子 g について Monte Carlo simulation で n_g 個以上の非同義変異が無作為に分布するシナリオを生成。(3) 観測された変異の (位置 + 数) の同時確率と無作為シナリオの確率を比較し empirical P value を導出。(4) Mutational clustering と loss-of-function 変異の存在を統計的に統合 (Random Forest based RF5 アプローチ (Kumar et al. Bioinformatics 2015) と類似の枠組み)。
解析コホート: 11,873 tumor-normal pairs × 28 cancer types の WES データ。検証用に均一処理されたデータセット 2 つ (TCGA n=7,060、MC3 n=9,079) を併用。
ベンチマーク: 7 既存手法 (MutSigCV・dNdScv・OncodriveCLUST・e-Driver・OncodriveFM・OncodriveFML・RF5) と CGC (Cancer Gene Census) を真陽性近似として ROC 解析。Precision at 5% recall・OncoKB ベースの validation を併用。
ドライバー分類 / Pathway clustering: 同定された遺伝子-がん種ペアを literature evidence 別に 4 レベル (A=CGC 登録 / B=同がん種 in vitro 支持 / C=異がん種支持 / D=支持なし) に分類。大規模 protein-protein interaction database による minimum-spanning tree clustering で 21 経路に分類した。
統計: Beta-binomial distribution での 95% CI、χ² test、Benjamini-Hochberg FDR (q<0.25 / 0.1 / 0.05 / 0.01)。