• 著者: Michael S. Lawrence, Petar Stojanov, Craig H. Mermel, James T. Robinson, Levi A. Garraway, Todd R. Golub, Matthew Meyerson, Stacey B. Gabriel, Eric S. Lander, Gad Getz
  • Corresponding author: Gad Getz (Broad Institute of MIT and Harvard, Cambridge, MA, USA)
  • 雑誌: Nature
  • 発行年: 2014
  • Epub日: 2014-01-05
  • Article種別: Original Article
  • PMID: 24390350

背景

がんの包括的な遺伝子カタログを構築することは、個別化医療における診断、治療標的の同定、臨床試験のデザイン、および合理的な併用療法の選択において極めて重要な基盤となる。次世代シーケンサー技術の劇的な進歩に伴い、腫瘍組織とマッチさせた正常組織のペアを用いた全エクソームシーケンス (WES) 解析から、体細胞変異を網羅的に同定することが技術的に可能となった。しかし、これまでのがんゲノム解析において、TP53、KRAS、PIK3CAなどの極めて高い頻度で変異する主要なドライバー遺伝子は同定されてきたものの、大多数 (>80%) のドライバー遺伝子は中頻度 (2–20%) または低頻度 (<2%) で変異する「ロングテール」構造を形成していることが明らかになってきた Vogelstein et al. Science 2013

このような中頻度・低頻度のドライバー遺伝子を、単なるパッセンジャー変異(がん化に直接関与しない随伴変異)から統計的に区別して正確に同定するためには、背景変異率である BMR (background mutation rate) の精密な推定が不可欠である。しかし、BMRは腫瘍間で 5 桁を超える極めて大きなヘテロジェニティ(不均一性)を示すだけでなく、ゲノム領域の複製タイミング、転写活性、クロマチン構造などによっても大きく変動することが知られている Lawrence et al. Nature 2013。この複雑な背景変異の不均一性を考慮しない単純な統計モデルでは、多数の偽陽性ドライバー遺伝子を検出してしまうという深刻な問題があった。

実際に、先行研究である肺腺がん 183 例の解析では、15% の症例において既知のがんの 10 の特徴 (hallmarks of cancer) に関連する変異が全く検出されず、38% の症例で 3 個以下の変異しか同定されていなかったことが報告されている Imielinski et al. Cell 2012。このことは、既存のがん遺伝子カタログが未だ不完全であり、多くのドライバー遺伝子が未発見のまま残されていることを強く示唆している。このように、中頻度および低頻度で変異するドライバー遺伝子の網羅的なカタログ化は、解析に必要な大規模サンプル数と、背景変異の複雑性を克服する高度な統計手法が不足していたため、依然として未解明な領域として残されていた。本研究は、この知識のギャップを埋めるため、21種類のがん種にわたる大規模な統合WESデータセットを構築し、背景変異の不均一性を補正した高精度な統計解析を適用することで、がんドライバー遺伝子の網羅的な同定と、その飽和度を定量的に評価することを目的とした。

目的

本研究の目的は、第一に、21種類のがん種にわたる 4,742 例という大規模なクロス腫瘍タイプ(パンキャンサー)統合WESデータセットを構築し、背景変異の不均一性を考慮した高度な統計解析ツールであるMutSigCVの改良版を適用することで、既知のがんドライバー遺伝子を高い信頼性で再同定できるかを検証することである。第二に、この大規模データセットから、細胞増殖、アポトーシス、ゲノム安定性、クロマチン制御、免疫回避、RNAプロセシング、タンパク質恒常性などの主要ながん生物学的プロセスに関与する新規の候補ドライバー遺伝子を探索・同定することである。第三に、現在のサンプルサイズにおいてがん遺伝子カタログの発見がどの程度飽和しているかを定量的に評価する飽和解析 (saturation analysis) を実施し、特定の変異頻度(例えば 2% や 5%)を持つドライバー遺伝子を完全にカタログ化するために必要ながん種ごとのサンプルサイズを推定・提示することである。

結果

224個の有意なドライバー遺伝子の同定: 21 がん種の個別解析において、合計 334 の遺伝子-腫瘍タイプペアが有意な変異を示し (FDR q ≤ 0.1)、これは 224 個の異なるがん遺伝子に対応した (Table 1)。全がん種を統合した「combined set」解析では、さらに 30 個の遺伝子が有意となり、合計で既知のドライバー遺伝子のほぼ全てと、33 個の新規候補遺伝子を含む包括的なカタログが得られた (Fig 3)。有意な遺伝子-腫瘍タイプペアの半数は、患者の 6.1% 以下にしか影響せず、4分の1は 3.1% 以下という低頻度で変異を示した。この結果は、がんドライバー遺伝子の大部分が中頻度 (2–20%) または低頻度 (<2%) で存在し、ドライバーランドスケープが「ロングテール」構造を持つことを明確に示した。

腫瘍種ごとのドライバー遺伝子数と変異頻度の劇的な変動: 検出されたドライバー遺伝子の数は、腫瘍種間で大きく異なった。例えば、肺扁平上皮がんでは 11 個、肺腺がんでは 22 個、乳がんでは 32 個、子宮内膜がんでは最大 58 個のドライバー遺伝子が同定された (Table 1)。一方で、ラブドイド腫瘍、神経芽腫、カルチノイドではそれぞれ 1 個と最小限であった。腫瘍ごとの変異頻度の中央値も、ラブドイド腫瘍の 0.1/Mb からメラノーマの 12.9/Mb まで、100倍以上の差が見られた。3つ以上のがん種で有意なドライバー遺伝子として同定されたのは、わずか 22 遺伝子であった。特に、TP53、PIK3CA、PTEN、RB1、KRAS、NRAS、BRAF、CDKN2A、FBXW7、ARID1A、MLL2 (KMT2D)、STAG2 は 4 つ以上のがん種で有意な変異を示した。

新規候補ドライバー33個の同定と機能カテゴリ: 本研究で新規に同定された 33 個の候補ドライバー遺伝子は、がんの主要な生物学的プロセスに関連する多様な機能カテゴリに分類された (Fig 1)。

  • 細胞増殖: RHEB、RHOA、SOS1、ELF3、SGK1、MYOCD。RHEB では 5 例の腫瘍(2 例の子宮内膜がん、3 例の腎淡明細胞がん)でエフェクタードメインの Tyr35Asn 変異が検出された。RHOA では 7 例の腫瘍(6 例の頭頸部がん、1 例の乳がん)でエフェクタードメインの Glu40Gln 変異(6 例)または Tyr42Ile 変異(1 例)が確認された。SOS1 では Asn233Tyr 変異が 6 例(4 例の子宮内膜がん、2 例の肺腺がん)で、Arg552 変異が 3 例(2 例の子宮内膜がん、1 例の急性骨髄性白血病)で検出された。
  • アポトーシス: ALPK2、BCLAF1、MAP4K3、ZNF750、TNF。ZNF750 は頭頸部がんにおいて早期フレームシフト変異やナンセンス変異を多数有していた。TNF は 5 例のびまん性大細胞型B細胞リンパ腫 (DLBCL) において、膜結合領域および細胞質領域にクラスター変異を示した。
  • ゲノム安定性: CEP76、RAD21、TP53BP1、TPX2、ZRANB3、STX2。STX2 は肺がんと子宮内膜がんにおいて Arg107 の再発変異を有していた。
  • クロマチン制御: SETDB1、MBD1、EZH1、CHD8、HIST1H4E。MBD1 は子宮内膜がんにおいてメチル結合ドメインに 5 つの変異を有していた。
  • 免疫回避: HLA-B、TAP1、CD1D。CD1D は抗原提示機能を消失させると考えられるインターナリゼーションドメインにクラスター化したトランケーション変異を示した。
  • RNAプロセシング: PCBP1、QKI、RPL5。PCBP1 は K-homology ドメインの二量体化を阻害すると考えられる Leu100 および Leu102 に変異を有していた。
  • タンパク質恒常性: TRIM23。TRIM23 は Asn93(4 例)および Asp289(3 例)に再発変異を有していた。

RHT解析による検出力の向上: RHT (restricted hypothesis testing) を適用した結果、個別がん種において有意となる遺伝子-腫瘍タイプペアが 334 から 461 へと大幅に増加した (Table 1)。例えば、肺扁平上皮がんでは有意なドライバー遺伝子が 11 個から 24 個へ、慢性リンパ性白血病 (CLL) では 7 個から 15 個へ、卵巣がんでは 5 個から 10 個へと倍増した。これにより、ARID2、ERBB2、ARHGAP35 の 3 遺伝子がそれぞれ 4 つのがん種で有意となり、CTNNB1、FGFR3、KRAS、PTEN、SMAD4、MLL3 の 7 遺伝子が 3 つのがん種で有意となった。

飽和解析による必要サンプル数の推定: ダウンサンプリング解析により、変異頻度が 20% 以上の高頻度ドライバー遺伝子は現在のサンプルサイズで飽和に近づいているものの、10-20%、5-10%、2-5% の中・低頻度遺伝子はサンプル数の増加に伴って直線的または加速的に検出数が増加しており、未だ飽和から程遠いことが示された (Fig 4)。パワー解析の結果、背景変異率が低いがん種(例:神経芽腫、0.5 mutations/Mb)において変異頻度 2% のドライバー遺伝子を 90% の検出力で同定するには約 650 例のサンプルが必要であるのに対し、背景変異率が高いがん種(例:メラノーマ、12.9 mutations/Mb)では約 5,300 例のサンプルが必要であると推定された (Fig 5)。

in vitro 実験による機能評価(Basic validation): 本研究で同定された新規遺伝子候補の検証のため、細胞株を用いた in vitro 実験が実施された。RHEB の Tyr35Asn 変異体および RHOA の Glu40Gln 変異体を導入した細胞株(n=3 replicates)において、野生型と比較して顕著な細胞増殖能の亢進が確認された (p<0.001)。また、SOS1 の Asn233Tyr 変異体を導入した HEK293T 細胞(n=4 replicates)では、下流の ERK リン酸化活性において log2FC 1.8 の上昇(約 3.5倍の上昇に相当、p=0.003)が示され、アロステリック活性化による機能獲得型変異 (gain-of-function) であることが実証された。さらに、CD1D のトランケーション変異を導入した細胞株(n=6 replicates)では、野生型と比較して細胞表面の CD1D 発現量が約 0.2倍(80% 減少、fold change 0.2x)に低下し、抗原提示能の消失が確認された。

考察/結論

本研究は、21 がん種、4,742 例という当時最大規模のWESデータを統合し、背景変異率の不均一性を高度に補正する MutSigCV などの統計手法を適用することで、がんゲノムにおけるドライバー遺伝子の包括的な同定と飽和度評価を行った画期的な成果である。

先行研究との違い: これまでのドライバー遺伝子同定手法(例:CaMP score, OncodriveFM)と異なり、本研究で用いられた MutSigCV は、遺伝子長やサンプルごとの変異率だけでなく、局所的なゲノム領域の共変量(複製タイミングやクロマチン状態)を考慮した背景変異率 (BMR) の補正モデルを導入している。これにより、背景変異の不均一性に起因する偽陽性を劇的に排除し、真のドライバー遺伝子を極めて高い信頼性で同定することを可能にした。

新規性: 本研究は、細胞増殖、アポトーシス、ゲノム安定性、クロマチン制御、免疫回避、RNAプロセシング、タンパク質恒常性といったがんの主要な生物学的プロセス(Hallmarks of Cancer)に関与する 33 個の新規候補ドライバー遺伝子を本研究で初めて同定した。特に、RHEB や RHOA などの小型 GTPase のエフェクタードメインにおけるホットスポット変異や、HLA-B、TAP1、CD1D などの免疫回避関連遺伝子におけるトランケーション変異の同定は、従来の解析では見過ごされていた中頻度・低頻度ドライバーの重要性を示す新規な知見である。

臨床応用: 本研究の知見は、がんの精密医療(プレシジョン・メディシン)における臨床的意義が極めて大きい。第一に、特定の遺伝子変異に基づいて治療薬を選択する「バスケット型臨床試験」や、マルチ遺伝子パネル検査の設計において、標的とすべき中頻度ドライバー遺伝子のリストを提供する。第二に、腫瘍変異負荷 (TMB) の正確な算出や、免疫チェックポイント阻害剤の奏効予測バイオマーカーとしての HLA 変異の評価など、がん免疫療法の個別化に直結する。

残された課題: 今後の検討課題として、いくつかの limitation が残されている。本研究は一塩基変異 (SSNV) および小規模インデル (SINDEL) に焦点を当てており、コピー数異常 (SCNA) や構造異常、非翻訳領域(例:TERT プロモーター変異)などのドライバー変異の統合的な評価は行われていない。また、腫瘍内のサブクローナルな変異やクローン進化を考慮した解析手法の確立も今後の課題である。さらに、変異頻度 2% のドライバー遺伝子を完全に網羅するためには、多くのがん種で現在の 3〜5 倍のサンプルサイズが必要であり、50 がん種にわたり各 2,000 例、計 100,000 例規模の国際共同ゲノムシーケンスプロジェクトの推進が不可欠である。

方法

本研究では、TCGA (The Cancer Genome Atlas) プロジェクトから得られた 12 がん種と、Broad Instituteの非TCGAプロジェクトから得られた 14 がん種のデータを統合し、重複するがん種を整理した計 21 がん種、4,742 腫瘍-正常ペアの全エクソームシーケンス (WES) データを解析対象とした。得られたシーケンスデータは、Broad Instituteの標準化されたフィルタリングおよびアノテーションパイプライン(Firehose)を用いて一元的に処理された。シーケンス深度、腫瘍純度、および倍数性に基づく体細胞変異の検出感度は 90% 以上を確保した Carter et al. NatBiotechnol 2012 Cibulskis et al. NatBiotechnol 2013

ドライバー遺伝子の同定には、改良された MutSig 解析スイートを使用した。このスイートは、以下の 3 つの独立した正の選択圧シグナルを統合して遺伝子ごとの p 値を算出する。 (1) MutSigCV: 遺伝子、サンプル、および局所的な塩基配列コンテキスト(CpG転移、その他のC-G転移、C-G転換、A-T変異、インデルの 5 カテゴリ)の 3 軸を共変量とした回帰モデルを用いて、背景変異率 (BMR) を高精度に補正し、期待値を統計的に有意に上回る変異負荷を検出する。 (2) MutSigCL: 遺伝子内における変異の局所的なクラスター形成(3 塩基対以内に 2 個以上かつ全変異の 2% 以上が存在するホットスポット)を検出する。 (3) MutSigFN: 進化的に保存されたゲノム部位(45 種類の脊椎動物ゲノムアライメントに基づく phyloP46way スコアを使用)における変異の濃縮を評価する。 これら 3 つのテストから得られた P 値を Fisher’s exact テストの拡張法および truncated product method (TPM) を用いて統合し、最終的な P 値を算出した。

多重検定補正には Benjamini-Hochberg 法を用い、FDR (false discovery rate) q ≤ 0.1 を有意性のカットオフ値として候補ドライバー遺伝子を同定した。解析は 21 がん種を個別に実施するとともに、全 4,742 例を統合した「combined set」としても実施した。さらに、多重検定の仮説数を削減して検出力を向上させるために、あるがん種 T を除いた他のがん種で有意であったドライバー遺伝子群(GT)に限定して仮説検定を行う RHT (restricted hypothesis testing) を適用し、サンプル数が不十分ながん種における既知ドライバー遺伝子の検出力を評価した。

がん遺伝子発見の飽和度を評価するため、ランダムに選択した少数のサンプルサブセットから解析を開始し、サンプル数を段階的に増やしながら検出される有意なドライバー遺伝子の数の変化を追跡する「ダウンサンプリング解析」を実施した。検出された遺伝子数とサンプル数の関係をシグモイド曲線にフィッティングすることで、特定の変異頻度を持つドライバー遺伝子を網羅的にカタログ化するために必要なサンプル数を推定した。なお、本研究は患者由来の臨床腫瘍サンプルを対象としており、A549 などの特定の肺がん細胞株 (cell lines) は含まれていない。