- 著者: Nik-Zainal S, Alexandrov LB, Wedge DC, Van Loo P, Greenman CD, Raine K, Jones D, Hinton J, Stebbings LA, Menzies A, Martin S, Campbell PJ, Stratton MR, et al. (ICGC Breast Cancer Working Group)
- Corresponding author: Michael R. Stratton (Wellcome Trust Sanger Institute, Cambridge, UK)
- 雑誌: Cell
- 発行年: 2012
- Epub日: 2012-05-17
- Article種別: Original Article
- PMID: 22608084
背景
ヒトの癌ゲノムに蓄積する体細胞変異は、細胞が生涯を通じて暴露された DNA 損傷プロセスと DNA 修復機構の組み合わせによって形成される。変異の大部分は癌化に直接関与しない「乗客変異 (passenger mutation)」であるが、その変異パターン—すなわち変異シグネチャー—は原因となった変異プロセスの “分子的指紋” として永続的に記録されている。歴史的には TP53 などの限られた癌遺伝子における変異パターン解析に留まっており、喫煙関連 G>T/C>A 変換や UV 誘発性 CC>TT 変換など一部の暴露シグネチャーとの対応は判明していたが (Pfeifer et al. 2002)、ゲノム全体にわたる包括的な変異プロセスの分解方法論は存在しなかった (Hainaut & Pfeifer 2001)。Pleasance et al. (2010) は悪性黒色腫と小細胞肺癌の単一全ゲノムで転写鎖バイアスや複数の変異特徴の存在を示したが、複数症例横断の統計的変異シグネチャー分解には至らなかった。Stratton et al. (2009) は癌ゲノムにおける driver 変異と passenger 変異の概念的枠組みを提唱したが、passenger 変異を生み出す変異プロセス自体を系統的に分解する方法論は未解明であった。また、BRCA1/BRCA2 変異癌に特異的な変異プロファイルが存在するかどうか、癌における局所的高密度変異クラスターの実態と発生機構についても、これまでにない規模のゲノム横断解析が不足しており、何が変異プロセスの多様性を規定するかを理解するうえで根本的な知識の空白があった。
目的
21 例の原発性乳癌を対象に全ゲノムシーケンスを実施して体細胞変異の完全カタログを構築し、非負値行列因子分解 (NMF; non-negative matrix factorization) により複数症例横断で独立した変異シグネチャーを抽出する。BRCA1/BRCA2 変異癌の変異特性、局所的超変異現象、二重塩基置換、挿入欠失プロファイル、および転写との関係を系統的に記述することで、乳癌に働く基盤的 DNA 損傷・修復プロセスを解明することを目的とする。
結果
NMFにより乳癌ゲノムから5種の独立した変異シグネチャーが抽出される:
n=21 例の原発性乳癌ゲノムから、検証済みの体細胞変異として塩基置換 183,916 個、挿入欠失 2,869 個、構造変異 1,192 個が同定された (Fig 1A)。6 種の塩基置換タイプ (C>A, C>G, C>T, T>A, T>C, T>G) と前後 3 塩基コンテキストによる 96 次元のトリヌクレオチド変異空間に対して NMF を適用した結果、乳癌ゲノムに内在する 5 種の独立した変異シグネチャー (A〜E) が抽出された (Fig 2A)。シグネチャー A は XpCpG (CpG 含有) トリヌクレオチドにおける C>T 変換を主体とし、5-メチルシトシンの自発的脱アミノ化に起因すると考えられる。シグネチャー B は TpCpX トリヌクレオチドにおける C>T・C>G・C>A 置換の組み合わせを特徴とし、特定の ER 陽性乳癌の約 10% で全変異の圧倒的多数を占める支配的なシグネチャーとして出現する。シグネチャー D は BRCA1/BRCA2 変異癌で優勢に出現し、シグネチャー E は TpCpX 置換を含むがシグネチャー B よりも C>T 変換の割合が低い。シグネチャー C・D・E の生物学的起源は現時点では不明である。シグネチャー寄与比を用いた教師なし階層クラスタリングにより、21 例のゲノムは再現性よく病態を反映するサブクラスターに分類された (Fig 2B)。
BRCA1/BRCA2変異癌は特徴的な変異シグネチャー組み合わせとマイクロホモロジー介在欠失プロファイルを示す:
21 例中 9 例が BRCA1 (5 例) または BRCA2 (4 例) に生殖細胞系変異を保有しており、これら 9 例は NMF によるクラスタリングで一塊のサブクラスターを形成し、シグネチャー D の寄与比が高い点で共通した変異特性を示した (Fig 2B)。挿入欠失 (indel) の詳細解析では、全 21 例の 2,869 個の検証済み indel のうち、単一塩基の indel がすべての症例で最多であったが、症例間で数・パターンの著しい変動が観察された。BRCA1/BRCA2 変異癌では最大 50 bp に及ぶマイクロホモロジー介在欠失 (microhomology-mediated deletion) が顕著に高頻度であり (p = 2.2×10^-16)、重複配列介在性 (repeat-mediated) 欠失との indel 長分布は Kolmogorov-Smirnov 検定で有意に異なった (p < 2.2×10^-16、Fig 7B)。これは BRCA1/BRCA2 を中心とする相同組換え (HR; homologous recombination) 依存性 DNA 二本鎖切断 (DSB) 修復の機能喪失により、非相同末端結合 (NHEJ) などの代替修復経路が利用されるためと解釈される (Fig 7C)。注目すべきことに、BRCA1 変異癌と BRCA2 変異癌は遺伝子発現プロファイルや組織像では顕著に異なるが、変異シグネチャーの組み合わせは相互に類似しており、病理学的表現型よりも変異パターンの方が根本的な生物学的欠陥をより忠実に反映することが示唆された。
二重塩基置換は偶発的共起の75〜11,000倍高頻度で出現し、生物学的変異プロセスの存在を示す:
21 例すべての乳癌ゲノムにおいて、単一塩基置換の偶発的隣接のみでは説明できない二重塩基置換 (double-nucleotide substitution) が期待値の 75〜11,000 倍高頻度で観察され (p<0.001)、隣接 2 塩基を同時に損傷させる何らかの生物学的プロセスの普遍的な存在が示された。CpG 含有トリヌクレオチド (XpCpG) における C>T 変換については、CpG 島外では CpG 島内と比較して顕著に高頻度であり、オッズ比 9.95 (95% CI 7.17-13.8、p<0.0001) を示した (Fig 1)。これは CpG 島外での 5-メチルシトシンの選択的メチル化と自発的脱アミノ化の蓄積を反映する。UV 誘発性皮膚癌における CpC>TpT 変換と機序的に類似した、隣接 DNA 塩基への共同損傷やエラープローン DNA ポリメラーゼの関与が候補として考えられるが、乳癌における具体的な分子機構は未解明である。
局所的超変異現象「カタイジス (kataegis)」が21例中13例に存在し、ゲノム再配列と共局在する:
変異間距離を各ゲノムの染色体位置順に対数スケールでプロットした “レインフォールプロット (rainfall plot)” を全 21 例に適用したところ、変異間距離が局所的に極めて短い超変異クラスターが n=13/21 例に検出され、乳癌の全サブクラスにわたって広範に存在した (Fig 3)。この現象をギリシャ語で「雷雨」を意味するカタイジス (kataegis) と命名した。BRCA1 生殖細胞系変異例 PD4107a では、染色体 6 上の 14 Mb にわたるマクロクラスターが確認され、その領域内に 17 個の体細胞ゲノム再配列が集積していたのに対し、残り 157 Mb には 7 個のみであった (Fig 4A)。カタイジス領域の変異は TpCpX トリヌクレオチドにおける C>T・C>G 置換を主体とし (Fig 3D)、一本鎖 DNA の同側ストランドに連続的 (in cis) に生じており、同一ゲノム領域でメガベース規模にわたって C>T 変換群が連続し、次に G>A 変換群に切り替わる「交互プロセッシビティ」が観察された (Fig 4B)。カタイジスはクロモスリプシス (chromothripsis) を含む多様な再配列構造と共局在するが、微細分解能ではマイクロクラスターと最近傍の再配列の間には数十 kb の空白が存在し、変異と再配列の正確な因果関係は不明確であった。カタイジス陽性 n=13 例 (62%) は ER 陽性・陰性・BRCA1/2 変異陽性など全サブクラスにわたり、悪性黒色腫・小細胞肺癌のゲノム (n=2 既報) には認められなかった。
体細胞変異と転写との間に複数の独立した複雑な関係が存在する:
転写鎖バイアス解析において、C>A/G>T 変換では転写鎖上の G>T 変異が非転写鎖よりも有意に少ない中程度のバイアスが 21 例中ほぼ全例で検出された (p = 1.75×10^-15、Fig 6A)。T>G/A>C でも同様のバイアスが認められ (p = 1.5×10^-4)、転写共役ヌクレオチド除去修復 (TCR; transcription-coupled nucleotide excision repair) による guanine への bulky adduct 損傷修復の関与が示唆される。また、遺伝子発現レベルと変異密度の間に逆相関が C>A/G>T (p = 2.47×10^-9)、C>T/G>A (p = 7.5×10^-3)、T>A/A>T (p = 1.09×10^-6)、T>C/A>G (p = 1.83×10^-4) の 4 種の変換タイプで転写鎖・非転写鎖ともに観察された (Fig 6B)。注目すべきことに、T>G/A>C 変換は転写鎖バイアスを示したが発現-変異相関を示さず、逆に C>T/G>A・T>A・T>C 変換は発現相関を示すが転写鎖バイアスがなく、これら 2 つの特徴が独立したメカニズムに起因することが示唆された。さらに、転写開始点 (TSS; transcription start site) からの距離が増すにつれて変異密度が上昇し、特に TSS 近傍 1 kb 以内で顕著な変異抑制効果が認められた (Fig 6C、6D)。
考察/結論
本研究は 21 例の原発性乳癌全ゲノム配列から体細胞変異の包括的カタログを構築し、NMF による変異シグネチャー分解を通じて乳癌変異プロセスの多面的な構造を記述した。
① 先行研究との違い: Pleasance ら (2010) の単一癌ゲノム解析と異なり、本研究では 21 例横断の NMF を適用して 5 種の変異シグネチャーを統計的に抽出し、各癌でのシグネチャー寄与比を定量化した点で、変異プロセス解析を個別ゲノム記述から集団レベルの数学的分解へと発展させた。またカタイジスは実験系で断片的に示唆されていた (Wang et al. 2007) が本研究とは対照的に、体細胞変異密度がはるかに高い形で原発性乳癌の 13/21 例 (62%) に初めて系統的に確認された。さらに BRCA1 変異癌と BRCA2 変異癌が遺伝子発現・病理像では大きく相違するにもかかわらず、変異シグネチャープロファイルでは互いに類似するという知見は、これまでの分子サブタイプ分類体系 (Perou et al. 2000; Sørlie et al. 2001) に対して変異プロセス視点という新たな切り口を提供した。
② 新規性: 本研究で初めて確立された NMF による変異シグネチャー分解フレームワークは、後の 30 癌種 4,938,362 変異の大規模横断解析 (Alexandrov et al. 2013、Alexandrov et al. Nature 2013) の方法論的基盤となり、現在の COSMIC 変異シグネチャーカタログへと発展した。カタイジスという現象の新規な概念化と命名、その TpCpX 特異的変異パターンと染色体再配列との共局在という特徴も本研究が初めて記述した新規な知見である。またシグネチャー B とカタイジスへの AID/APOBEC ファミリー酵素 (特に APOBEC1 および APOBEC3 サブファミリー) の関与を提唱したことは、後の多癌種での APOBEC3A/3B の体系的な検証研究に道を開いた。乳癌の総合分子ポートレート解析 (Network et al. Nature 2012) と組み合わせることで、サブタイプ別変異プロセスの多面的理解が深化した。
③ 臨床的意義: BRCA1/BRCA2 変異癌が特徴的な変異シグネチャーとマイクロホモロジー介在欠失プロファイルを持つという知見は、臨床応用の観点から重要である。BRCA1/BRCA2 変異癌は PARP 阻害剤と DNA 損傷薬に対して高感受性を示すが (Fong et al. 2009)、BRCA1/BRCA2 遺伝子変異を持たないにもかかわらず HR 欠損様の変異シグネチャーを示す癌が存在すれば、同様の治療法の恩恵を受ける可能性がある。変異シグネチャー解析による HR 欠損の表現型同定が、変異遺伝子型を超えた精密医療の戦略を拡張しうる。また転写鎖バイアスが bulky adduct 損傷を示唆することで、乳癌の発生に関わる環境・内因性発癌物質の同定につながる可能性もある (Saunders et al. Bioinformatics 2012)。
④ 残された課題: 本研究の 21 例という規模は統計的分解の精度を限定しており、今後の研究として国際癌ゲノムコンソーシアム (ICGC; International Cancer Genome Consortium) などによる数千例規模の解析が必要である。シグネチャー B とカタイジスへの AID/APOBEC ファミリーの直接的な因果証明は、発現データの欠如もあり達成されておらず、transgenic 過剰発現モデルの間接証拠に留まっている。シグネチャー C〜E の分子的起源も未解明のままであり、またカタイジスにおいて再配列と変異クラスターのどちらが先行するかという因果関係の問いも未解決である。TCR の関与を示す転写鎖バイアスについても、bulky adduct 損傷の外因性・内因性起源の区別が 今後の検討課題として残されている。
方法
21 例の原発性乳癌 (n=21) とそれぞれ対応する正常組織 DNA を用いた。Illumina no-PCR ライブラリ法 (short insert 500 bp) で調製後、108 bp または 100 bp のペアエンドシーケンスを Illumina Genome Analyzer IIx (GAIIx) または HiSeq 2000 で実施した。リードは BWA を用いて参照ゲノム (NCBI37) にアライメントした。体細胞塩基置換は独自アルゴリズム CaVEMan で、挿入欠失は Pindel v0.2.0 改変版で呼び出し、構造変異は MAQ アライメントベースの独自パイプラインで検出した。コピー数・アレル比は Affymetrix SNP6 マイクロアレイを ASCAT v2.0 で解析した (ArrayExpress: E-MTAB-1087)。変異の検証は Roche 454 パイロシーケンスまたはキャピラリーシーケンスで実施した。統計解析: 変異シグネチャー解析には 96 種のトリヌクレオチドコンテキスト別変異カウント行列に対して非負値行列因子分解 (NMF)を適用し、Monte Carlo シミュレーションで偶発的変異分布との比較を行った。挿入欠失の repeat-mediated vs microhomology-mediated 分類の分布比較にはKolmogorov-Smirnov 検定を使用した。転写鎖バイアスの有意性検定にはフィッシャーの正確検定を、発現-変異相関にはスピアマン順位相関を適用した。遺伝子発現データは Illumina HT12 Expression BeadChip で取得。シーケンスデータは European Genome-phenome Archive (EGA) に登録 (アクセッション番号 EGAD00001000138)。変異データは COSMIC (Catalogue of Somatic Mutations in Cancer) データベースでも公開 (Ensembl v58 アノテーション)。