- 著者: Ludmil B. Alexandrov, Serena Nik-Zainal, David C. Wedge ほか (ICGC/TCGA 共同体)
- Corresponding author: Michael R. Stratton (Wellcome Trust Sanger Institute, Hinxton, UK)
- 雑誌: Nature
- 発行年: 2013
- Epub日: 2013-08-14
- Article種別: Original Article
- PMID: 23945592
背景
癌ゲノムに蓄積する体細胞変異は、DNA複製時のわずかなエラー、外因性発癌物質(喫煙、紫外線など)、内因性DNA修飾酵素、DNA修復異常など、多様な変異プロセスの累積によって生じる。これらの変異プロセスはそれぞれ特徴的な塩基置換パターン、すなわち「変異シグネチャ (mutational signature)」を残すことが知られている。しかし、従来の研究では、TP53などの少数のドライバー遺伝子由来の異常を集計する手法に限られており、複数の変異プロセスが同時に稼働した場合の「jumbled composite signature (混合複合シグネチャ)」しか得られなかった点が課題であった。このため、ほとんどの癌種における体細胞変異の原因となる変異プロセスに関する理解は未解明な部分が多く、知識のギャップが残されていた。
次世代シーケンシング技術の進歩により、単一の癌サンプルから数千から数万の体細胞変異が検出可能となり、個別の腫瘍内で稼働した複数の変異プロセスを数学的に分離・抽出することが現実的になった。これにより、癌ゲノムに埋め込まれた変異パターンを通じて、発癌の根底にある体細胞変異プロセスの多様性と複雑性を解明する新たな道が開かれた。先行研究では、21例の乳癌全ゲノムシーケンスデータから変異シグネチャを抽出するアルゴリズムが開発され、新規および既知のシグネチャが明らかになったと報告されている (Nik-Zainal et al. Cell 2012)。このアプローチは、エクソームシーケンスデータにも適用可能であることが示されており、国際的なシーケンスプロジェクトによって数千例の癌ゲノムデータが蓄積されつつある状況であった (Stratton et al. Nature 2009)。また、ヒト結腸直腸癌の包括的な分子特性評価に関する研究も先行していた (Network et al. Nature 2012)。本研究は、このような背景のもと、大規模な癌ゲノムデータを用いて、ヒトの癌全体にわたる変異シグネチャのレパートリーと、それらを駆動するプロセスを包括的に調査することを目的とした。特に、変異プロセスの多様性と複雑性に関する理解が不足しており、網羅的な解析が求められていた。
目的
本研究の目的は、30種類の癌種にわたる7,042例のヒト癌(507例の全ゲノムシーケンス、6,535例のエクソームシーケンス)から得られた体細胞シングルベース置換(SBS)および小挿入/欠失(indel)データを統合し、非負値行列因子分解(NMF)を用いて、稼働中の変異プロセスを系統的に分離・カタログ化することである。具体的には、トリヌクレオチドコンテキスト(5’-N[X>Y]N-3’、96クラス)に基づいてSBSを分類し、各サンプルを96次元のスペクトルベクトルとして表現することで、癌ゲノムに刻まれた多様な変異シグネチャを抽出する。
さらに、同定された各シグネチャを、紫外線曝露、喫煙、5-メチルシトシン脱アミノ化、APOBECファミリー酵素の過活動、DNAミスマッチ修復(MMR)欠損、相同組換え修復(HRR)欠損など、既知の変異原性プロセスやDNA維持機構の異常と対応付けることを目指す。この対応付けは、転写鎖バイアス、コンテキスト選好性、および患者の年齢、喫煙歴、BRCA変異状態などの臨床的特徴との関連解析を通じて評価する。最終的に、各癌種における各変異シグネチャの寄与を定量化し、癌における変異プロセスの多様性と複雑性を包括的に解明することを目指す。
結果
21種類の変異シグネチャの同定と癌種ごとの変異頻度: 30種類の癌種、7,042例の癌ゲノム解析から、合計21個の独立したシングルベース置換(SBS)変異シグネチャ(Signature 1A/1B~21)が抽出された。これらのシグネチャは多様な変異パターンを示し、各癌種は通常2~6個の異なるシグネチャの組み合わせとして記述された。30癌種すべてにおいて少なくとも1種類のシグネチャが存在することが示された (Fig. 2, Fig. 3)。各癌種における変異頻度の中央値は、小児腫瘍の0.001 mut/Mbから悪性黒色腫の100 mut/Mb超まで、5桁の幅で変動した (Fig. 1)。例えば、肺癌では平均10 mut/Mbを超える変異が観察された。
年齢関連5mC脱アミノ化シグネチャ (Signature 1A/1B): Signature 1Aと1Bは、CpG部位でのC>T置換を主体とする特徴的なパターンを示し、25癌種中25種で検出された最も普遍的な変異プロセスであった (Fig. 3)。これらのシグネチャは、患者の年齢と強く相関すること(相関係数0.5~0.9)から、加齢に伴う5-メチルシトシンの自発的脱アミノ化(5mC → T)に由来すると同定された。このプロセスは、癌患者の生涯にわたって比較的一定の速度で蓄積されると考えられた (Fig. 4, Fig. 12)。Signature 1Aは、例えば乳癌のn=119 samplesの約60%で検出された。
APOBEC関連シグネチャ (Signature 2とSignature 13): Signature 2はTpCpNトリヌクレオチドでのC>TおよびC>G変異を特徴とし、16癌種で検出された。Signature 13も同様にAPOBECファミリー酵素の過活動を反映し、乳癌、膀胱癌、子宮頸癌、頭頸部癌で顕著であった。これらのシグネチャは、細胞内シチジン脱アミノ化活性(特にAPOBEC3B)に起因すると考えられ、局所的な高頻度変異クラスターである「カタエギス」との共局在が示された。Signature 2は、乳癌のn=119 samplesの約14%で検出された。
喫煙発癌物質シグネチャ (Signature 4): Signature 4はCpCコンテキストでのC>A置換が支配的であり、転写鎖バイアス(鋳型鎖優位)を伴うことが特徴であった (Fig. 5)。これは、タバコ煙中のベンゾ[a]ピレン由来のBPDE付加体に対するTC-NERによる修復を反映すると考えられた。このシグネチャは、肺扁平上皮癌、肺腺癌、小細胞肺癌、喫煙者の頭頸部癌、肝癌で支配的であり、喫煙歴との強い臨床的相関(p=1.1 × 10⁻²⁷)が確認された。肺腺癌のn=24 samples中、20 samplesでSignature 4の寄与が認められた。
UVシグネチャ (Signature 7): Signature 7は、ジピリミジン(CC, TC, CT, TT)コンテキストでのC>T置換およびCC>TT二塩基置換が特徴であった。これは紫外線誘発性のシクロブタンピリミジンダイマーなどの損傷を反映し、悪性黒色腫で支配的であり、80%以上の腫瘍で1,000 mut/Mbを超える変異が検出された。このシグネチャも転写鎖バイアスを示し、非転写鎖でのC>T変異の頻度が高いことが確認された (Fig. 5)。悪性黒色腫のn=100 samples中、95 samplesでSignature 7が主要な変異源であった。
DNAミスマッチ修復(MMR)欠損シグネチャ (Signatures 6, 15, 20, 21): これらのシグネチャは、マイクロサテライト不安定性(MSI-H)を示す大腸癌、子宮内膜癌、胃癌で検出された。Signature 6は特にC>T変異と1 bpの小indelを特徴とし、MLH1/MSH2などのMMR遺伝子欠損と強く関連する過変異表現型(>50 mut/Mb)と連関した(大腸癌におけるMMR遺伝子不活性化との関連p=3.3 × 10⁻²⁵)。Signature 15も同様に小indelを伴うが、GpCpNトリヌクレオチドでのC>T変異がより顕著であった。大腸癌のn=100 samples中、約15%でSignature 6が主要な寄与を示した。
相同組換え修復(HRR)欠損シグネチャ (Signature 3): Signature 3は、乳癌、卵巣癌、膵癌において、ブレークポイントジャンクションにマイクロホモロジーが重複する比較的大きな欠失(最大50 bp)と関連して検出された。このシグネチャの存在は、BRCA1およびBRCA2遺伝子の不活性化変異と強く関連しており(乳癌でp=1.6 × 10⁻²⁸、膵癌でp=0.02)、HRR欠損を反映することが示唆された。ただし、BRCA1/2変異がない一部の症例でもSignature 3の寄与が大きかったことから、他のHRR関連遺伝子の異常も関与する可能性が示唆された。乳癌のn=119 samples中、約10%でSignature 3が検出された。
その他の独自シグネチャ:
- Signature 9: 慢性リンパ性白血病(CLL)および悪性B細胞リンパ腫で観察され、ApTpNおよびTpTpNトリヌクレオチドでのT>G転位を特徴とした。これは、活性化誘導性シチジンデアミナーゼ(AID)に関連する体細胞免疫グロブリン遺伝子超変異(IGHV変異)と関連しており(CLLでp=2.5 × 10⁻²⁴)、エラーを起こしやすいポリメラーゼγの関与が示唆された。CLLのn=28 samples中、15 samplesでSignature 9が検出された。
- Signature 10: 大腸癌および子宮内膜癌の一部で大量の変異を生成し、エラーを起こしやすいポリメラーゼε(Polε)の活性異常と関連することが報告された。子宮内膜癌のn=50 samples中、5 samplesでSignature 10が検出された。
- Signature 11: 膠芽腫や悪性黒色腫において、アルキル化剤テモゾロミド治療後に検出され(p=4.0 × 10⁻²³)、アルキル化剤によるDNA損傷を反映する変異パターンと類似していた。膠芽腫のn=30 samples中、3 samplesでSignature 11が検出された。
- Signature 17: その起源は不明であるが、T>G変異が特徴的であった。
- カタエギスの同定: 全ゲノムシーケンスされた507例の癌のうち、乳癌(119例中67例)、膵癌(15例中11例)、肺癌(24例中20例)、肝癌(88例中15例)、髄芽腫(100例中2例)、CLL(28例中15例)、B細胞リンパ腫(24例中21例)、急性リンパ性白血病(1例中1例)でカタエギスが検出された。カタエギスはC>Tおよび/またはC>G変異のクラスターを特徴とし、TpCpNトリヌクレオチドに富み、ゲノム再編成の近傍でしばしば見られた (Fig. 6)。APOBECファミリー酵素がカタエギスおよびSignature 2、13の根底にある役割を果たすことが示唆された。
考察/結論
本研究は、7,042例という大規模なヒト癌ゲノムデータセットを用いて、癌ゲノムに刻まれる変異シグネチャを初めて体系的にカタログ化した先駆的な研究である。30種類の癌種から21個の独立した変異シグネチャを同定し、それらを既知の変異プロセス(年齢関連の5mC脱アミノ化、APOBEC活性、喫煙、紫外線曝露、DNAミスマッチ修復欠損、相同組換え修復欠損など)と関連付けたことは、癌発症の分子メカニズムに対する理解を大きく前進させた。本研究で提唱された96トリヌクレオチド分類は、変異シグネチャ解析の標準的な枠組みとなり、後のCOSMIC Mutational Signaturesデータベース(v1, v2, v3)の基盤を形成した。
先行研究との違い: これまでの研究がTP53などの限られたドライバー遺伝子変異の解析に留まっていたのに対し、本研究は全ゲノムおよびエクソームレベルでの網羅的な体細胞変異解析を通じて、複数の変異プロセスが同時に稼働する複雑な状況から個々のシグネチャを数学的に分離することに成功した点で、これまでと異なるアプローチを提示した。これにより、単一の癌サンプル内で複数の変異プロセスがどのように寄与しているかを定量的に評価することが可能となった。
新規性: 本研究で初めて、年齢関連の変異シグネチャ(Signature 1A/1B)がほとんどの癌種で普遍的に検出されること、APOBEC酵素の過活動が特定の癌種で顕著な変異パターン(Signature 2, 13)を形成すること、喫煙(Signature 4)や紫外線(Signature 7)といった外因性変異原が特徴的なシグネチャを残すことなどを包括的に示した。また、局所的過剰変異であるカタエギスがAPOBEC酵素やゲノム再編成と関連することも新規に明らかにした。
臨床応用: 本研究の成果は、癌の予防、診断、治療における臨床応用に大きな意義を持つ。例えば、BRCA1/2欠損に関連するSignature 3は、PARP阻害剤の適応バイオマーカーとして、またDNAミスマッチ修復欠損に関連するSignature 6, 15, 20, 21は、免疫チェックポイント阻害剤(ICI)の適応バイオマーカーとして、臨床現場で活用されつつある。これらのシグネチャは、個々の患者の癌の病因を特定し、より個別化された治療戦略を立案するための強力なツールとなる。
残された課題: 今後の検討課題として、本研究で機構が不明確であったシグネチャ(例: Signature 17)の生物学的起源を解明することが挙げられる。また、治療誘発性変異プロセス(例: プラチナ製剤、テモゾロミドなど)によって生じるシグネチャの同定と特性評価も重要である。さらに、リキッドバイオプシーを用いた循環腫瘍DNA(ctDNA)からの変異シグネチャ検出や、癌の進化過程におけるシグネチャの変化を追跡する研究も今後の方向性となる。NMFの数理的限界として、フラットなシグネチャの分離の難しさ、サンプル数に依存する検出感度、新規シグネチャとノイズの判別といった課題が残されている。これらの限界を克服するためには、より大規模な全ゲノムシーケンスデータと、解析手法のさらなる洗練が必要である。
方法
本研究では、International Cancer Genome Consortium (ICGC) およびThe Cancer Genome Atlas (TCGA) などから、30種類の癌種にわたる7,042例の原発性癌(507例の全ゲノムシーケンス (WGS) データと6,535例のエクソームシーケンス (WES) データ)から、合計4,938,362個の体細胞置換および小挿入/欠失(indel)を収集した。全てのサンプルにおいて、体細胞変異の起源を確立するため、同一患者由来の正常DNAもシーケンスされた。
体細胞変異の分類には、トリヌクレオチドコンテキスト(変異したワトソン・クリック塩基対のピリミジンを基準とし、その5’側および3’側の隣接塩基を含む)に基づく96種類のシングルベース置換(SBS)分類を用いた。各サンプルは、この96種類の変異クラスの頻度を示す96次元のスペクトルベクトルとして表現された。このサンプルごとの変異スペクトルを非負値行列因子分解(NMF)アルゴリズム(Wellcome Trust Sanger Institute Mutational Signature Framework)に適用し、サンプル×96の行列を96×K(シグネチャ)とK×サンプル(寄与量)の2つの行列に分解した。シグネチャ数Kは、再現性(コサイン類似度)と再構成誤差に基づいて決定された。エクソームから抽出されたシグネチャは、ヒトエクソームにおけるトリヌクレオチド頻度をヒトゲノムの頻度に正規化して使用した。
各シグネチャの生物学的関連性を評価するため、以下の解析を行った。
- 転写鎖バイアス解析: 転写されたゲノム領域における変異が、転写鎖と非転写鎖のどちらに多く発生するかを評価した。これにより、転写共役ヌクレオチド除去修復(TC-NER: transcription-coupled nucleotide excision repair)などのDNA修復プロセスの関与を推測した。この解析のため、192種類の変異サブクラス分類(96種類の置換タイプに転写鎖情報を追加)を用いた。
- コンテキスト選好性解析: 各シグネチャが特定のトリヌクレオチドコンテキストで優位な変異を示すかを確認した。
- 臨床的特徴との関連解析: 患者の診断時年齢、喫煙歴、BRCA1/2遺伝子変異状態、DNAミスマッチ修復(MMR: mismatch repair)遺伝子変異状態などの臨床的・分子生物学的特徴と、各シグネチャの寄与量との相関を評価した。年齢との相関は一般化線形モデル(GLM: generalized linear model)を用いて解析し、その他の特徴との関連は2標本コルモゴロフ・スミルノフ検定を用いて評価した。多重比較補正にはBenjamini-Hochberg法を適用した。
- 挿入/欠失(indel)との関連解析: 96種類のSBSに加えて、短いヌクレオチド繰り返し配列におけるindelおよびブレークポイントジャンクションにマイクロホモロジーが重複するindelの2つのクラスを含めて変異シグネチャを再抽出した。これにより、MMR欠損や相同組換え修復(HRR: homologous recombination repair)欠損に関連するシグネチャを特定した。
- 局所的過剰変異(カタエギス)の検出: 507例の全ゲノムシーケンスデータにおいて、局所的な置換過剰変異クラスターである「カタエギス (kataegis)」を、ピースワイズ定数フィッティング(PCF: piecewise constant fitting)に基づくアルゴリズムを用いて検出した。カタエギスは、6個以上の連続する変異が平均1,000 bp以下の変異間距離で発生する領域として定義された。
全ての同定された変異シグネチャは、直交シーケンス技術による再シーケンス、同一シーケンス技術による再シーケンス、または経験豊富なキュレーターによるゲノムブラウザとBAM (Binary Alignment Map) ファイルを用いた視覚的検証のいずれかの方法で検証された。