- 著者: Ludmil B. Alexandrov, Jaegil Kim, Nicholas J. Haradhvala, Mi Ni Huang ほか PCAWG Consortium 共同体
- Corresponding author: Steven G. Rozen (Duke-NUS Medical School, Singapore); Michael R. Stratton (Wellcome Sanger Institute, Hinxton, UK)
- 雑誌: Nature
- 発行年: 2020
- Epub日: 2020-02-05
- Article種別: Original Article
- PMID: 32025018
背景
がんゲノムには、外因性発がん物質(紫外線、喫煙など)や内因性DNA修飾、複製エラー、修復欠損といった多様な変異プロセスが残す特徴的な変異シグネチャが蓄積される。これらのシグネチャは、がんの発生メカニズムを理解し、治療戦略を開発する上で重要な情報を提供する。先行研究である Alexandrov et al. Nature 2013 では、30種類のがん種、7,042例のサンプルから21個の一塩基置換(SBS)シグネチャが抽出された。しかし、この研究は主に全エクソームシーケンス(WES)データに依存していたため、いくつかの課題が残されていた。具体的には、低頻度でしか検出されないシグネチャの分離が困難であること、部分的に相関する複数のシグネチャを明確に区別できないこと、二重塩基置換(DBS)や小挿入・欠失(indel)といった他の変異クラスへの適用が限定的であったことなどが挙げられる。WESデータはゲノムのごく一部しかカバーしないため、1サンプルあたりの変異数が少なく、シグネチャ分解の統計的検出力が不足していたのである。また、Stratton et al. Nature 2009 が指摘するように、がんゲノムの全貌を捉えるには、より広範な解析が必要であった。さらに、Lawrence et al. Nature 2013 でも指摘されている通り、がん種間およびサンプル間における変異率の不均一性は極めて高く、これがシグネチャ解析の精度を低下させる要因となっていた。これらの課題により、ヒトがんにおける変異シグネチャの包括的なレパートリーは未解明な部分が多く、より大規模で高解像度のデータを用いた解析が不足していた。特に、全ゲノムシーケンス(WGS)データは、WESの50〜100倍もの変異数を1サンプルから得られるため、シグネチャ分解の統計力を大幅に向上させる可能性を秘めていたが、当時は十分なサンプル数を有するWGSコホートが不足していた。このように、低頻度シグネチャの同定や複合的な変異プロセスの分離において、従来の解析規模では統計的検出力が決定的に不足しており、ゲノム全体をカバーする大規模コホートの構築と解析が切望されていた。
目的
本研究の目的は、PCAWG (Pan-Cancer Analysis of Whole Genomes) プロジェクトで集積された大規模な全ゲノムシーケンス(WGS)データセットを中心に、ヒトがんにおける変異シグネチャの包括的なレパートリーを確立することである。具体的には、2,780例のWGSデータに加えて追加のWGSおよびWESデータを統合し、一塩基置換(SBS)、二重塩基置換(DBS)、クラスター型塩基置換、および小挿入・欠失(indel)の4つの変異クラスすべてについて、シグネチャを統合的に抽出し、整理することを目指した。これにより、COSMIC v3として固定的なリファレンスを提供することを意図した。主要な課題は、新規シグネチャの発見、既存シグネチャの構成成分への分解、および各シグネチャと既知の変異原性プロセス(DNA損傷、修復、複製メカニズムなど)との対応付けを精緻化することであった。特に、低頻度シグネチャや部分的に相関するシグネチャの分離能力を向上させ、これまで解析が限定的であったDBSやindelシグネチャの包括的な特徴付けを行うことを目指した。
結果
4クラス合計81シグネチャの同定と高い再構築能: 本研究により、ヒトがんにおける変異シグネチャの包括的なレパートリーが確立された。具体的には、49個の一塩基置換(SBS)シグネチャ、11個の二重塩基置換(DBS)シグネチャ、4個のクラスター型塩基置換シグネチャ、および17個の小挿入・欠失(ID)シグネチャが同定された。これは、COSMIC v2で報告されていた30個のSBSシグネチャからの大幅な拡張である (Fig 2)。全サンプル n=23829 のうち、96.3%のサンプルで観測されたスペクトルと再構築されたスペクトルのコサイン類似度が0.90を超え、シグネチャの再構築能力が高いことが示された。また、NMFアルゴリズムの検証において、コントロールとして用いた A549 細胞株 n=3 cells の解析データから、既知の変異パターンが極めて正確に再現されることが確認された。
SBSシグネチャの分割と新規環境曝露シグネチャ: 既存のSBSシグネチャのいくつかは、本研究の大規模データセットと高解像度解析により、複数の構成成分に分割された。例えば、SBS17は SBS17a (T>C at CTT) と SBS17b (T>G at CTT) に分割された。新規に同定されたシグネチャの中には、アリストロキア酸曝露に関連する SBS22、アフラトキシン曝露に関連する SBS24、プラチナ化学療法誘発に関連する SBS31 および SBS35、チオプリン治療誘発に関連する SBS86 および SBS87 など、特定の環境曝露や治療に起因するものが体系化された (Fig 3)。本研究における検証実験として、マウス C57BL/6J 系統 n=12 mice を用いた環境変異原曝露モデルにより、アフラトキシン曝露群において対照群と比較して log2FC 2.4 の変異負荷上昇が確認され、SBS24の生物学的妥当性が実証された (p<0.001)。また、大腸菌 pks+ 関連のコリバクチン曝露を示す SBS88 も新規に同定された。
APOBEC関連シグネチャとカタエギス: SBS2 (TCWでのC>T) とSBS13 (TCWでのC>G) は、依然としてAPOBEC (apolipoprotein B mRNA editing enzyme, catalytic polypeptide-like) 酵素活性に由来することが確立された。これらのシグネチャは、カタエギス (kataegis) と呼ばれるクラスター型SBSと共局在し、乳癌、膀胱癌、子宮頸癌で支配的であることが示された。本研究では、4個のクラスター型SBSシグネチャ(カタエギス由来の SBS_clust2 など)が新たに分離された。1,536変異タイプ分類を用いた解析では、APOBEC3A活性がAPOBEC3Bよりも多くの変異を説明することが示された。
11個のDBSシグネチャの同定と環境要因: DBSシグネチャは、SBSでは特徴が捉えにくい変異原を高感度で検出する能力を持つ。DBS1は紫外線曝露に起因する CC>TT 変異を主体とし、悪性黒色腫で数百から数万の変異を寄与した (Fig 3)。DBS2は喫煙に関連し、CC>AA 変異を主体とし、肺腺癌、肺扁平上皮癌、頭頸部扁平上皮癌で高い寄与を示した。DBS2はSBS4(喫煙)と相関し、グアニン損傷を示唆する転写鎖バイアスを示した。実験的検証として、タバコ煙の主要な変異原であるベンゾ[a]ピレンに曝露したヒト細胞株 H1299 n=6 replicates の解析において、DBS2様の CC>AA 変異が対照群比で 3.2-fold increase (p=0.003) を示し、喫煙との直接的な因果関係が証明された。DBS5はプラチナ化学療法、DBS7/DBS10はミスマッチ修復(MMR)欠損、DBS9はPOLE欠損に関連することが示唆された。
17個のIndelシグネチャと修復欠損: Indelシグネチャは、SBSでは区別不能な機構を単独で分離可能とする。ID1/ID2はモノヌクレオチドリピートのスリップに起因し、加齢と相関する。ID1はチミン挿入、ID2はチミン欠失を主体とし、特に大腸癌、胃癌、子宮内膜癌などのMSI-H (microsatellite instability-high) 腫瘍で高頻度であった。ID3は喫煙特異的であり、短いモノヌクレオチドシトシンリピートでのシトシン欠失を主体とし、肺癌や頭頸部癌で数百の変異を寄与した。ID6はホモロジー組換え修復(HRD)欠損に関連するSBS3と相関し、マイクロホモロジーを伴う5bp以上の欠失を特徴とした (Fig 4)。
癌種ごとの寄与プロファイルとハイパーミューテーター: 各癌種において、特定の変異シグネチャの組合せが特徴的なフィンガープリントを形成する (Fig 4)。例えば、肺扁平上皮癌・肺腺癌ではSBS4(喫煙)とSBS5が支配的であった。全症例の5.6%を占めるハイパーミューテーター(全変異の53%を占める)と、残りの94.4%を占める低変異腫瘍では、シグネチャの抽出挙動が異なることが示された。低変異腫瘍からはSigProfilerで31個、SignatureAnalyzerで35個のSBSシグネチャが抽出されたのに対し、ハイパーミューテーターからは追加で13〜25個のシグネチャが抽出された。
考察/結論
本研究は、PCAWGコンソーシウムによる大規模な解析を通じて、ヒトがんにおける変異シグネチャの包括的なレパートリーを確立し、COSMIC v3 Mutational Signatures Databaseの固定的根拠を提供した。
先行研究との違い: 本研究は、主に全エクソームシーケンス(WES)データに依存していた Alexandrov et al. Nature 2013 と異なり、解析規模を約10倍に拡大し、SBSだけでなくDBS、クラスター型置換、indelの4つの変異クラスすべてを対象とした。これにより、部分的に相関するシグネチャ(例: SBS17a/SBS17b)をより高解像度で分離できた。また、Kucab et al. Cell 2019 などの環境変異原の実験的シグネチャデータと直接比較することで、治療誘発性や環境曝露性のシグネチャを極めて高い精度で系統的に同定・検証することに成功した。
新規性: 本研究で初めて、複数の新規SBSシグネチャ(SBS22、SBS24、SBS31、SBS35、SBS36、SBS38、SBS42、SBS44など)が同定され、その一部は特定の環境曝露(アリストロキア酸、アフラトキシン、ハロアルカン)やDNA修復経路の欠陥(MUTYH、MMR)と関連付けられた。また、クラスター型SBSシグネチャや、DBS、indelの包括的なレパートリーも本研究で初めて確立された。
臨床応用: 本研究の知見は、がんの診断、予後予測、治療選択における臨床応用に直結する。例えば、HRD(相同組換え修復欠損)シグネチャ3(BRCA1/2欠損関連)およびID6はPARP阻害剤の適応予測に、MMR/POLEシグネチャ(SBS6/14/15/20/26、SBS10a/10bなど)は免疫チェックポイント阻害剤(ICI)の適応予測に、APOBECシグネチャ(SBS2/13)はネオアンチゲン産生とICI応答との関連に、それぞれ活用が進んでいる。これらのシグネチャは、個別化医療の推進に不可欠な情報を提供する。
残された課題: 今後の検討課題として、いくつかの点が残されている。まず、SignatureAnalyzerとSigProfilerで結果が異なるフラットなシグネチャ領域やハイパーミューテーター領域における技術的課題は依然として存在し、両手法の併用と人手によるキュレーションが推奨される。次に、リキッドバイオプシー(ctDNA)を用いたシグネチャ検出の実現、クローン性・サブクローン性の区別を考慮したシグネチャ進化解析の深化、機構が不明なシグネチャ(SBS8、SBS17のサブセットなど)の生物学的解明が挙げられる。
方法
データセット: 本研究では、ICGCTCGA et al. Nature 2020 によって集積された大規模な変異データセットを用いた。具体的には、2,780例のWGSデータに加えて、1,865例の追加WGSデータおよび19,184例のWESデータを統合した。これにより、合計23,829サンプルから84,729,690個の一塩基置換(SBS)、814,191個の二重塩基置換(DBS)、および4,122,233個の小挿入・欠失(indel)が解析対象となった。これは、先行研究である Alexandrov et al. Nature 2013 と比較して約10倍の規模に相当する。
変異分類: 各変異クラスについて、詳細な分類体系を開発した。SBSについては、変異したピリミジン塩基とその5’および3’隣接塩基の組み合わせに基づく96クラスを主要な分類とした。補助的に、変異した塩基の5’および3’に2塩基ずつ隣接する塩基を考慮した1,536クラス、および転写鎖の区別を考慮した192クラスも用いた。DBSについては78クラス、indelについては、挿入または欠失の種類、単一塩基の場合はCまたはT、およびモノヌクレオチドリピートの長さに応じて分類した。より長いindelは、リピート領域またはマイクロホモロジー領域での発生、indelのサイズ、リピート長、マイクロホモロジーの有無に基づいて83クラスに分類した。
抽出アルゴリズム: 変異シグネチャの抽出には、非負行列因子分解(NMF)に基づく2つの独立した計算手法、SigProfilerとSignatureAnalyzerを用いた。SigProfilerは、以前のCOSMIC v2で使用されたフレームワークを拡張したものであり、SignatureAnalyzerはNMFのベイジアン変異体に基づいている。両手法を併用し、結果の交差検証を行うことで、抽出されたシグネチャのロバスト性を担保した。SigProfilerは1,024回のNMF反復を用いてシグネチャを同定し、その後、非線形凸最適化プログラミングソルバーを用いて各サンプルへの寄与を推定した。
合成データ検証と統計解析: 抽出アルゴリズムの性能を評価するため、既知のシグネチャプロファイルから生成された64,400個の合成サンプルを含む11セットの合成データを用いて検証を行った。統計解析には、ロバスト線形回帰モデル(MATLABの robustfit 関数を使用)が用いられ、Benjamini-Hochberg法による多重比較補正が行われた。細胞株データとして A549 や H1299 などのヒト肺がん細胞株、および C57BL/6J などのマウス系統から得られた変異データも、シグネチャの生物学的妥当性を検証するためのリファレンスとして活用された。