- 著者: ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium
- Corresponding author: N/A (consortium 論文、member list は online 版に掲載)
- 雑誌: Nature
- 発行年: 2020
- Epub日: 2020-02-05
- Article種別: Original Article
- PMID: 32025007
背景
がんは遺伝的変化によって駆動される疾患であり、massively parallel sequencing の登場によってこの変異を全ゲノム規模で系統的に記述することが可能になった。初期の単一ゲノム研究は、1 つのがんにおける somatic point mutation・copy-number 変化・structural variant (SV) をすべて同定できることを実証した。具体的には、ヒトがんゲノムの包括的 somatic 変異カタログ (Pleasance et al. Nature 2010) や、cytogenetically normal な急性骨髄性白血病ゲノムの DNA sequencing が先行例である。これらの成功を受けて 2008 年に International Cancer Genome Consortium (ICGC) が設立され、common tumour type を駆動する somatic 変異の系統的記述を目標に掲げた。
しかし、それまでに蓄積された大規模解析の多くは The Cancer Genome Atlas (TCGA) の Pan-Cancer Atlas に代表される exome (コード領域) sequencing に依拠しており (Vogelstein et al. Science 2013)、ゲノムの 98% を占める non-coding 領域の driver、large-scale structural variation、retrotransposition、telomere 維持機構、germline 変異が somatic 変異パターンに及ぼす影響といった、whole-genome sequencing (WGS) でしか観測できない事象の pan-cancer 像は未解明のままだった。また mutational signature の体系化は進んでいたものの (Alexandrov et al. Nature 2013)、SV や indel まで含めた包括的な signature 像、clustered mutational process (chromothripsis・kataegis・chromoplexy) の進化的タイミング、cancer driver discovery が完了しているか否かという根本的な問いには、統一的に再解析された大規模 WGS コホートが欠けていた。さらに、複数施設・複数国の生データを統一アルゴリズムで再解析する技術的・倫理的枠組み自体が確立されていなかった点も、pan-cancer WGS meta-analysis を妨げる大きなギャップであった。すなわち先行研究には、(1) 全変異クラスを統一品質で call した大規模 whole-genome コホート、(2) non-coding driver と structural variant の pan-cancer 定量、(3) germline–somatic 統合解析の枠組みが欠けており、cancer driver discovery が完了したか否かという問いに答える基盤が不足していた。
目的
ICGC と TCGA の各 working group が個別に蓄積した whole-genome sequencing データを集約し、統一されたアラインメント・variant calling・quality control パイプラインで再解析することで、coding と non-coding を統合した cancer driver の全体像、structural variation と clustered mutational process の頻度・パターン・進化的タイミング、germline 変異が somatic 変異に及ぼす影響、telomere 維持機構の多様性を pan-cancer 規模で記述すること。あわせて、国際的なクラウド計算とデータ共有による再解析リソース (PCAWG resource) を構築し、20 本超の companion paper の共通基盤を提供することを目的とした。
結果
Pan-cancer の somatic 変異 burden と相関構造:2,583 white-listed donor を横断して、43,778,859 個の somatic SNV、410,123 個の multinucleotide variant、2,418,247 個の somatic indel、288,416 個の somatic SV、19,166 個の retrotransposition event、8,185 個の de novo mitochondrial DNA mutation が call された (Supplementary Table 1)。変異 burden は患者間・tumour type 間で著しい heterogeneity を示す一方、異なる変異クラス間には広範な相関が認められ、purity と ploidy を揃えた per-patient 解析でもこの相関は保たれた (Extended Data Fig. 3)。診断時年齢との相関では、SNV は約 190/year (P = 0.02)、indel は約 22/year (P = 5 × 10⁻⁵)、SV は 1.5/year (P < 2 × 10⁻¹⁶、linear regression + likelihood ratio test) が観測され、加齢が複数の変異クラスに共通して寄与することが示唆された。
Driver 変異の全体像と coding/non-coding の寄与:rank-and-cut 法と driver compendium を用いた結果、91% の腫瘍が少なくとも 1 個の driver を持ち、平均 4.6 driver/腫瘍 という値が得られ、tumour type 間で大きく変動した (Fig. 2a)。coding point mutation の平均は 2.6 driver/腫瘍で、TCGA exome 解析の既存推定とほぼ一致した。non-coding driver point mutation は全 driver point mutation の わずか 13% (785/5,913) にとどまり、そのうち約 1/3 (237/785) が TERT promoter を標的とした (PCAWG 腫瘍の 9%)。TERT promoter を除けば個々の enhancer/promoter が driver 変異の標的となる頻度は低く、25% の腫瘍が少なくとも 1 個の non-coding driver point mutation を持つにとどまった。最も高頻度の標的遺伝子は TP53 (954 腫瘍) であり、CDKN2A (475)、ARID1A (316)、KRAS (287)、PTEN (269)、TERT (263) が続いた (Fig. 2b)。SV と point mutation の相対寄与は tumour type 依存で、breast adenocarcinoma (6.4 ± 3.7 SV vs 2.2 ± 1.3 point mutation、P < 1 × 10⁻¹⁶、Mann–Whitney U-test) や ovary adenocarcinoma では driver SV が優勢、colorectal adenocarcinoma (2.4 ± 1.4 SV vs 7.4 ± 7.0 point mutation、P = 4 × 10⁻¹⁰) や mature B cell lymphoma では point mutation が優勢だった。tumour-suppressor gene の two-hit inactivation も確認され、TP53 driver を持つ 954 腫瘍のうち 736 (77%) が両 allele 変異、その 96% (707/736) が somatic point mutation + 反対 allele の somatic deletion の組合せだった。17% の患者が cancer-predisposition gene・DNA 損傷応答遺伝子・somatic driver gene に rare germline protein-truncating variant (PTV) を持ち、germline PTV 上への somatic alteration による biallelic inactivation が患者全体の 4.5% (うち 81% が BRCA1・BRCA2・ATM 等の既知 predisposition gene) に観測された。
Driver 不在腫瘍と driver discovery の未完成性:90% 超で driver が同定されたが、181 腫瘍では driver が一切同定されなかった (Extended Data Fig. 4a)。技術的原因の精査では、4/181 例が matched normal に 5% 超の tumour DNA 汚染を持ち、汚染補正アルゴリズムで見逃された変異が回収された。TERT promoter は高 GC 含量による coverage bias のため、PCAWG 腫瘍の約 50% しか変異 call に十分な power (≥90%) を持たず、deep targeted sequencing により 6 hepatocellular carcinoma と 2 biliary cholangiocarcinoma に TERT 変異が後から発見された。さらに 35 の myeloproliferative neoplasm では panel-of-normals 汚染により JAK2 V617F が call できていなかった。生物学的原因として、missing-driver 例に限定した hypothesis testing で medulloblastoma group-4 腫瘍に SETD2 を含む recurrent CNA が同定され (発現低下 P = 0.002、group-4 限局 P < 1 × 10⁻⁴)、新規 driver の存在が示された。chromophobe renal cell carcinoma (44%、19/43) と pancreatic neuroendocrine cancer (22%、18/81) は driver 不在率が際立って高く、特徴的な whole-chromosome aneuploidy パターンを共有しており、特定の染色体 gain/loss の組合せ自体が driver になりうる可能性が示唆された。技術的・新規 driver 要因を考慮してもなお 5.3% の腫瘍が driver を持たず、cancer driver discovery が未完成であることが結論づけられた。
Clustered mutational process (chromoplexy・kataegis・chromothripsis) のパターン:3 種の punctuated event を pan-cancer 規模で特徴づけた (Fig. 4)。chromoplexy と reciprocal translocation は 467 サンプル (17.8%) で同定され、prostate adenocarcinoma・lymphoid malignancy に加え予想外に thyroid adenocarcinoma で顕著だった (48 thyroid 中 13 fusion/enhancer-hijacking event のうち ≥4 が chromoplexy 由来、RET・NTRK3 fusion や IGF2BP3 (insulin-like growth factor 2 mRNA-binding protein 3) 活性化を生成)。kataegis は 全がんの 60.5% に認められ、APOBEC signature が kataegis event の 81.7% を占め APOBEC3B 発現・SV burden・診断時年齢と正相関した。chromothripsis は 587 サンプル (22.3%) で同定され、sarcoma・glioblastoma・lung squamous cell carcinoma・melanoma・breast adenocarcinoma で高頻度だった。chromothripsis は whole-genome duplication とともに増加し、最も強く関連する driver は TP53 (pan-cancer odds ratio = 3.22、P = 8.3 × 10⁻³⁵、Fisher–Boschloo test) だった。chromothripsis は全 driver の 3.6%・copy-number driver の約 7% に一致し、その多くが amplification (58%) で、liposarcoma の MDM2、glioblastoma の EGFR/MDM2 増幅と CDKN2A 喪失、acral melanoma の CCND1、lung squamous cell carcinoma の SOX2 増幅を駆動した。chromophobe renal cell carcinoma では chromothripsis がほぼ常に chromosome 5 を侵し、TERT 隣接 breakpoint により TERT 発現が平均 80 倍上昇した (P = 0.0004)。
Clustered event の進化的タイミングと germline 決定要因:molecular clock を用いた解析で、chromothripsis は subclonal より clonal である相対 odds が高く、特に liposarcoma・prostate adenocarcinoma・squamous cell lung cancer で進化早期に生じることが示された (Fig. 5a)。melanoma では 66 例 (61%) に 89 の chromothripsis event が同定され、acral melanoma では chromothripsis とそれに続く TERT/CCND1 共増幅が進化の極めて早期に起こる一方、lung squamous cell carcinoma の SOX2 増幅は多数の amplified SNV を伴いより後期の event であることが variant allele fraction から区別された (Fig. 5b)。germline 解析では、8,800 万個の germline variant を somatic 変異と統合し、22q13.1 の common variant rs12628403 (APOBEC3B coding 配列を削除し APOBEC3A と融合する 30-kb SV を tag) が APOBEC3B-like mutagenesis を規定し (β = −0.43、P = 5.6 × 10⁻⁹、n = 1,201)、East Asian コホートで独立に再現された (Fig. 6a)。germline BRCA2/BRCA1 PTV はそれぞれ small SV deletion (P = 1 × 10⁻⁸) と tandem duplication (P = 6 × 10⁻¹³)・templated insertion (P = 4 × 10⁻¹⁵) と関連し、germline MBD4 (methyl-binding domain protein 4) の protein-truncating variant は、メチル化 CpG の T:G mismatch を修復する DNA 修復遺伝子の失活を意味し、CpG での somatic C > T 変異率上昇と関連し、独立の TCGA exome コホート (n = 8,134) で同方向の association (P = 7.1 × 10⁻⁴) として再現 (replicate) された (Fig. 6c)。22q13.1 の germline–APOBEC 関連も East Asian コホートで独立に再現され (rs12628403 P = 4.2 × 10⁻¹²)、European-ancestry cohort (n = 1,201 donors) と East Asian cohort (n = 8,134 samples) の双方で robust だった。この APOBEC3B-like mutagenesis スコアは APOBEC3B 発現量と正相関し (Pearson r = 0.19、P = 2 × 10⁻⁶、cis-eQTL 解析)、組織横断的な幹細胞分裂率と telomere 維持異常頻度は負相関を示した (Spearman ρ = −0.42 相当、P = 0.01、Poisson regression)。さらに 114 の germline source L1 element のうち 16 の hot-L1 が全 transduction の 67% (2,440/3,669) を占め、Strombolian/Plinian の 2 様式に分類された (Fig. 6d)。
Replicative immortality と telomere 維持機構の多様性:PCAWG の 16% の腫瘍が ATRX・DAXX・TERT のいずれかに somatic 変異を持ち、TERT alteration は 270 サンプル、ATRX/DAXX alteration は 128 サンプル (うち 71 が protein-truncating) だった。telomere 配列の 12 features に基づき tumour サンプルは 4 つの distinct subcluster を形成し (Fig. 7a、n = 2,518)、TERT と ALT の二分法より telomere 維持機構が多様であることを示した。C1 (47 腫瘍)・C2 (42 腫瘍) は ALT 様 (長い telomere・多数 breakpoint・ectopic telomere insertion) で、C1 は RB1 変異/SV (P = 3 × 10⁻⁵) と ATRX SV (P = 6 × 10⁻¹⁴)、C2 は ATRX/DAXX point mutation (P = 6 × 10⁻⁵)、C3 は TERT promoter mutation (30%、P = 2 × 10⁻⁶) で特徴づけられた。telomere 維持異常率が最も高い tumour type は低 replicative activity の組織に由来する傾向があり、組織横断的な幹細胞分裂率と telomere 維持異常頻度は逆相関した (P = 0.01、Poisson regression)。これは telomere 維持の制限が、低増殖組織における重要な腫瘍抑制機構であることを示唆した。
考察/結論
本研究は 38 tumour type・2,658 検体の whole-genome を統一パイプラインで再解析した史上最大規模の pan-cancer WGS resource を構築し、coding と non-coding を統合した driver の全体像 (平均 4.6 driver/腫瘍、91% で driver 同定)、clustered mutational process の頻度と進化的タイミング、germline 変異が somatic 変異に及ぼす影響、telomere 維持機構の多様性を一挙に記述した landmark である。第一に、従来の exome (コード領域) 中心の解析とは対照的に、WGS でしか観測できない non-coding driver・large-scale SV・retrotransposition・telomere 動態の pan-cancer 像を提供した点で先行研究を大きく拡張した。non-coding driver が TERT promoter を除けば希少 (全 driver point mutation の 13%) であるという知見は、コード領域偏重の cancer genome landscape 観 (Vogelstein et al. Science 2013) に whole-genome の視点から定量的補完を加えるものである。第二に、本研究で初めて pan-cancer 規模で示された novel な発見として、chromothripsis が単一の catastrophic event でありながら進化早期に起こりうること (acral melanoma で大半の point mutation に先行)、複数の telomere 維持機構が TERT/ALT 二分法を超えて存在すること (4 cluster)、germline SV (rs12628403) や MBD4 PTV といった common/rare germline variant が somatic 変異パターン (APOBEC・CpG mutagenesis) を規定することが挙げられる。これらは companion paper 群 (Alexandrov et al. Nature 2020 の mutational signature 解析、初期の単一ゲノム研究 Pleasance et al. Nature 2010、signature 体系化 Alexandrov et al. Nature 2013) と統合され、がんゲノムの因果的生物学変化の包括的記述を構成する。第三に、臨床応用 (translational) の観点では、precision medicine の障壁が tumour type 間・患者間・clone 間・cell 間の途方もない heterogeneity にあることを定量的に示し、genomic data から意味ある臨床予測子を構築するには数万人規模の包括的臨床情報を伴う knowledge bank が必要であり、これは ICGC-ARGO のような国際協調とデータ共有によってのみ達成可能であると論じた。また、臨床 sequencing を提供する施設には、sample acquisition から variant calling・driver annotation まで pipeline 全体の慎重な検証が必須であると勧告した。第四に、残された課題 (limitation) として、5.3% の腫瘍で driver が同定できなかったことが cancer driver discovery の未完成を意味し、未記載の cancer-associated gene・特定の aneuploidy 組合せ・検出限界以下の event が残る可能性が指摘された。さらに本コホートは primary tumour 中心であり metastasis・治療後 sample・rare tumour type の被覆が限定的で、変異クラス間相関の機序的説明も不完全なまま残された。総じて本研究は、がんを駆動する因果的生物学変化の包括的 narrative に大きく近づけた一方、この知見を持続可能で意味ある臨床治療へ翻訳する作業がなお必要であると結論づけた。
方法
PCAWG Consortium は ICGC と TCGA の 2,834 donor からゲノムデータを収集し、品質保証後に 176 を除外、minor issue を持つ 75 を grey-listed、最適品質の 2,583 を white-listed とし、計 2,658 donor (white + grey) を解析対象とした (PCAWG データセット、Extended Data Table 1)。このうち 2,605 が primary tumour、173 が metastasis または local recurrence であり、最終コホートは男性 1,469 名 (55%)・女性 1,189 名 (45%)、平均年齢 56 歳 (range 1–90 歳)、38 tumour type にわたった。RNA-sequencing は 1,222 donor で利用可能だった。Normal の平均 read coverage は 39×、tumour は 38× と 60× に mode を持つ bimodal 分布だった。
somatic 変異同定では、全 6,835 サンプルを統一アルゴリズム群で解析した。データセット識別子は European Genome-phenome Archive (EGA) accession EGAS00001001692 として登録され、解析対象は PCAWG データセット (white + grey 合計 n=2,658 donor) である。SNV (single-nucleotide variation)・small indel・copy-number alteration (CNA)・SV の calling には 3 つの確立されたコアパイプライン (DKFZ・Sanger・MuTect 等のアルゴリズム) を用い、somatic retrotransposition・mitochondrial DNA mutation・telomere length は専用アルゴリズムで call した。germline variant (SNP, indel, SV, mobile-element insertion) は 3 つの独立パイプラインで同定し、haplotype-reference panel で phasing した。約 5,800 genome を統一 realign/call する計算課題と複数法域のデータ利用に伴う倫理課題に対し、cloud computing を用いて 3 大陸・13 data centre にアラインメントと variant calling を分散させ、コアパイプラインは Docker container として再現可能なスタンドアロンパッケージ化した。benchmarking では 3 コア + 10 追加パイプラインを 63 の代表的 tumour-normal ペアで走らせ、50 例は custom bait set への hybridization + deep sequencing で validation した。最終的に複数パイプラインを統合した consensus call の sensitivity/precision は SNV で 95%/95% (90% confidence interval (CI) それぞれ 88–98% / 71–99%)、indel で 60%/91%、SV で 90%/97.5% に達した。driver 同定には観測変異を recurrence・推定機能的影響・期待 driver パターンで順位付けし背景変異率を超える excess burden で打ち切る ‘rank-and-cut’ 法を開発し、既知 cancer-associated gene を加えた ‘compendium of mutational driver elements’ と統合した。統計解析では、年齢との関連に linear regression と likelihood ratio test、変異クラス比較に Mann-Whitney U-test、driver と chromothripsis の関連に Fisher’s exact 検定系の Fisher-Boschloo test、germline association study に PLINK v.1.9 を用いた two-sided hypothesis testing (genome-wide significance P < 5 × 10⁻⁸)、copy-number 領域の同定に GISTIC2.0、telomere/aneuploidy 頻度の関連に Poisson regression を適用した。