• 著者: PCAWG Transcriptome Core Group, Calabrese C, Davidson NR, Demircioğlu D, Fonseca NA, He Y, Kahles A, Lehmann KV, Liu F, Shiraishi Y, Soulette CM, Urban L, et al.
  • Corresponding author: Brazma A (EMBL-EBI); Brooks AN (UC Santa Cruz); Rätsch G (ETH Zürich); Schwarz RF (EMBL/MDC Berlin); Stegle O (EMBL); Zhang Z (Peking University)
  • 雑誌: Nature
  • 発行年: 2020
  • Epub日: 2020-02-05
  • Article種別: Original Article
  • PMID: 32025019

背景

がんゲノムの体細胞変化は、遺伝子発現変動、選択的スプライシング、遺伝子融合などの転写産物異常を引き起こすことが知られている。これらのRNA異常はがんの発生と進行に深く関与するが、非コード領域変異を含むゲノム変化と転写産物異常の因果関係を網羅的に解析するには、大規模なWGS (whole genome sequencing) とRNA-seq (RNA sequencing) の統合データが不可欠であった。がんゲノムの変異多様性と変異シグネチャーは、これまでの研究で詳細に解析されており (Alexandrov et al. Nature 2013Lawrence et al. Nature 2013)、腫瘍横断的な選択的スプライシング異常も報告されていた (Kahles et al. CancerCell 2018)。しかし、非コード領域変異がRNA発現、スプライシング、プロモーター使用に与える因果的影響は依然として未解明な点が多かった。従来のエクソームベース解析では非コード領域変異の影響が十分に捉えられず、患者間および腫瘍種間の不均一性も大規模な統合解析の障壁となっていた。

PCAWG (Pan-Cancer Analysis of Whole Genomes) プロジェクトは、ICGC (International Cancer Genome Consortium) とTCGA (The Cancer Genome Atlas) の大規模な統合解析基盤として、このような大規模統合解析を可能にした。このプロジェクトは、がんゲノムの包括的な理解を目指し、特に非コード領域の変異解析に焦点を当てていた。がんにおけるRNA異常の包括的カタログを構築することは、がん遺伝子や腫瘍抑制遺伝子の機能的同定、および新たな治療標的の探索に不可欠な資源として期待されていたが、そのための十分な規模の統合データセットが不足していた。本研究は、この知識ギャップを埋めることを目指し、がんにおけるRNA異常の遺伝的基盤を包括的に解明することを目的とした。特に、非コード領域の変異が転写産物レベルに与える影響を定量的に評価する大規模な統合解析データが不足しており、この点が本研究の主要な動機付けとなった。

目的

PCAWG Transcriptome Working Groupとして、WGSと転写産物シーケンシングが対応付けられた1,188腫瘍サンプルを解析し、生殖細胞系および体細胞DNA変化と各カテゴリのRNA異常(遺伝子発現変動、アレル特異的発現、プロモーター使用、選択的スプライシング、遺伝子融合)を関連付けることで、がんにおけるRNA異常の遺伝的基盤を包括的に解明すること。特に、体細胞コピー数異常 (SCNA) や非コード領域の体細胞変異が遺伝子発現やスプライシングに与える影響を定量的に評価し、新規の遺伝子融合タイプを同定することを目的とした。また、変異シグネチャーと遺伝子発現パターンの関連性を解析し、がんにおけるRNA異常の包括的なカタログを構築することを目指した。本研究は、非コード領域変異の機能的影響を定量化し、これまで報告されていない複雑なRNA異常のメカニズムを解明することで、がんの診断および治療戦略開発に貢献することを目指した。

結果

SCNAが発現変動の主要ドライバー: 転写産物変動の分散解析 (n=1,188腫瘍ドナー) の結果、SCNAが遺伝子発現変動の17%を説明する最大の因子であることが判明した (Figure 1)。これは体細胞フランキング領域SNVの1.8%や生殖細胞系バリアントの1.3%を大きく上回るものであった。アレル特異的発現不均衡 (AEI) の決定因子としてもSCNAが84.3%の説明分散を占め、生殖細胞系eQTL (9.1%)、体細胞SNV (4.9%)、インプリンティング (1.7%) を大幅に凌駕した。NMD (nonsense-mediated mRNA decay) を引き起こすprotein-truncating variantは、個別の因子として最も予測力が高かった。がん特異的eQTLとして、GTEx (Genotype-Tissue Expression) で再現されない生殖細胞系eQTLが422件同定され、これらはheterochromatin領域に富化されていた (p<0.05)。

体細胞eQTLの同定:非コード領域変異の優位性: 649の有意な体細胞eQTL遺伝子が同定され (FDR ≤ 5%; Figure 2)、そのうち68.4%は遺伝子フランキング非コード領域の変異負荷との関連であった。機能的アノテーション解析では、Epigenetics Roadmapのheterochromatin、bivalent promoter、weak/active enhancer領域に富化が見られた (FDR ≤ 10%)。既知のがん関連遺伝子 (CDK12 (cyclin-dependent kinase 12)、IRF4 (interferon regulatory factor 4) など) の体細胞eQTLが確認され、がん精巣遺伝子 (cancer testis genes) のbivalent promoterにおける体細胞eQTL富化 (TEKT5 (tektin 5) など) が見出された (p=0.04)。TERTは最多のプロモーター変異を持ち、特定の腫瘍型でプロモーター活性との関連が確認された。これらの結果は、非コード領域の変異が遺伝子発現に与える影響の大きさを裏付けている。

スプライシング異常:体細胞変異によるスプライシング撹乱: exon-intron境界近傍の体細胞変異5,282件のうち1,800件 (34%) がスプライシング変化と関連した (|z-score| ≥ 3)。acceptor/donor部位の必須ジヌクレオチドモチーフと重複する変異は、それぞれ61%および57%でスプライシング変化と関連した。ポリピリミジントラクトや分岐点アデノシン変異も有意なスプライシングアウトライア富化を示した (p<0.05)。SAVNetで同定された1,900の稀なSAV (splicing-associated variant) は、がん遺伝子に2倍富化されていた (p<0.05; n=1,188腫瘍サンプル; Figure 3)。Alu反復配列 (アンチセンス方向) 内のSAVがexon化 (イントロン内への新規exon形成) と有意に関連し (p=2.6×10⁻¹⁵)、腫瘍抑制遺伝子STK11での具体的なフレームシフト誘導exon化が示された。スプライシング変化の96%は発現への負の影響を持つことが確認された。

遺伝子融合の網羅的分類と新規カテゴリ「bridged fusion」: 3,540の遺伝子融合イベントが同定され、これらは3,297のユニークな遺伝子融合を表していた (925既知、2,372新規)。これらの融合のうち82%がSVと関連付けられた。149の融合 (約5%) が複数サンプルで再発した。最再発融合27種のうち8種は既報 (CCDC6-RET、FGFR3-TACC3 (transforming acidic coiled-coil protein 3)、PTPRK (protein tyrosine phosphatase receptor type K)-RSPO3など)、6種が新規 (NUMB-HEATR4、ESR1-AKAP12、TRAF3IP2-FYNなど) であった。さらに「bridged fusion」という新規クラスを定義した。これは、2つの遺伝子を第3のゲノム部位が橋渡しする融合形式であり、SVで支持された436融合のうち75例がこれに分類された (ETV6-NTRK3の3段階SV機序が代表例; Figure 4)。promiscuous遺伝子 (5パートナー超) 35種は、がんセンサス遺伝子とPCAWGドライバー遺伝子に有意に富化されていた (odds ratio 8.66、p≤10⁻¹⁵; odds ratio 12.27、p≤2.2×10⁻¹⁶)。一方、融合の18%ではSVエビデンスが認められず、RNA read-throughなどの機序が示唆された。

変異シグネチャーと発現パターンの関連: 28変異シグネチャーと遺伝子発現量の関連解析で、1,176遺伝子が少なくとも1つのシグネチャーと関連した (FDR ≤ 10%)。11シグネチャーでは、関連遺伝子に有意なGO (Gene Ontology)/Reactome経路富化が確認された。例として、UV関連シグネチャー38がTYR (tyrosinase) と関連し (p=1.0×10⁻⁴)、UV誘導酸化ストレス依存的DNA傷害の機序を示す知見が得られた。シグネチャーと発現の関連は腫瘍型特異的なパターンを示し、DNA修復経路の異常に起因するシグネチャーが複数の下流遺伝子発現変動と結びついており、変異プロセスが転写産物レベルに及ぼす機能的影響の広さを示した。

考察/結論

本研究は、がんにおけるRNA異常とゲノム変化の最大規模の包括的カタログを提供し、SCNAが発現変動の支配的要因である一方、体細胞非コード変異がスプライシング、発現、プロモーター使用に与える影響を系統的に実証した点で、パンがん転写産物解析の基盤的リファレンスとなる。

新規性: 特にbridged fusionという新規な融合カテゴリの発見は、単一SVでは説明できない複雑な融合形成機序を概念化したものであり、融合遺伝子解析の新たな枠組みを提供する。また、Alu反復配列のアンチセンス方向におけるSAVがexon化と有意に関連するという発見 (p=2.6×10⁻¹⁵) は、がんゲノム進化におけるAlu配列の機能的役割に関するこれまで報告されていない新規な知見である。

先行研究との違い: 1,176遺伝子が少なくとも1つの変異シグネチャーと有意に関連 (FDR ≤ 10%) するという結果は、PCAWG変異シグネチャー解析 (Alexandrov et al. Nature 2020) と相補的な知見を与え、ゲノム-転写産物統合解析の有用性を示す。エクソームシーケンシング主体のこれまでの解析と異なり、本研究はWGS統合による非コード変異のeQTL効果の定量化、Alu配列関連exon化の系統的証明、およびbridged fusionという新規な融合分類を初めて達成した。1,188腫瘍・27腫瘍型という規模は従来を大幅に超えており、多腫瘍型にわたる共通・特異的RNA異常の比較が初めて可能となった。649体細胞eQTL中68%が非コード変異由来であるという定量的知見は全エクソーム解析では原理的に捉えられず、WGS解析の診断的価値を裏付ける。さらにがん精巣遺伝子のbivalent promoter領域における体細胞eQTL富化は、がん特異的遺伝子発現調節機序の存在を示す新規な発見である。

臨床応用: 本知見は、bridged fusionを含む複雑な構造変異による融合形成の機序理解はRNA-seqベースの融合遺伝子診断の精度向上に直接貢献する。非コード変異が発現制御に与える影響の定量化は全ゲノム解析の臨床応用価値を強化し、非コード領域への創薬標的探索を促進する根拠となる。変異シグネチャーと発現パターンの関連は変異機序の機能的帰結を間接的に把握する手段として重要であり、腫瘍型別の表現型解釈に活用できる。

残された課題: 今後の検討課題として、個々の体細胞eQTLの機能的因果証明、スプライシング異常産物の腫瘍増殖における役割の実験的検証、複合的なRNA異常 (複数カテゴリの同時発生) がある特定のがんドライバー遺伝子に与える相加・相乗効果の解明が挙げられる。また、エピジェネティック変化やエンハンサーハイジャックなど、RNA変化を引き起こす他のゲノム変化メカニズムの調査も今後の研究方向性として重要である。

方法

本研究では、PCAWG Consortiumの1,188腫瘍ドナー、27腫瘍型におけるWGSとRNA-seqデータを統合解析した (Extended Data Fig. 1)。RNA-seqデータはSTAR (Dobin et al. Bioinformatics 2013) とTopHat2を用いてアラインメントされ、HTSeq (high-throughput sequencing) (Anders et al. Bioinformatics 2015) およびKallistoにより遺伝子および転写産物レベルの発現量が定量化された。発現量データはFPKM (fragments per kilobase of transcript per million mapped reads) およびFPKM-UQ (upper quartile normalization) で正規化され、PEER (probabilistic estimation of expression residuals) 解析により隠れた共変量を補正した。

体細胞eQTL (expression quantitative trait loci) の同定には、遺伝子周囲2 kb区間の変異負荷と発現量の関連解析を実施し、FDR (false discovery rate) ≤ 5%を有意水準とした。AEI (allele expression imbalance) 解析にはロジスティック回帰モデルを使用し、SCNA (somatic copy number alteration)、生殖細胞系eQTL、体細胞SNV (single nucleotide variant)、インプリンティング状態を説明変数として寄与を定量化した。スプライシング異常の同定には、exon-intron境界、分岐点、ポリピリミジントラクトでのスプライシングアウトライア (|z-score| ≥ 3) を検出するSAVNet (splicing-associated variant network) アプローチを使用した。

遺伝子融合は、FusionMapとFusionCatcher/STAR-Fusionの2つの融合検出法を統合し、さらにSV (structural variant) 情報を組み合わせて同定した。アーチファクト除外後、3,297のユニークな融合を分類し、SVとの関連性を500 kb以内の距離で評価した。変異シグネチャー (28種) と遺伝子発現量の関連解析では、線形モデルを用いてFDR ≤ 10%を有意水準とした。生殖細胞系eQTLは±100 kb範囲でマッピングし (FDR ≤ 5%)、GTEx (Genotype-Tissue Expression) データベースとの比較によりがん特異的eQTLを同定した。統計解析にはlimixパッケージが用いられ、GO (Gene Ontology) およびReactome経路のエンリッチメント解析にはBioconductorパッケージが使用された。細胞株やマウスモデルは本研究では用いられず、ヒト腫瘍サンプルのみが解析対象となった。