• 著者: Kadir C. Akdemir, Victoria T. Le, Sahaana Chandran, et al. (PCAWG Structural Variation Working Group & PCAWG Consortium)
  • Corresponding author: P. Andrew Futreal (University of Texas MD Anderson Cancer Center)
  • 雑誌: Nature Genetics
  • 発行年: 2020
  • Epub日: N/A
  • Article種別: Original Article
  • PMID: 32024999

背景

ゲノムは、DNAの線形配列を組織化するために、階層的に折り畳まれている。その中で、トポロジカル関連ドメイン (TAD) は、特定の領域内のDNA相互作用が他のドメイン内の領域よりも頻繁に生じる、主に組織型不変の構造として認識されている (Dixon et al. 2012)。TADは、同一ドメイン内の遺伝子が類似した発現プロファイルとヒストン修飾パターンを示すことから、機能的ドメインであると考えられている (Rao et al. 2014)。TAD境界は、隣接するドメイン間の相互作用を遮断し、遺伝子制御の境界として機能する重要な役割を担う。これらの境界は、CTCF結合部位に富み、活性プロモーターマークが濃縮される一方、ヘテロクロマチン状態は枯渇していることが知られている (Ho et al. 2014)。

先行研究では、TAD境界の破壊が遺伝子発現の異常制御を引き起こす可能性が示唆されてきた。例えば、発生異常においては、Pitx1-Tbx4 (paired-like homeodomain transcription factor 1 - T-box transcription factor 4) TAD境界の欠失が肢奇形に関与することが報告されている (Lupiáñez et al. 2015)。また、白血病においては、染色体再配列がTAD境界を越えたエンハンサーのハイジャッキングを引き起こし、がん遺伝子の異所的活性化を招く事例が報告されている (Gröschel et al. 2014)。具体的には、髄芽腫におけるGFI1 (growth factor independent 1 family oncogenes)/GFI1B (growth factor independent 1B family oncogenes) 活性化 (Northcott et al. 2014) や、急性骨髄性白血病におけるMECOM活性化 (Gröschel et al. 2014) など、個別のがん種での事例報告が存在する。さらに、がんにおけるクロマチン折りたたみ構造の異常制御に関する複数の研究も報告されている (Weischenfeldt et al. 2017; Hnisz et al. 2016; Flavahan et al. 2016)。

しかし、がんゲノム全体における体細胞構造変異 (SV) によるTAD破壊の頻度と全体像、及びがん種特異性については、これまで体系的な解析が不足しており、その普遍的な役割は未解明であった。特に、既報の個別事例以外に、潜在的な制御構造の変化によって影響を受ける遺伝子座が存在するかどうかも不明であった。これらの知識ギャップを埋めるため、大規模なパンキャンサーコホートを用いて、TAD境界破壊の頻度、SVの種類別パターン、組織型特異性、および遺伝子発現への影響を包括的に解析する必要があった。

目的

本研究の目的は、国際がんゲノムコンソーシアム (ICGC) とがんゲノムアトラス (TCGA) のPan-Cancer Analysis of Whole Genomes (PCAWG) コンソーシアムが収集した、38種類のがん種にわたる2,658症例の全ゲノムシーケンス (WGS) データから得られた288,457個の体細胞構造変異 (SV) データを用いて、TAD境界破壊の頻度、SV種類別のパターン、組織型特異性、および遺伝子発現への影響を体系的に解析することである。具体的には、以下の点を明らかにすることを目指した。

  1. 様々な細胞型で共通するTAD境界のセットを同定し、がん細胞におけるTAD構造の保存性を評価する。
  2. 体細胞SVがTAD境界に与える影響を、欠失、逆位、重複、複雑再配列といったSVの種類別に定量化し、TAD境界に対するSVの濃縮または枯渇の傾向を明らかにする。
  3. 体細胞SVによるTAD境界破壊の頻度が生殖細胞系SVと比較してどの程度異なるかを評価し、TAD境界の機能的重要性を示唆する。
  4. 38のがん種におけるTAD境界破壊型SV (BA-SV) の分布を解析し、がん種特異的なパターンを特定する。
  5. TAD境界破壊が近傍遺伝子の発現に与える影響を評価し、TAD境界の物理的破壊と遺伝子制御異常との関連性を解明する。

結果

共通TAD境界の同定と検証: 5つのヒト細胞株のHi-Cデータから、各細胞型で3,926〜4,690のTAD境界が同定された。これらの細胞型を超えて共通する2,477の境界が確立され、解析に用いられた (Extended Data Fig. 1d)。これらの共通境界は、既報のIMR90細胞の境界コールと84%以上で重複し、CTCF結合部位や活性プロモーターマークの濃縮、ヘテロクロマチン領域の枯渇といったTAD境界の典型的な特徴を示した (Fig. 1a, Extended Data Fig. 1c)。共通境界の中央間距離は約750 kbであり、既報のヒトTAD中央サイズと一致した (Extended Data Fig. 1e)。さらに、乳癌細胞株MCF7 (83.4%一致) および白血病細胞株K562 (85%一致) のTAD境界との高い重複は、TAD構造ががん細胞でも概ね保存されていることを示唆する (p < 10⁻⁷)。

SV種類別のTAD境界破壊率と濃縮・枯渇: PCAWGコホートの全288,457個の体細胞SVのうち、欠失の5.0%、逆位の8.5%、重複の12.8%、複雑再配列の19.9%がTAD境界を破壊するBA-SVに分類された (Fig. 1b)。ランダムシャッフリング境界との比較では、重複がTAD境界に有意に濃縮されていた (1.43-fold enrichment、p < 10⁻⁴)。これは、重複がTAD境界をまたぐ傾向があることを示す。対照的に、欠失はTAD境界を有意に回避する傾向があり (0.87-fold enrichment、p = 0.052)、TAD内に留まりやすいことが示唆された (Fig. 1c)。BA-SVの大部分 (欠失の74%、逆位の65%、重複の71%、複雑再配列の64%) が単一のTAD境界のみに影響を与えていた (Fig. 1d)。

体細胞SVと生殖細胞系SVの比較: 同一サイズ (75〜250 kb) の生殖細胞系欠失でTAD境界を破壊したものは0.1%未満 (924 deletions中6例) であったのに対し、同サイズの体細胞欠失では4.1%がTAD境界を破壊していた (Fig. 1e)。この約40倍の差異は、TAD境界の破壊が生殖細胞系では強い負の選択を受けていること、すなわち正常な発生に不可欠であることを示唆する。既知の生殖細胞系多型コレクション (2,504 human genomes由来) でも、TAD境界が有意に影響を受けにくい傾向 (p < 0.02) が確認された (Extended Data Fig. 2d)。

がん種別のBA-SV分布とがん種特異性: 38のがん種においてBA-SVの分布を解析した結果、leiomyosarcoma (平均25 BA-SV/sample) とuterus adenocarcinoma (平均22 BA-SV/sample) が最も高い頻度を示した (Fig. 2a)。全サンプルの中央値は約7 BA-SV/sampleであった。卵巣癌、食道腺癌、乳癌もそれぞれ平均約20件、19件、18件と高いBA-SV数を示した。血液悪性腫瘍 (myeloid-MDS、myeloid-AML) は最低率を示し、脳膠芽腫 (CNS-GBM) のみが期待値より有意に低いBA-SV頻度を示した (p < 10⁻³)。これは、CNS-GBMのSV頻度自体が低いこと、または3D構造的に保護されたゲノム領域を有することを示唆する。Leiomyosarcomaと食道腺癌では複雑再配列由来のBA-SVが多く、卵巣癌と胃癌では重複由来のBA-SVが多かった (Fig. 2b)。

TAD融合による遺伝子発現変化の浸透率: TAD境界欠失の14%のみが、近傍遺伝子の2-fold以上の発現変化をもたらした (Supplementary Table 5)。この低い浸透率は、TAD境界の物理的破壊だけでは必ずしも直接的な遺伝子制御異常が生じないことを示唆する。しかし、抑制ドメインと活性ドメイン間のBA-欠失では、抑制側に位置する遺伝子が有意に上方制御される傾向が認められた (p < 0.001) (Fig. 4c)。例えば、悪性リンパ腫サンプルにおけるWNT4の37-fold upregulation (Fig. 4d) や、乳腺腺癌サンプルにおけるSLC22A2の26-fold overexpression (Fig. 4e) など、個別の事例では明確な遺伝子発現変化が観察された。

クロマチン折りたたみパターンの細胞型特異的変化: 4つの癌細胞株 (SW480、SNU-C1、HCC1954、OE33) のHi-Cデータ解析により、WGSで検出されたBA-SVの90%以上でクロマチン折りたたみパターンの変化が観察された (Extended Data Fig. 9a)。BA-SVのブレークエンドは、非がん細胞と比較して、がん細胞で強い接触頻度 (14.6-fold) を示した (Extended Data Fig. 9b)。SVは、既存のTAD境界の位置に基づいて、新しいクロマチン折りたたみドメインの形成、すなわちネオTADの形成につながる可能性が示唆された (Fig. 5b)。例えば、OE33細胞におけるERBB2を含む逆位 (Fig. 5c) や、HCC1954細胞における染色体4の重複 (Fig. 5c) は、以前は分離していた2つのTAD間にTAD様構造を形成した。

複雑再配列による広範なゲノム再編: 複雑再配列 (クロモスリプシスなど) は、19.9%と最高率でTAD境界を破壊し、1 sample当たりのBA-SV数も最多であった (Fig. 1b)。SNU-C1 cellsでは、染色体15全体にわたるクロモスリプシスイベントがHi-Cマップに顕著な変化をもたらし (Fig. 6a)、HCC1954 cellsの染色体21でも同様のクロモスリプシス様イベントが観察された (Fig. 6b)。MYC遺伝子座周辺のSW480 cellsにおける局所的な複雑再配列 (Fig. 6c) や、TERT、APC、MYC遺伝子を含むHCC1954 cellsにおけるより大規模な複雑再配列 (Fig. 6d) も、異常なクロマチン折りたたみパターンを示した。これらの変化は生物学的Hi-Cレプリケート間で再現可能であった (Extended Data Fig. 10c)。

考察/結論

本研究は、PCAWGコンソーシアムの2,658がん症例という最大規模のゲノムデータセットを用いて、がんゲノムにおけるTAD境界破壊の全体像を初めて包括的に示した重要な研究である。

先行研究との違い: これまでの研究では、個別のがん種におけるTAD境界破壊の事例報告や、特定の遺伝子座でのエンハンサーハイジャッキングのメカニズムが示されてきた (例: Northcott et al. 2014; Gröschel et al. 2014)。しかし、本研究は38のがん種にわたる体系的な解析により、TAD破壊の普遍的な役割と、そのがん種特異的なパターンを確立した点で、これまでの知見と異なり、より広範な視点を提供している。特に、重複がTAD境界に1.43-fold濃縮されるという知見は、同グループの先行研究 (Weischenfeldt et al. 2017) で示唆されたエンハンサーハイジャッキングのメカニズムを、大規模コホートで検証し、その優先的な発生傾向を裏付けた。

新規性: 本研究で初めて、体細胞SVによるTAD境界破壊頻度が生殖細胞系SVを約40倍上回ることを明らかにした。この新規な知見は、TAD境界が正常な細胞機能や発生において不可欠であり、生殖細胞系では強い負の選択を受けることを明示する。これにより、がんゲノムにおけるTAD境界の変異が、正常細胞では許容されない機能的な影響を持つ可能性が示唆され、その機能的重要性が強調された。また、複雑再配列が最も高い頻度 (19.9%) でTAD境界を破壊し、広範なクロマチン折りたたみマップの変化を引き起こすことも新規な発見である。

臨床応用: 本研究の知見は、がんの診断と治療戦略に重要な臨床的意義を持つ。TAD境界破壊は、標準的なエクソームシーケンスや遺伝子パネル解析では検出されないがん遺伝子の異所的活性化を引き起こす可能性がある。Leiomyosarcomaや食道腺癌など、BA-SVが多いがん種では、TAD破壊を介したエンハンサーハイジャッキングが腫瘍進行の重要なドライバーとなりうる。したがって、全ゲノムシーケンスによるTAD境界破壊の検出は、これらの患者における新規の治療標的の同定や、予後予測に貢献する可能性がある。特に、特定の癌種でMDM2やBRAFなどの既知のドライバー遺伝子近傍の境界が再発的に影響を受けるという発見 (Fig. 3a, 3b) は、これらの遺伝子を標的とした治療法の開発や、個別化医療への応用につながる可能性がある。

残された課題: 本研究にはいくつかの残された課題がある。まず、TAD境界破壊が近傍遺伝子の2-fold以上の発現変化をもたらすのが14%に過ぎないという低い浸透率の決定因子を解明する必要がある。どのTAD破壊が機能的なエンハンサーハイジャッキングをもたらすのか、そのルールの発見が今後の検討課題である。次に、TAD融合に伴うエンハンサー-プロモーターペアの体系的同定と、それらを治療標的として利用する可能性の探求が重要である。さらに、WGSなしにSVやTAD破壊を検出する臨床検査技術の開発も、臨床現場への応用を促進するために不可欠である。また、3Dゲノム構造の腫瘍内不均一性と進化に関する研究、および個別患者のHi-Cデータを取得する技術 (micro Hi-Cなど) の臨床応用も今後の方向性として期待される。本研究では、腫瘍における遺伝子発現パターンに影響を与える可能性のあるコピー数異常、転写因子、クロマチン制御因子、またはシス制御エレメントの異常制御など、他の要因は考慮されていない。したがって、組織型特異的なマッチした対照サンプルとWGSおよびクロマチン組織データセットを組み合わせることで、がんにおけるゲノム折りたたみと転写異常制御におけるSVの機能に関する理解が深まり、適切な文脈でシグナルとノイズを区別する能力が向上するだろう。

方法

TAD境界の同定と共通境界の確立: 5つのヒト細胞株 (GM12878、HMEC (human mammary epithelial cells)、IMR90、HUVEC、NHEK) の高分解能Hi-Cデータ (25 kb分解能) を使用し、インスレーションスコア法 (Crane et al. 2015) に基づいてTAD境界を同定した。この方法は、2 Mbのゲノムウィンドウ内で近傍遺伝子座との平均相互作用を計算し、Hi-Cマトリックスの対角線に沿った局所的なインスレーションスコアの最小値として境界を決定する。各細胞型で3,926〜4,690の境界が同定され、細胞型を超えて共通する2,477の境界領域を確立した。これらの共通境界は、乳癌細胞株MCF7 (83.4%一致) および白血病細胞株K562 (85%一致) のTAD境界と高い重複を示し (p < 10⁻⁷)、がん細胞でもTAD構造が概ね保存されることを確認した。IMR90細胞の境界コールは、既報の方向性ベースのアプローチ (Dixon et al. 2012) による境界と84%以上で重複した。また、CTCF結合部位、DNase I高感受性部位、活性転写開始部位の濃縮、およびヘテロクロマチン領域の枯渇といった既知のTAD境界シグネチャーも確認された。

体細胞SVデータの取得と分類: PCAWGコンソーシアムの2,658がん症例 (38がん種) から、288,457個の高信頼体細胞SVをICGCおよびTCGAプロジェクトのWGSデータから抽出した。SVは、ブレークポイントの方向性に基づいて、欠失、逆位、重複、複雑再配列に分類された (Li et al. 2020)。複雑再配列には、クロモスリプシス (Korbel and Campbell 2013) や、欠失、逆位、重複を伴うSVブレークエンドを含むその他の変異が含まれる。本研究では、主に2 Mb未満の短距離SVに焦点を当てた。TAD境界を全長にわたり横断するSV (約75 kbの境界幅) をBA-SV (Boundary Affecting Structural Variation) と定義した。ランダムにシャッフルされた境界との比較には、ブートストラップ法を10,000回実施し、zスコアとp値を算出した。

生殖細胞系変異との比較: 生殖細胞系SVとの比較では、75〜250 kbのゲノム長を持つ欠失に限定して、TAD境界破壊の頻度を比較した。生殖細胞系SVデータは、1000 Genomesプロジェクト (Abyzov et al. 2015) やその他の研究 (Zarrei et al. 2015; Sudmant et al. 2015) から取得した。

がん種別BA-SV分布と遺伝子発現解析: 38のがん種にわたるBA-SVの分布を解析した。TADは、Roadmap Epigenomeデータ (Roadmap Epigenomics Consortium et al. 2015) のクロマチン状態プロファイルに基づいて、ヘテロクロマチン、低/静止、抑制、低活性、活性の5つのグループに分類された。TAD融合が起きた事例において、近傍遺伝子の発現変化 (>2倍) を評価した。遺伝子発現データは、GTExコンソーシアム (GTEx Consortium 2015) の2,921の非がんサンプルと、ICGC発現データセットの998のがん患者サンプルから取得した。発現変化の計算では、低発現遺伝子 (<0.1 FPKM) およびコピー数変異 (>4コピー) のある遺伝子を除外した。統計解析には、片側Mann-Whitney U検定を用いた。

Hi-Cによるクロマチン折りたたみパターンの検証: 4つの癌細胞株 (SW480、SNU-C1、HCC1954、OE33) の高分解能Hi-Cデータを新たに生成し、WGSデータで検出されたBA-SVが実際にクロマチン折りたたみパターンを変化させるか検証した。Hi-Cデータは、in situ Hi-Cプロトコル (Rao et al. 2014) に従って実施され、BWA-MEM (Li 2013) でアラインメント後、PicardでPCR重複を除去し、反復補正法 (Imakaev et al. 2012) で正規化した。