- 著者: Imielinski M, Guo G, Meyerson M
- Corresponding author: Imielinski M (Weill Cornell Medicine); Meyerson M (Dana-Farber Cancer Institute / Broad Institute)
- 雑誌: Cell
- 発行年: 2017
- Epub日: N/A
- Article種別: Original Article
- PMID: 28089356
背景
癌ゲノムにおける変異ホットスポットの探索は、主にタンパク質コード領域に焦点が当てられてきた。しかし、ゲノムの98%を占める非コード領域の解析は、技術的および統計的な困難さから遅れが指摘されていた。全ゲノムシーケンシング (WGS) 解析では、仮説数が膨大になる一方で、利用可能なサンプル数が少ないという課題があった。既存のInVExやMutSigCVといった手法は、主に全エクソームシーケンシングデータに特化しており、WGSデータへの適用には不適切であった。肺腺癌は、これまで複数の大規模エクソーム解析が実施され、タンパク質コード領域におけるドライバー変異のランドスケープは詳細に記述されてきたが、非コード領域における変異ホットスポットの系統的な解析は限定的であり、その全体像は未解明なままであった。例えば、TERTプロモーターやTAL1スーパーエンハンサーの非コード変異は報告されていたものの、これらが癌の発生・進展に与える影響の全体像を捉えるための包括的な解析は不足していた Vogelstein et al. Science 2013。また、変異プロセスの多様性に関する研究は進展していたが Alexandrov et al. Nature 2013、特定の細胞系統に特異的な非コード変異のメカニズムについては課題が残されていた Lawrence et al. Nature 2013。
目的
全ゲノムシーケンシングデータに対してGamma-Poisson回帰モデルを適用し、非コード領域における挿入・欠失変異 (indel) ホットスポットを統計的に同定すること。さらに、これらのホットスポットの癌種特異性および関連する分子メカニズムを解明することを目的とした。
結果
肺腺癌ゲノムにおける非コードindelホットスポットの同定: 79例の肺腺癌WGS解析において、indel解析で最も有意な上位3つのホットスポットは、SFTPB (surfactant protein B) (p = 1.8×10⁻¹⁴)、SFTPA1 (surfactant protein A1) (p = 4.8×10⁻¹⁰)、およびSFTPC (surfactant protein C)/BMP1 (bone morphogenetic protein 1) (p = 1.3×10⁻⁷) であった (Figure 1C, Table S1B)。これらの遺伝子は、肺のII型肺胞上皮細胞に特異的なサーファクタントタンパク質をコードする。79例中18例 (23%) がSFTPBに10件、SFTPA1に5件、SFTPCに4件の体細胞indelを有しており、合計21件中19件のindelがエクソームではカバーされない3’UTR以降の領域に集中していた (Figure 3A-3C)。SFTP indelは、既知の肺腺癌ドライバー変異 (KRAS、EGFR、TP53) や喫煙状況と有意な関連を示さなかった (Figure S2A-S2D)。また、cis遺伝子発現、スプライシング、メチル化との関連も有意ではなかった (Figure S2E, S2F)。SNV解析では、VMP1 (vacuolar membrane protein 1)/MIR21領域に有意なホットスポットが同定され、MIR21の高発現と関連していた (p値有意) (Figure 2A, 2B)。SFTP indelは、他の12癌種487例と比較して肺腺癌で25-fold enrichmentを示した (95% CI: [13.2, 47.4]; p = 5.6×10⁻²³)。
多癌種における系統決定遺伝子の非コードindelホットスポット: 13癌種487例のWGS解析において、系統特異的遺伝子領域は、expression-native腫瘍においてexpression-foreign腫瘍と比較してindel密度が14.3-fold (95% CI: [10.7, 19.2]; p = 9.5×10⁻⁷⁰) 高いことが判明した (Figure 4B)。これに対し、ハウスキーピング遺伝子や多系統遺伝子ではこの差は有意ではなかった (p = 0.188, p = 0.044)。SNVでは同等の差は認められなかった (p = 0.146) (Figure 4C)。癌種特異的に有意なindel富化 (Bonferroni補正p < 0.05) を示したのは、肝細胞癌 (LIHC; p = 2.8×10⁻¹⁵)、胃腺癌 (STAD; p = 6.8×10⁻¹⁰)、甲状腺癌 (THCA; p = 5.8×10⁻⁸)、皮膚黒色腫 (SKCM; p = 0.0043) の4癌種であった (Figure S4C)。個別遺伝子では、肝細胞癌のALB (albumin) (41%の症例; 17.6-fold enrichment; p = 2.1×10⁻²⁴)、甲状腺癌のTG (thyroglobulin) (43%; 9.03-fold enrichment; p = 1.3×10⁻¹³)、胃癌のLIPF (gastric lipase) (23%; 15.5-fold enrichment; p = 6.7×10⁻¹³) が同定された (Figure 5A-5C, S4D)。これらはいずれも系統特異的に高発現する遺伝子であり、変異の大多数が非コード領域に集積していた。ALBおよびTGでは、expression-native腫瘍とexpression-foreign腫瘍の間でSNV密度に有意ではあるがより穏やかな (3- to 5-fold) 富化が認められた (Figure S4D, Table S3D)。
indelホットスポットの配列コンテキストとクロマチン特性: ホットスポットindelは、H3K27ac、H3K36me3、H3K79me2、H4K20me1、H3K4me3といった特定のヒストン修飾と有意に相関していた (440解析中、Bonferroni補正後25特徴で64の有意な関連) (Figure 6A, 6B, 6C)。特に、AATAATD DNAモチーフがホットスポットindel近傍に有意に富化していた (35% vs 5.3%; OR = 10.3, 95% CI: [4.89, 22.1]; p = 5.7×10⁻¹¹) (Figure 7A, 7B, 7C)。head-on型(転写と複製方向が逆)のゲノム領域でindel富化が有意であった (p = 0.0035) (Figure S7E)。これは複製-転写衝突が変異機序の一候補であることを示唆するが、一般的なTAM (transcription-associated mutagenesis) パターン(ポリヌクレオチドリピートの拡大/収縮)との差は有意ではなかった (p = 0.12)。また、indel病変の近傍の50塩基配列コンテキストにおいて、AT塩基の有意な富化が認められた (p = 7.7×10⁻⁵)。
考察/結論
本研究は、従来のエクソーム解析では見逃されていた系統決定遺伝子の非コードindel変異プロセスを、全ゲノムシーケンシングデータを用いて統計的に実証した点で新規性がある。肺腺癌において、起源細胞であるII型肺胞上皮細胞がSFTPB/SFTPA1/SFTPCを最大産生することと、これらの遺伝子の3’UTR近傍がindelホットスポットとなることは、高転写遺伝子固有の変異脆弱性という概念を支持する。
先行研究との違い: これまでの非コード変異ホットスポットの先行例としてTERTプロモーターやTAL1スーパーエンハンサーが報告されていたが、これらはドライバー変異としての機能的意義を持つものとされていた。と異なり、本研究で同定されたSFTP、ALB、TGのホットスポットindelは、cis発現変化やスプライシング変化と有意な関連を示さず、そのドライバーとしての機能的意義は現時点では不明である。
臨床応用: 本知見は、癌の組織起源推定のバイオマーカーとなり得る可能性を秘めている。特に、分化度の低い癌がその起源細胞や組織から表現型的に逸脱している場合、診断に有用である可能性がある。また、エクソーム解析ではなくWGS解析が、このような新たな変異プロセスの発見に不可欠であることを示している。13癌種のWGS解析が示す普遍的なlineage-indelプロセスの存在は、癌ゲノム解析の新たな次元を開拓した意義があり、臨床的意義は大きい。
残された課題: 今後の検討課題として、これらの非コードindelが癌の発生や進展にどのように寄与するのか、その機能的影響を詳細に解明する必要がある。特に、cis発現変化を伴わないtransでの経路レベルの変化が観察されたことから、これらの変異が翻訳レベルやタンパク質機能に与える影響をプロテオミクス解析などで評価することが重要である。また、これらの変異が腫瘍進化のどの段階で生じるのか、その正確なタイミングを明らかにするためには、正常組織、前悪性病変、悪性腫瘍の深層シーケンシングが必要である。変異シグネチャーがAATAATDモチーフおよびH3K27ac/H3K36me3陽性領域と相関することは、転写関連変異誘発 (transcription-associated mutagenesis) との関連を示唆するが、その分子機序の完全な解明は残された課題である。
方法
本研究では、まず79例の肺腺癌腫瘍-正常ペアのWGSデータを用いた。ゲノムワイドに設定された282万個の10 kbp区間仮説セットに対し、8つのゲノム共変量を含むGamma-Poisson回帰モデルを適用し、indelおよびSNVホットスポットを探索した。このモデルは、中立的な体細胞変異密度の地域的なゲノム異質性を統計的に補正するように設計された (Figure 1A)。p値は、Gamma-Poisson分布の下で観察された変異数以上の変異数を観察する確率として算出された。Q-Qプロットにより、SNV解析でλ=1.01、indel解析でλ=1.00と、p値が均一分布に密接に一致することが確認された (Figure 1B, 1C)。
次に、この解析を13癌種487例のWGSデータに拡張した。GTExデータベースの2,917サンプルから、各組織で1,000 RPKM以上の発現を示す233の高発現遺伝子を同定し、これらをハウスキーピング、多系統、系統特異的の3クラスに分類した (Figure S4A, S4B)。これらの遺伝子領域(遺伝子±10 kbpフランキング配列)における癌種特異的なindel密度を、Gamma-Poisson回帰を用いて評価した。特定の癌種において、ある遺伝子領域がその組織で高発現している場合を「expression-native」、そうでない場合を「expression-foreign」と定義し、両者間のindel密度の差を比較した (Figure 4A)。
indelの配列コンテキストを解析するため、DREME (Discriminative Regular Expression Motif Elicitation) アルゴリズムを用いてモチーフ探索を実施した。さらに、ENCODEおよびRoadmap Epigenomicsプロジェクトのデータを用いて、H3K27ac、H3K36me3などのクロマチン特徴との関連性を評価した。複製方向と転写方向の関係性(co-directionalまたはhead-on)もindelパターンとの関連で解析された。統計解析には、Gamma-Poisson回帰モデルに加え、Fisherの正確検定、Wilcoxon順位和検定、およびWald検定が用いられた。多重比較補正にはBonferroni補正が適用された。本研究では、肺腺癌細胞株A549のENCODEプロファイルがクロマチン状態の評価に用いられた。