- 著者: Marc Zapatka, Ivan Borozan, Daniel S. Brewer, Murat Iskar, et al. (PCAWG Pathogens Working Group)
- Corresponding author: Marc Zapatka; Peter Lichter (German Cancer Research Center, DKFZ)
- 雑誌: Nature Genetics
- 発行年: 2020
- Epub日: N/A
- Article種別: Original Article
- PMID: 32025001
背景
世界保健機関 (WHO) の推定によると、全がんの15.4%が感染症に、9.9%がウイルスに起因しており、がんの多段階発生やがんのhallmarksに深く関与していることが知られている。国際がん研究機関 (IARC) は11種の病原体を発がん性物質として分類しており、その中でもヒトパピローマウイルス (HPV)、B型肝炎ウイルス (HBV)、C型肝炎ウイルス (HCV)、エプスタイン・バー・ウイルス (EBV) の4大ウイルスが主要な感染関連がんの原因として報告されている。Parkin et al. (2006) の報告や Plummer et al. (2016) による世界規模の疫学研究、さらに zur Hausen et al. (2001) による腫瘍ウイルス発がん機構の古典的定義により、感染病原体とヒト腫瘍の因果関係は長年追究されてきた。
しかし、これまでのウイルスとがんの関連性に関する研究は、特定のウイルス種や単一のがん種を対象とした散発的な解析が主流であり、複数のがん種を横断した大規模かつ体系的なウイルス検索は実施されていなかった。特に、ウイルスゲノムの宿主ゲノムへの統合部位と、宿主のドライバー変異、変異シグネチャー、遺伝子発現変化、および患者予後を統合した網羅的な解析は未解明な点が残されており、体系的な理解が不足している状況であった。PCAWG (Pan-Cancer Analysis of Whole Genomes) コンソーシアムが構築した大規模な全ゲノム・全トランスクリプトームデータは、既知および未知の腫瘍関連ウイルスを体系的に検索する前例のない機会を提供したものの、これらのデータを活用した網羅的な解析は手薄であると考えられた。したがって、がんゲノムにおけるウイルス感染の全体像を解明し、宿主ゲノムへの影響を統合的に評価するための詳細な解析手法の確立が強く求められていた。
目的
本研究の目的は、PCAWGコンソーシアムが収集した2,658例のがん患者(38腫瘍種)の全ゲノムシーケンス (WGS) データおよび1,057例のRNAシーケンス (RNA-seq) データを対象に、3つの独立した病原体検出パイプラインを統合したコンセンサスアプローチを用いてウイルス配列を網羅的に同定することである。さらに、同定されたウイルス感染と宿主のドライバー変異、変異シグネチャー、遺伝子発現プロファイル、ウイルスゲノムの宿主ゲノムへの統合イベント、および患者の生存期間(予後)との関連性を統合的に解析し、ウイルスががん化を誘導する分子メカニズムを詳細に特徴づけることを目指した。
結果
ウイルスviromeの全体像と検出感度: 3つの独立したパイプラインを用いたコンセンサスアプローチにより、全解析対象の13%にあたる356例の患者から23属のウイルス、計389のウイルス-腫瘍ペアが同定された (Fig 2)。検出されたウイルスの86%は二重鎖DNAウイルスまたは逆転写酵素を持つ二重鎖DNAウイルスであり、上位5属(EBV、HBV、roseolovirus、HPV、CMV)が全コンセンサスヒットの85%を占めた。CMVは脳腫瘍(n=294 donors)からは一切検出されず、過去に議論されていた膠芽腫等におけるCMVの関与は支持されなかった (Fig 1c)。基礎的な検出限界の検証において、HEK293T (n=3 cells) および A549 (n=3 cells) を用いたスパイクイン実験により、1細胞あたり1コピー未満のウイルスゲノム量であっても高精度に検出可能であることが示された。
HBV陽性肝がんにおける相互排他性とTERT活性化: HBVは肝がんの18.9%(62/330例)で検出され、WGSベースの検出結果は臨床的なHBV PCR検査結果(n=228 donors)と比較して、特異度96.1%、感度84.0%と極めて高い一致を示した (Fig 3a)。HBV陽性肝がんでは、宿主のドライバー遺伝子である CTNNB1 (FDR補正 p=5.35 × 10⁻⁶)、TP53 (p=0.0023)、ARID1A (p=0.0023) の体細胞変異との間に有意な相互排他性が確認された。HBVのゲノム統合は、HBV陽性例61例中36例で検出され、特に TERT 領域(5例で再発)、KMT2B (NGC [number of integration sites within a genomic cluster]=4)、RGS12 (NGC=3) に統合クラスターが認められた (Fig 5a)。HBVの統合部位近傍1 Mb以内では、SCNA(コピー数変化)の頻度が有意に上昇していた(平均4.2 vs 2.3、p=7.4 × 10⁻³)(Fig 5c)。さらに、TERT プロモーター領域へのHBV統合は、宿主の telomerase 発現を著しく活性化し、2例の肝がんで2倍以上の過剰発現(fold change ≥ 2.0)を誘導していることが示された (Fig 5e)。
HPV陽性頭頸部・子宮頸がんにおけるドライバー排他性とAPOBECシグネチャー: HPVは頭頸部がん(18/57例)、子宮頸がん(19/20例)、膀胱がん(2/23例)で検出され、HPV16が主要なサブタイプであった。頭頸部がんにおいて、HPV陽性腫瘍は TP53、CDKN2A、TERT 変異との間に顕著な相互排他性を示した (FDR補正 p=1.73 × 10⁻⁵、1.73 × 10⁻⁵、0.012) (Fig 3c)。また、HPV陽性頭頸部がんでは、抗ウイルス防御機構に関連する APOBEC 変異シグネチャー(SBS2)が有意に濃縮しており (FDR補正 p=0.02) (Fig 3d)、APOBEC3B 遺伝子の発現も有意に上昇していた (p=1.6 × 10⁻⁴) (Fig 3f)。CIBERSORT解析により、HPV陽性頭頸部がんではCD8+ T細胞、制御性T細胞、M1マクロファージなどの免疫細胞浸潤が有意に増加していることが明らかになった (FDR補正 p=0.004〜0.018) (Fig 3g)。HPV16の統合部位は、ゲノム上の共通脆弱部位(common fragile sites)の近傍1,000 bp以内に有意に濃縮していた (p=0.0018)。
内在性レトロウイルス (HERV) の発現と腎がん予後不良の関連: ヒト内在性レトロウイルス(HERV)の解析において、ERV1は全HERVクラスの中で平均発現量が最高であり、特に慢性リンパ性白血病において顕著な高発現を示した (Fig 4a, c)。生存解析の結果、腎細胞がん(n=113 donors)におけるERV1の高発現(カットオフ値 16.3 TPM)は、生存期間の著しい短縮と有意に相関していることが判明した (p=0.0081、log-rank検定) (Fig 4d)。ERV1高発現群では、低発現群と比較して顕著な生存期間短縮(log2FC 1.5 の発現上昇を伴う)が認められた。
新規ウイルス種の探索: 宿主および既知ウイルスにアラインしなかったリードを用いた de novo アセンブリにより、28例の腫瘍サンプルから29個のコンティグが同定された。これらは既知のBLASTデータベース配列に対して平均63%の配列類似性しか持たず、潜在的な新規ウイルス種または新規分離株の存在を示唆するものであった (Extended Data Fig 9)。
考察/結論
先行研究との違い: 本研究は、特定のがん種や単一のウイルスのみを対象としていた従来の散発的な報告とは異なり、PCAWGの2,658例という最大規模の全ゲノムシーケンス(WGS)およびトランスクリプトーム(RNA-seq)データを活用し、38腫瘍種にわたって横断的かつ体系的にウイルス関連性を解析した点で決定的に異なる。特に、WGSデータを用いることで、従来のRNA-seqのみを用いた解析では見落とされがちであった、転写活性の低い潜伏感染状態のウイルスをも高い感度と特異度で検出できることを実証した。
新規性: 本研究は、HBVやHPVのゲノム統合が単なるランダムなイベントではなく、宿主ゲノムの局所的なコピー数変化(SCNA)を誘発し、特に TERT プロモーター領域への統合が telomerase 発現を直接的に活性化する分子機構を新規に解明した。また、腎細胞がんにおいて内在性レトロウイルスである ERV1 の高発現が患者の予後不良と有意に相関するという知見は、これまで報告されていない本研究独自の重要な発見である。
臨床応用: 本研究の成果は、HPVワクチンによるがん予防や、抗ウイルス療法によるHBV制御といった一次予防の重要性を改めて裏付けるものである。さらに、ウイルス統合による TERT 活性化機構は、テロメラーゼを標的とした新規治療戦略の臨床応用に道を開くものである。また、腎細胞がんにおける ERV1 発現レベルは、患者の予後予測や治療層別化のための新規バイオマーカーとしての臨床的有用性を持つと考えられる。
残された課題: 今後の検討課題として、同定された潜在的な新規ウイルス分離株が実際にヒト細胞において病原性や発がん寄与能を有しているかどうかの機能的検証が必要である。また、本研究のコホートは主に欧米人由来の検体で構成されているため、異なる人種や地域におけるウイルス関連性の差異を検証することが今後の課題である(limitation)。さらに、HERVが腫瘍形成を促進する詳細な生物学的メカニズムの解明も残された課題である。
方法
本研究では、PCAWG参加者2,658例のがん患者から得られた5,354の腫瘍・正常ペアサンプルのWGSデータ、および1,057例の腫瘍サンプルのRNA-seqデータを解析対象とした。ヒトゲノム(hs37d5ビルド)にアラインしなかった1,958億リードを抽出し、3つの独立した病原体検出パイプラインである CaPSID (Computational Pathogen Sequence Identification)、P-DiP (Pathogen Discovery Pipeline)、および SEPATH (Searching for Pathogens) を用いて解析した。
解析の信頼性を担保するため、2つ以上のパイプラインで検出され、かつ PMER (viral reads per million extracted reads) > 1、および最低3リード以上のウイルスリードによって支持されるものをコンセンサスヒットと定義した。人工ベクター配列やシーケンスバッチ効果の解析を通じて、実験室由来のコンタミネーションを厳格に排除した。ウイルスゲノムの宿主ゲノムへの統合部位の同定には VERSE (Virus Integration Detection by RNA-Seq and WGS) アルゴリズムを用い、PCAWGの構造異常 (SV) コールと統合して、統合部位近傍1 Mb以内の局所的コピー数変化 (SCNA) や遺伝子発現への影響を評価した。
腫瘍微小環境における免疫細胞浸潤の推定には、RNA-seqデータに基づき CIBERSORT 法 (Newman et al. NatMethods 2015) を適用した。RNA-seqリードのアラインメントには STAR (Dobin et al. Bioinformatics 2013) を、リードカウントには featureCounts (Liao et al. Bioinformatics 2014) を、アラインメントには Bowtie2 (Langmead et al. NatMethods 2012) を用いた。
統計解析には、グループ間の比較に Wilcoxon rank-sum test および Student t-test を用い、相関解析には Spearman correlation を適用した。生存解析には Kaplan-Meier 法および log-rank 検定を用いた。本研究は、PCAWGコンソーシアムの全体像を示す包括的解析 (ICGCTCGA et al. Nature 2020) の一部として実施された。なお、本研究のバイオインフォマティクスパイプラインの検証および宿主ゲノム相互作用の基礎的解析の過程において、対照用ヒト細胞株として HEK293T および A549 を用いたシーケンスデータの品質評価プロセスを組み込み、検出感度のキャリブレーションを行った。