- 著者: Akshaya V. Annapragada, Noushin Niknafs, James R. White, Daniel C. Bruhm, Christopher Cherry, Jamie E. Medina, Vilmos Adleff, Carolyn Hruban, Dimitrios Mathios, Zachariah H. Foda, Jillian Phallen, Robert B. Scharpf, Victor E. Velculescu
- Corresponding author: Robert B. Scharpf / Victor E. Velculescu (Johns Hopkins University School of Medicine, Baltimore, MD, USA)
- 雑誌: Science Translational Medicine
- 発行年: 2024
- Epub日: 2024-03-13
- Article種別: Original Article
- PMID: 38478628
背景
ヒトゲノムの50%超はリピート配列 (反復配列) から構成される。LINE (long interspersed nuclear elements)、SINE (short interspersed nuclear elements)、LTR (long terminal repeat) 型レトロトランスポゾン、ヒトサテライト、DNAトランスポゾン、RNA エレメントなど多様なファミリーが含まれ、ゲノムの構造・機能・発現調節に重要な役割を担う。しかし、従来の短鎖リードシーケンシングでは反復配列への正確なアライメントが困難であり、がん研究においてリピート領域はほぼ一貫して解析から除外されてきた。
がん細胞では、リピート配列のグローバルな脱メチル化によりトランスポゾンが再活性化し、オンコジーンの転写を異所的に活性化する (oncoexaptation) 現象が生じることが知られる。特に LTR-ERV1 (long terminal repeat-endogenous retrovirus 1) ファミリーの少なくとも21種が各種がんで変化することが報告されてきた。サテライトリピートのセントロメア周囲での拡大は染色体分離異常と関連し、タンデムリピートはコピー数変化のブレークポイントに濃縮される。また、LINE-1 介在性欠失が扁平上皮肺がんで確認されるなど、リピートはゲノム不安定性の直接的な担い手でもある。さらに、ERV (endogenous retrovirus) エレメントの再活性化が dsRNA (double-stranded RNA) を介した自然免疫応答を誘導し、がん細胞の免疫認識に影響することも示された (Chiappinelli et al. Cell 2015)。これらの知見は特定のリピートファミリーに限定されており、ゲノム全体のリピート景観 (repeat landscape) を網羅的に定量・比較する体系的手法が存在しなかった点が大きな gap in knowledge であった。
血漿 cfDNA (cell-free DNA) を用いた液体生検の分野では、DELFI (DNA Evaluation of Fragments for early Interception) を用いた断片長プロファイリングや末端塩基配列解析が多がん種検出に有用なことが示され Cristiano et al. Nature 2019、cfDNA フラグメントがヌクレオソームフットプリントを反映し組織起源情報を保持することも報告された Snyder et al. Cell 2016。しかし、cfDNA に占める最大のゲノム成分であるリピート配列を直接定量し、がん検出に応用した体系的解析はなかった。また、既存の cfDNA 解析では hg19/hg38 参照ゲノムに基づいてアライメント可能なリードのみ (全リードの約60-85%) を利用しており、セントロメア・アクロセントリック短腕・ヒトサテライト領域は「マッピング困難」として除外され続けてきた。2022年に公開された CHM13 (complete hydatidiform mole 13 genome assembly; T2T テロメアからテロメアまで完全参照配列) が、従来アクセス不能だったこれらの領域を初めて高品質に注釈し、リピート配列全体の de novo 定量という gap を埋める技術的基盤を与えた。
目的
T2T-CHM13 参照ゲノムを用いて、ゲノム全体のリピート配列を de novo kmer アプローチで定量化する手法 ARTEMIS (Analysis of Repeat Elements in Disease) を開発し、(1) がん組織 (PCAWG コホート) でリピート景観の広範な変化と臨床的意義を同定し、(2) 血漿 cfDNA の低カバレッジ全ゲノムシーケンシング (lcWGS, low-coverage whole genome sequencing) から同シグナルを検出して、多がん種の早期検出・病勢モニタリング・組織起源同定への応用可能性を実証すること。
結果
PCAWG 525 腫瘍での820種新規がん関連リピートの同定: PCAWG 525 腫瘍-正常対応解析では、1280 リピートファミリーのうち中央値 807 種 (範囲 246-1280) が各腫瘍で有意に変化していた (Fig. 2A)。変化したエレメントの約 3 分の 2 にあたる 820 種 (64%) はがん関連変化がこれまで報告されていない新規エレメントであり、残る 460 種のみが既知のがん関連リピートに該当した (Table 1)。ファミリー別では LINE、SINE、サテライトが最高頻度で変化し、LTR・トランスポゾン・RNA エレメントにも広範な変化が認められた。特に LTR-ERV1 (n=300 エレメント) は全 12 がん種で平均 40% 以上が変化しており、既報の 21 種に加え 279 種の新規 ERV1 変化が同定された。変化するエレメントの組み合わせは患者ごとに固有であり、どの2患者も同じ変化セットを持たなかった。COSMIC がんドライバー遺伝子 (n=736) の解析では 487/736 遺伝子がエクソン・イントロン内に期待値以上の repeat kmer を保有し (NES=9.12, FDR q=0.00)、ドライバー遺伝子領域でリピート kmer が平均 15-fold 増加していた (P < 2.2 × 10^-16, Wilcoxon 符号順位検定, Fig. S3D)。細胞接着・増殖・シグナル経路を含む複数のがん関連パスウェイでも kmer 有意増加が確認された (FDR q < 0.05, Fig. S4)。
染色体不安定性・構造変化との定量的相関: PCAWG における kmer リピート景観変化は染色体アーム獲得・喪失と高度に相関した (r=0.81, n=525, P < 2.2 × 10^-16, Spearman 相関, Fig. S7)。腫瘍変異量 (TMB: tumor mutation burden) との相関は弱く (r=0.15, n=525, P=8.3 × 10^-4)、リピート景観変化は SNV よりも染色体規模の構造変化をより鋭敏に反映した。腫瘍での全変化のうち 89% は染色体コピー数変化だけでは説明できない大きさを持ち (中央値 693 変化/腫瘍、範囲 232-1280)、少なくとも 75% の腫瘍でコピー数変化と無関係に変化する 236 エレメントが同定された (Fig. S9)。また、LOH (loss of heterozygosity)・非モーダル倍数体分画とも中程度の相関が得られた (r=0.29, n=525, P=2.7 × 10^-10; r=0.33, n=525, P=1.2 × 10^-14 それぞれ Spearman)。構造ブレークポイント解析では 215 エレメントがブレークポイントへの濃縮を示し、うち 128 エレメントは新規だった (Fig. 2B)。乳がん (n=91) の ERBB2 周囲 1 Mb 領域で 14 リピートエレメントの有意な増加が認められ、そのうち 8 種は新規であった (P < 0.05, Wilcoxon, Fig. 2C)。肺扁平上皮がんでは PIK3CA/SOX2 含む 3q 約 30 Mb 領域の kmer 増加と、LINE-1 介在性欠失に起因する kmer 減少が同定された (Fig. 2D)。
ARTEMISスコアと全生存期間・無増悪生存期間の関連: PCAWG 進行がん (stage III/IV, n=167) において、ARTEMISスコア上位群 (中央値超) は下位群と比較して OS が有意に短縮し (log-rank P<0.001)、PFS も同様に短縮した (P<0.001, Fig. 2E)。がん種を共変量とした多変量 Cox 回帰解析でも PFS 短縮は病期独立の有意な関連を維持した (P<0.001, Fig. S13)。この予後予測能はゲノムエントロピー・LOH・非モーダル倍数体分画など他のゲノムワイド指標では認められなかった (Fig. S14A/B)。リピートエレメントの再活性化により産生される dsRNA が自然免疫応答を誘導し腫瘍細胞適応度を低下させる機序、またはリピート拡大によるゲノム不安定性の増大が、この OS/PFS との関連の生物学的基盤として想定される。
cfDNA中のリピート景観定量化とエピゲノム依存性: Y 染色体特異的ヒトサテライトの kmer カウントはがんなし男性血漿 (n=87) で女性 (n=71) に対して有意に高く (P < 2.2 × 10^-16 全型, Wilcoxon, Fig. 3A)、lcWGS cfDNA がゲノムの染色体構成を忠実に反映することが実証された。肺がん・肝臓がん患者血漿では PCAWG 組織で同定されたリピート変化が cfDNA でも検出でき、LINE-1 などの既知エレメントに加え、DNA-hAT-Charlie や LTR-ERV1/ERVLMaLR (endogenous retrovirus-like malignancy-associated LTR retrotransposon) などの新規エレメントの変化も血漿で確認された (Fig. 3B)。ENCODE ChIP-seq データとの統合解析では、活性化ヒストン修飾 (H3K27ac, H3K9ac, H3K4me3 等) に富む領域から放出される cfDNA フラグメントは短くカバレッジが低い一方 (Fig. 4C/D)、抑制性修飾 (H3K9me3, H3K27me3) に富む領域では kmer カウントが高い逆相関が確認された (Fig. 4E)。シーケンス深度を 60× から 1× にダウンサンプリングしてもリピート景観は高い再現性を示し (Fig. S15/S16)、lcWGS (1-2×) での利用可能性が支持された。
肺がん・肝臓がん早期検出および TKI 治療モニタリング: LUCAS 肺がん診断コホート (n=287) において、ARTEMIS 単独 AUC 0.82 (95% CI 0.78-0.87) vs ARTEMIS-DELFI AUC 0.91 (95% CI 0.88-0.94) と統合により有意な改善を示した (Fig. 5B)。肝臓がん高リスクコホート (n=208) では ARTEMIS 単独 AUC 0.87 (95% CI 0.82-0.93) vs ARTEMIS-DELFI AUC 0.90 (95% CI 0.86-0.94) を達成した (Fig. S22)。外部検証コホート (Johns Hopkins, n=431) ではロックされたモデルで同等の性能が確認された (Fig. 5C)。LUCAS 内の治療歴あり保留サブコホート (n=25) では再発例でスコアが高く、再発モニタリングの可能性が示された。TKI 療法中の進行肺がん (n=19) では、ARTEMIS スコアが ctDNA 変異アリル分率と高相関した (r=0.70, n=19, P=2.67 × 10^-12; ARTEMIS-DELFI r=0.80, n=19, P < 2.2 × 10^-16, Spearman)。治療開始後中央値 6 日目のスコア高値群は低値群に比べ PFS が有意に短縮した (中央値 1.4 ヶ月 vs. 8.9 ヶ月, P<0.001, log-rank, Fig. S25)。
多がん種での組織起源同定 (68-83% 精度): PCAWG 組織検体での GBM モデルは 12 がん種の組織起源を kmer リピート景観のみで平均 78% 正確度で分類した (Table S16)。cfDNA 多がん種コホートでは ARTEMIS-DELFI を 90% 特異度閾値で検出された患者 (n=211) に適用し、組織起源を最高予測 1 位の正確度 68%・上位 2 位の正確度 83% で同定した (Table 2)。がん種別の最高予測正確度 (95% CI):乳がん 79% (65-89%, n=52)、胆管がん 75% (53-90%, n=24)、大腸がん 65% (44-83%, n=26)、胃がん 75% (53-90%, n=24)、肺がん 42% (25-61%, n=31)、卵巣がん 70% (50-86%, n=27)、膵がん 67% (46-84%, n=27)。ランダム割付精度 (16%) に対し平均 4.3 倍の改善を達成した。肺がんの精度が低い理由として、肺がん患者が肺がん外の他がん種ライン (追加モニタリング肺がん) と混在する設定の複雑さが挙げられる。
考察/結論
本研究はヒトゲノムの半分超を占めながら従来の液体生検では解析困難であったリピート配列を、ARTEMIS kmer アプローチによって組織・血漿 cfDNA から体系的に定量化できることを示した。T2T 完全参照ゲノムを活用した 12 億 kmer ライブラリーを構築し、アライメント不要の de novo 定量によりゲノムの「暗黒領域」だったリピート配列全体を解析対象とした。PCAWG n=525 腫瘍で 820 種のがん関連リピートを新規に同定したことは、がんゲノム研究においてもこれまでの研究が見落としていた広大なゲノム情報を明らかにした独立した意義がある。
既存手法との方法論的差異: DELFI (断片長プロファイル)・末端モチーフ解析・メチル化解析など既報のフラグメントミクス手法が断片のサイズ・位置・塩基組成に着目するのと異なり、ARTEMIS はリピート配列の kmer 構成、すなわちゲノム「テクスチャー」変化を直接定量する。この次元の情報が既存手法と独立であることは、ARTEMIS をDELFIに追加することで肺がん AUC が 0.82 → 0.91 へ向上した事実が示す。lcWGS (1-2×カバレッジ) で有効であり、ゲノム全体の 98% のリードを利用する (従来の高品質アライメント可能率 60-85% を上回る) 点も技術的優位性である。さらに、ARTEMISスコアが OS/PFS と独立して相関し、他のゲノム不安定性指標では再現されなかったことは、リピート景観変化が独自の予後情報を持つことを示唆する。
臨床的意義: ARTEMIS は肺がん・肝臓がんの早期検出と TKI 治療モニタリングで AUC 0.87-0.91 という臨床的意義のある性能を示した。治療開始後 6 日という早期時点でのスコア変化が PFS と相関することは、臨床現場でのリアルタイム治療応答評価への応用可能性を示す。cfDNA の 44% のみが既知遺伝子内に位置するという事実は、腫瘍由来変異シグナルが乏しい早期がん・低腫瘍分画状態において ARTEMIS が補完的感度を提供しうることを示唆する。臨床応用に向けては、スクリーニング集団 (がん罹患率 <1%) での性能検証が次の必須ステップである。
残された課題: 本研究には複数の limitation がある。外部検証は主に肺がん (累計 n=532) に集中しており、他がん種での独立コホート検証は今後の研究が必要である。kmer アプローチは染色体・ファミリーレベルのリピート変化を定量するが、個別コピーの挿入位置同定は不可能であり、分子機能的意義の解釈に限界がある。現行の T2T-CHM13 参照ゲノムは単一個体由来であり、ゲルムライン多型 (リピートの個人差) が ARTEMIS スコアの変動因子となりうる。多様な民族集団の pangenome 参照を用いた補正が性能改善に資するかは今後の展望として残る。低複雑度リピートや高多型性領域は本アプローチで完全には解析できず、更なる改良も課題である。免疫チェックポイント阻害薬治療中の患者での ERV エレメント活性化と治療応答の定量的関係も有望な今後の検討課題として位置づけられる。
方法
ARTEMISライブラリーの構築: CHM13v2 (complete hydatidiform mole 13 version 2) 参照ゲノムの RepeatMasker トラックから 1287 リピート型の配列・座標を抽出し、Jellyfish を用いた de novo kmer 探索を実施した。単一リピート型にのみ存在し非リピート領域には出現しない 24-mer を選出し、最終的に 1,206,871,310 個 (12億) の unique kmer で 1280 リピート型 (1266 型はRepeatMasker由来、14 型はHSATII/HSATIII (human satellite II/III) 補足) を定義した。各リピート型は中央値 43,297 kmer・平均 2.6 Mb のゲノム配列をカバーする。マイクロバイオーム汚染の確認として Human Microbiome Project の 1545 参照ゲノムを精査し、各ゲノムに含まれる ARTEMIS kmer は中央値 100 個 (全 12 億 kmer の 0.0002% 未満) であり汚染影響は無視できることを確認した。サンプルごとのリピート景観は、各リピート型の kmer カウント合計を MAPQ ≥ 30 アライメントリード数で正規化して定義した。
PCAWG 組織解析: PCAWG (Pan-Cancer Analysis of Whole Genomes) コンソーシアムから 525 例の腫瘍-正常対応 WGS (whole genome sequencing) データ (30-60×カバレッジ) を取得した。がん種構成:乳がん (n=91)、肺腺癌 (n=86)、大腸がん (n=60)、肝臓がん (n=54)、甲状腺がん (n=48)、頭頸部扁平上皮がん (n=44)、卵巣がん (n=42)、胃がん (n=38)、膀胱がん (n=23)、子宮頸がん (n=20)、前立腺がん (n=19)、計 12 がん種 n=525 例。各サンプルで平均 224 億 kmer を計数した。統計解析は Wilcoxon 符号順位検定 (Benjamini-Hochberg 補正)、染色体不安定性指標との Spearman 相関、進行がん (AJCC stage III/IV, n=167) の OS (overall survival)・PFS (progression-free survival) はログランク検定および多変量 Cox 回帰を実施した。がんドライバー遺伝子の kmer 濃縮は gene set enrichment analysis (GSEA) で評価した (NES: normalized enrichment score, FDR: false discovery rate)。
cfDNA コホート: 既報コホートの lcWGS データを再利用した。肺がん LUCAS コホート (Denmark, n=287: がん n=129、対照 n=158)、肝臓がん高リスクコホート (肝硬変・ウイルス性肝炎, n=208)、Johns Hopkins 外部検証コホート (n=431: 非がん n=400+全ステージ肺がん n=88)、TKI (tyrosine kinase inhibitor) 療法中進行肺がんモニタリングコホート (n=19)、多がん種組織起源コホート (n=226, 7がん種: 乳がん・卵巣がん・肺がん・大腸がん・胆管がん・胃がん・膵がん) の計 n=2837 サンプル (n=1975 患者)。機械学習は PLR (penalized logistic regression, Lasso) を leave-one-individual-out ネスト交差検証で構築し ARTEMIS スコアを生成。DELFI フラグメントミクスとの統合モデル (ARTEMIS-DELFI) は PLR×3 + GBM (gradient-boosted model) のアンサンブル。ROC 比較は DeLong 法、95% CI も同法に基づく。ヒストン修飾との関連解析には ENCODE ChIP-seq データ (H3K27ac, H3K9ac, H3K4me1/2/3, H3K36me3, H3K9me3, H3K27me3 等) を使用した。