• 著者: Maximilian Noe, Akira Yamamoto, Bracha Erlanger Avigdor, Leila Alirezaie, Jake June-Koo Lee, Weixin Tang, Sai Muthukumar, Pei-Ling Tsai, Siobhan Quaid, Sarah Reeder, Jasmine Thai, Robert B. Scharpf, Victor E. Velculescu
  • Corresponding author: Robert B. Scharpf; Victor E. Velculescu (Johns Hopkins University)
  • 雑誌: Nature Communications
  • 発行年: 2024
  • Epub日: 2024-07-30
  • Article種別: Original Article
  • PMID: 39107309

背景

cfDNA fragmentomics (ゲノムワイドなcfDNA切断パターンの解析) は、がん検出や組織起源推定に有用な新興バイオマーカー領域として注目されている。しかし、何がcfDNAの切断位置 (エンドモチーフ)、カバレッジパターン、フラグメント長を決定するかの分子機構は、これまで十分には解明されていなかった。健常者のcfDNAは大部分が白血球由来であり、核内DNAはヌクレオソームに巻き付いた形で存在する。ヌクレアーゼによるDNA切断は、クロマチン構造、DNA塩基配列、およびエピジェネティクス (DNAメチル化) に依存すると考えられるが、これらの相互作用を定量的に示した研究は不足していた。特に、CpGメチル化が (1) cfDNA切断部位 (エンドモチーフ)、(2) ゲノム領域ごとのcfDNAカバレッジ、(3) フラグメント長に及ぼす影響を解明することは、fragmentomicsバイオマーカーの生物学的解釈と設計に直結する重要課題である。

先行研究では、cfDNAの断片化パターンがランダムではなく、特定の配列モチーフに富化していることが報告されている (Chan et al. 2016, Jin et al. 2021)。また、ヌクレオソームの保護作用がcfDNAの断片化に影響を与えることも示唆されている (Snyder et al. Cell 2016)。さらに、DNAメチル化がcfDNAの断片化パターンに影響を与える可能性も示唆されているが (Zhou et al. 2022)、その詳細なメカニズム、特にCpGメチル化が特定の断片末端モチーフやゲノムワイドなカバレッジ、フラグメント長に与える定量的影響については未解明な点が多かった。例えば、Cristiano et al. Nature 2019Esfahani et al. NatBiotechnol 2022などの研究は、cfDNA fragmentomicsが「何が観察されるか」を示したが、「なぜそうなるか」の分子基盤は不明であった。加えて、DNAメチル化とヒストンH1リンカーとの構造的関連性も、cfDNA断片化におけるその役割について十分に確立されていなかった。本研究は、これらの知識ギャップを埋めることを目的としている。

目的

本研究の目的は、大規模な969名のコホート (健常者およびがん患者) において、ゲノムワイドcfDNAの (1) 切断エンドモチーフ、(2) カバレッジ、(3) フラグメント長に対するDNAメチル化と遺伝子発現の定量的影響を包括的に解析することである。さらに、IDH1 R132H変異異種移植モデルを用いて、これらの関係の因果性を実験的に検証する。IDH1 R132H変異は、ゲノムワイドなメチル化変化を誘導するクロマチン修飾酵素の変異であり、このモデルを用いることで、エピジェネティックな変化がcfDNA断片化パターンに直接的な影響を与えるか否かを評価する。最終的に、これらの知見を統合し、DELFI (genome-wide fragmentation analysis) とメチル化モチーフ情報を組み合わせたがん検出への応用可能性を検討する。特に、膵臓がん検出における診断性能の向上を目指し、DELFIスコアとメチル化モチーフ特徴量を統合したアンサンブルモデルの有効性を評価する。

結果

メチル化CpGと末端エンドモチーフの関係: 健常者543名のcfDNAでは、A/T|CCおよびA/T|CGモチーフが末端に富化しており、A/T|CCはゲノム理論値の26.5倍、A/T|CGは5.5倍の頻度で観察された (p<0.0001、t検定)。これらの頻度は反復末端 (preferred ends) でさらに増加した (Fig. 1a, b)。メチル化CpGでは非メチル化CpGと比較してN|CG末端モチーフが平均2.23倍富化 (95% CI: 2.20-2.26) し、一方N|CCG末端モチーフは平均3.69倍枯渇 (95% CI: 3.46-3.92) した (Fig. 2b, c)。この非対称パターンは、CCG配列においてN|CC末端とC|CG末端が競合し、メチル化CpGではC|CG優位になるためである。これらの差異はCpGアイランド、shore、shelf、open seaの全領域で一貫して観察され、メチル化CpGによる切断位置特定化の普遍的な現象であることが示された。X染色体のCpGアイランド (女性のX不活性化でメチル化) においても、女性vs男性でN|CG末端が1.23倍富化 (95% CI: 1.18-1.30)、N|CCG末端が0.81倍に減少 (95% CI: 0.74-0.87) し、常染色体では差異なし (各倍率 ≈1.0) であったことでメチル化との因果関係が生体内で検証された (Fig. 2d)。

メチル化CpGアイランドでのカバレッジ富化: メチル化CpGアイランドのcfDNAカバレッジは、非メチル化CpGアイランドと比較して最大1.7倍高かった (p<0.0001、t検定) (Fig. 3a)。cfDNAカバレッジとメチル化レベルの相関はr=0.6 (p<0.0001、Pearson) であった。これはメチル化領域でヌクレオソームが安定化しDNAが保護されるためと解釈され、X線結晶構造解析で76%の核酸構造でA/T|CGモチーフがH1リンカーから5 Å以内または167 bp離れた位置に存在することで構造的根拠が得られた (Fig. 1d)。ヌクレオソームに結合したDNAのX線結晶構造解析では、A/T|CGモチーフがヒストンH1リンカーに近接して位置することが多く、この構造的特徴がメチル化CpGでの切断部位の特定化に寄与している可能性が示唆された。

遺伝子発現との逆相関とフラグメントサイズの変化: TSS周辺cfDNAカバレッジは遺伝子発現量と有意な逆相関を示した (r=-0.48、p<0.0001、Pearson) (Fig. 3b)。未発現遺伝子のTSS周辺cfDNAカバレッジは高発現遺伝子と比較して最大3.7倍高かった (p<0.0001、t検定)。フラグメントサイズは、高発現TSS周辺 (800-1000 bp上流) で164.5 bp vs 未発現遺伝子168.6 bp (差4.1 bp、p<0.0001)、非メチル化CpGアイランド周辺165.1 bp vs 高メチル化CpGアイランド167.3 bp (差2.2 bp、p<0001) であった (Fig. 3c, d)。この関係は500 kb離れた位置まで持続した。KEGGおよびHallmark遺伝子セットの解析では、白血球 (WBC) で同定された全ての有意な遺伝子セット (p<0.1、遺伝子セット濃縮解析) において、cfDNAカバレッジが遺伝子発現とCpGメチル化を反映することが示された (Fig. 3e)。

腫瘍由来cfDNAの短小化: 超高感度NGSターゲットシークエンスを用いたがん患者98名のデータで、腫瘍由来変異を持つcfDNA分子は白血球由来野生型cfDNAより平均3.9 bp短かった (Fig. 3h)。この短小化は、腫瘍細胞のゲノムワイド低メチル化 (未発現遺伝子がメチル化を失う) と遺伝子発現増加 (クロマチンアクセシビリティ向上) と整合的であり、fragmentomicsのがん検出原理の分子基盤を提供した。

IDH1 R132H異種移植モデルによる因果関係の確認: IDH1 R132H変異 (ゲノムワイドCpGハイパーメチル化誘導) を持つU87細胞移植マウス (n=3 mice) では、野生型IDH1 U87移植マウス (n=3 mice) と比較して、高メチル化領域で高cfDNAカバレッジ、低発現遺伝子TSS周辺でも高カバレッジが観察された (Monte Carlo simulation p<0.053) (Fig. 3g)。この直接実験的介入により、エピジェネティクス変化がcfDNAフラグメントパターンの決定因子であるという因果関係が確立された。IDH1 R132H変異は、2-ヒドロキシグルタル酸 (2-HG) を産生し、テトメチルシトシンジオキシゲナーゼ (TET) 酵素を阻害することで、ゲノムワイドなCpGメチル化を誘導する。このモデルを用いた実験は、メチル化状態の変化がcfDNA断片化に直接影響を与えることを強く支持する。

膵臓がん検出 - DELFI + メチル化モチーフ統合モデル: 差次メチル化CpG領域のN|CGおよびN|CCGモチーフ分布を特徴量とした機械学習モデルが、膵臓がん患者 (n=34) vs 健常者 (n=244) を交差検証AUC=0.87で識別した (Fig. 4a)。DELFIスコアとメチル化モチーフを統合したアンサンブルモデルではAUC=0.93 (95% CI: 0.88-0.97) に向上した (Fig. 4b)。他の癌種 (大腸がんn=27、卵巣がんn=28、肺がんn=39、乳がんn=54) でも中間的なシグナル変化が観察され、腫瘍種特異的な差次メチル化領域の活用がさらなる感度向上につながることが示唆された。

考察/結論

本研究は、cfDNAのエンドモチーフ、カバレッジ、フラグメント長という3つのfragmentomics特徴がDNAメチル化と遺伝子発現によって規定されることを、969名という大規模コホートと実験的異種移植モデルの両面から初めて網羅的に示した。IDH1 R132H実験による因果関係の確立 (観察的相関から一歩進んだ) が本研究の最大の新規性である。腫瘍由来cfDNAが平均3.9 bp短い理由が、腫瘍の低メチル化と発現増加 (クロマチンアクセシビリティ向上) に起因することを定量的に示したことで、がんfragmentomicsの生物学的解釈に重要な枠組みを提供した。

先行研究との違い: これまでの研究では、CpGメチル化とcfDNA断片化の関連性が示唆されていたが (Zhou et al. 2022)、本研究は、N|CCGモチーフの枯渇とN|CGモチーフの富化という競合的なパターンを初めて詳細に解明した点で先行研究と異なる。特に、CCGモチーフの高頻度のためにCGモチーフのメチル化関連変化が見えにくかった問題を解決した。

新規性: メチル化CpGが切断位置を特定化する機構として、5-メチルシトシンがヒストンH1リンカーとのDNA-タンパク相互作用を安定化し、ヌクレアーゼからDNAを保護するという構造的根拠がX線結晶構造解析からも支持されたことは、本研究で初めて示された重要な知見である。また、遺伝子発現とcfDNAカバレッジの逆相関、およびフラグメント長の関連性をゲノムワイドに定量的に示した点も新規性が高い。

臨床応用: DELFIとメチル化モチーフの統合によるAUC=0.93の膵臓がん検出は、cfDNA fragmentomicsとエピジェネティクス情報の組み合わせが補完的であることを示しており、今後の多モダリティcfDNA解析プラットフォームの設計指針を提供する。このアプローチは、早期がん検出や治療モニタリングといった臨床応用において、既存のバイオマーカーを補完する可能性を秘めている。

残された課題: 今後の検討課題として、スクリーニング集団を含む大規模前向きコホートでの検証、他の癌種での腫瘍種特異的差次メチル化領域の同定、低腫瘍分率 (早期がん・微小残存病変) でのシグナル感度、および前分析的要因 (血漿処理条件) の標準化が挙げられる。また、cfDNA分子レベルでの配列とメチル化の同時解析は、さらなる洞察をもたらす可能性がある。

方法

本研究では、健常者787名 (女性442名、男性345名) およびがん患者182名の計969名から得られた低カバレッジ全ゲノムシークエンス (WGS; 1-2x) cfDNAデータを統合解析した。cfDNA末端の4塩基配列 (エンドモチーフ) を、全ゲノムCpGサイトのメチル化状態 (Illumina Infinium EPIC methylation array 97名、全ゲノムbisulfite sequencing 23名) と対応させ、メチル化CpGと非メチル化CpGにおけるモチーフの富化・枯渇を定量した。

プロモーター領域 (転写開始点; TSS) およびCpGアイランドにおけるcfDNAカバレッジとメチル化レベル、ならびに遺伝子発現量 (6種の骨髄系細胞株のTPM値) の相関をPearson相関分析を用いて解析した。ヌクレオソームのX線結晶構造解析データ (PDBエントリー7COW) を用いて、A/T|CGモチーフとヒストンH1リンカーとの構造的関連性も評価した。

因果関係の検証のため、IDH1 R132H変異 (ゲノムワイドなメチル化変化を誘導するクロマチン修飾酵素の変異) をCRISPR-Cas9でノックインしたU87ヒトグリオブラストーマ細胞をNU/Jマウスに移植し、野生型IDH1 U87移植マウスとのcfDNAフラグメントパターンを比較した (各n=3 mice)。マウス血漿中のヒト由来cfDNAをXengsortソフトウェア (バージョン1.5.0) で分離し、そのカバレッジとフラグメント長を解析した。腫瘍組織からはDNAおよびRNAを抽出し、メチル化 (Illumina Infinium EPIC Methylation Array) および発現 (RNA-seq) 解析を実施した。メチル化データはRパッケージminfi (バージョン1.48.0) で、差次メチル化領域はRパッケージDMRcate (バージョン2.16.1) で同定した。RNA-seqデータはDobin et al. Bioinformatics 2013アライナー (バージョン2.7.4) でアラインメントし、DESeq2 (バージョン1.42.0) で差次発現遺伝子を同定した。

がん検出モデルの構築では、膵臓がん検出を目的として、膵管腺がん組織と正常膵組織のRRBS (Reduced Representation Bisulfite Sequencing) データから同定された差次メチル化領域を用いた。膵臓がん患者34名、大腸がん患者27名、卵巣がん患者28名、肺がん患者39名、乳がん患者54名、および健常者244名のcfDNAにおけるエンドモチーフ分布を評価した。機械学習手法としてgradient boosted treeを用い、DELFI (DNA evaluation of fragments for early interception) スコアとメチル化モチーフ特徴量を統合したアンサンブルモデルを構築し、その診断性能をROC曲線とAUCで評価した。統計解析には、Welchのt検定、Pearson相関分析、ANOVA、およびDeLong法によるAUCの95%信頼区間計算を用いた。データ処理にはfastp、Langmead et al. NatMethods 2012、Sambamba、Quinlan et al. Bioinformatics 2010、minfiR、annotatr、Dobin et al. Bioinformatics 2013Love et al. GenomeBiol 2014、DMRcate、caret、gbm、glmnetなどのRパッケージが使用された。