• 著者: Qing Zhou, Guannan Kang, Peiyong Jiang, Rong Qiao, W. K. Jacky Lam, Stephanie C. Y. Yu, Mary-Jane L. Ma, Lu Ji, Suk Hang Cheng, Wanxia Gai, Wenlei Peng, Huimin Shang, Rebecca W. Y. Chan, Stephen L. Chan, Grace L. H. Wong, Linda T. Hiraki, Stefano Volpi, Vincent W. S. Wong, John Wong, Rossa W. K. Chiu, K. C. Allen Chan, Y. M. Dennis Lo
  • Corresponding author: Y. M. Dennis Lo (The Chinese University of Hong Kong, Hong Kong SAR, China)
  • 雑誌: Proc Natl Acad Sci U S A
  • 発行年: 2022
  • Epub日: 2022-10-26
  • Article種別: Original Article
  • PMID: 36288287

背景

細胞遊離DNA (cell-free DNA, cfDNA) の断片化パターンはヌクレオソーム構造・クロマチン開口性・DNA分解酵素活性を反映し、血漿中のcfDNAが組織起源の豊富な情報を含むことが確立されてきた (Snyder et al. Cell 2016)。末端モチーフ (end motif) や断片長などのフラグメントミクス指標は遺伝子発現状態の推定にも応用されており (Esfahani et al. NatBiotechnol 2022)、cfDNAの断片化パターンがエピゲノム情報へのアクセス手段になり得るという仮説が生まれていた (Lo et al. Science 2021)。

CpGメチル化は遺伝子発現調節の中心的なエピゲノム修飾であり、がん特異的メチル化パターンは診断バイオマーカーとして有望である。しかし、従来のバイサルファイト配列決定法 (bisulfite sequencing) はDNA分子を85〜95%分解するため、通常1〜10 ngに過ぎない血漿cfDNAへの適用が困難であった。酵素的メチル配列決定法やSMRT (Single-Molecule Real-Time sequencing) 法・ナノポアシーケンシングなどの第三世代シーケンシングは化学的分解を回避できるが、スループット不足・高コストという制約があり臨床実用化への gap in knowledge が残されていた。さらにマウスモデルでは、DNASE1L3ノックアウトにより血漿DNA断片長・末端モチーフ・メチル化パターンが同時に変化することが報告されており (Han 2021 Genome Res)、cfDNA断片化パターンとCpGメチル化の間に生物学的連関があることが示唆されていたが、ヒト正常条件下での定量的関係は何が足りなかったかが明確には示されておらず未解明のままであった。

目的

バイサルファイト処理を一切行わず、通常の次世代シーケンシング (next-generation sequencing, NGS) データのみからcfDNAのCpGメチル化状態を推定するFRAGMA (Fragmentomics-based Methylation Analysis) 手法を確立し、肝細胞がん (hepatocellular carcinoma, HCC) および鼻咽頭がん (nasopharyngeal carcinoma, NPC) のがん検出、組織起源解析、出生前診断への実証的応用を示すこと。

結果

CpGメチル化状態に依存した切断プロファイルの発見: 健常者 (n=8) の血漿DNAを解析した結果、CpGサイト (position 0) における平均切断割合は高メチル化CpGで中央値1.13 (range 0.99-1.23)、低メチル化CpGで中央値0.53 (range 0.45-0.60) と、約2倍の有意差が認められた (P<0.001、Wilcoxon順位和検定) (Fig 2A)。一方、CpGの1nt上流 (position -1) では逆の傾向があり、高メチル化CpGで中央値0.24 (range 0.19-0.27)、低メチル化CpGで中央値0.41 (range 0.35-0.61) と有意に低かった (P<0.001、Wilcoxon順位和検定) (Fig 2A)。この位置特異的差分切断パターンは非バイサルファイト配列決定データでも再現され (Fig 2B)、また2個のタンデムCpGジヌクレオチド (CGCG配列) の4通りのメチル化組合せ (MM/UU/MU/UM) すべてで整合的に観察された (Fig 2C)。この差分切断によりCGN末端モチーフ (高メチル化CpGで増加) とNCG末端モチーフ (低メチル化CpGで増加) の比率が変化し、CGN/NCG比は高メチル化CpGで中央値4.70 (range 4.35-5.16)、低メチル化CpGで中央値1.31 (range 0.80-1.55) と3倍以上の差を示した (P<0.001、Wilcoxon順位和検定) (Fig 3B)。

組織特異的CpGメチル化を反映した組織起源解析: 肝移植モデル (n=14例) において、肝臓特異的高メチル化CpGのCGN/NCG比はSNPベース法で推定したドナー由来DNA分率と強い正の相関を示した (Pearson r=0.92、P<0.001) (Fig 5B)。肝臓特異的低メチル化CpGでは逆の相関が観察された (Pearson r=-0.87、P<0.001) (Fig 5D)。ドナー由来cfDNA分子における肝臓特異的高メチル化CpGの切断割合はposition 0で51.0%増加し、position -1では31.3%低下した。妊婦 (n=30) でも同様のパターンが示され、胎盤特異的高メチル化CpGのCGN/NCG比は胎児DNA分率と正相関 (Pearson r=0.90、P<0.001)、低メチル化では負相関 (Pearson r=-0.86、P<0.001) であった (Fig 6C、6D)。浅いシーケンス深度の検討では、肝臓特異的高メチル化CpGで0.05×、低メチル化で0.5×の深度でPearson r>0.8が維持され (Fig 6E)、臨床的に低コストなシャロウシーケンスへの実用性が示された。ゲノムインプリンティング領域 (GNAS遺伝子 chr20:57,415,043-57,415,176) では、A対立遺伝子 (メチル化) はCGN頻度13.89% vs NCG頻度2.78%、G対立遺伝子 (非メチル化) はCGN頻度3.70% vs NCG頻度12.96%と、対立遺伝子特異的メチル化状態もCGN/NCG比に明確に反映された (Fig 3E、3F)。

HCC検出へのFRAGMA応用 (AUC 0.98): HCC患者コホートにおいて、Alu領域由来のCGN/NCG比はichorCNAで推定した腫瘍DNA分率と有意な負の相関を示した (Pearson r=-0.88、P<0.001) (Fig 7A)。この相関は既報のモチーフ多様性スコア (motif diversity score, MDS; Pearson r=0.59、P=0.026) を上回った。HCC特異的低メチル化CpGのCGN/NCG比はがんステージとともに低下し、腫瘍DNA分率の平均は早期HCC (eHCC) 2.4%、中間期HCC (iHCC) 9.2%、進行期HCC (aHCC) 29.8%と段階的に増加した (Fig 7B)。CG含有8種の末端モチーフ (ACG/CCG/GCG/TCG/CGA/CGC/CGG/CGT) を特徴量としたSVMモデルのHCC検出AUCは0.98を達成し (Fig 7C)、MDSベースモデルのAUC 0.86を有意に上回った (P=0.007、DeLong検定) (Fig 7D)。特異度96%における感度はeHCC 80%、iHCC 100%、aHCC 100%であった。

NPC スクリーニングへの応用とPPV (positive predictive value, 陽性的中率) 向上: EBV陽性コホートの検証セット (非NPC n=42例、NPC n=34例) において、EBVゲノム内の1,425個の情報的CpGサイトで算出した調整CGN/NCG比はNPC群で有意に高かった (P=0.041、Wilcoxon順位和検定) (Fig 7E)。調整CGN/NCG比カットオフ0.532とEBV DNA量・断片長比を組み合わせた場合、PPVはqPCR (quantitative PCR) アッセイ単独の11.0%・EBV量+断片長比単独の19.6%から26.8%へと改善した (Fig 7F)。この向上はクリーニング偽陽性の有意な低減を示し、人口ベーススクリーニングにおける実践的意義が確認された。

CNNによる単一CpG解像度のメチル化推定: 健常者 (n=8) とHBV感染者 (n=13) から血漿DNAをプールし、配列深度50×以上かつ3-mer CG末端モチーフ≥10種を持つCpGサイトを学習・評価データとした。Watson・Crick両鎖の11nt切断割合を2次元行列として入力したCNNは、個別CpGの高メチル化/低メチル化分類でAUC 0.93を達成した (Fig 9A)。cfDNA切断パターン情報を除いた配列コンテキストのみのモデルではAUC 0.72 (P<0.001、DeLong検定) に低下し、切断パターン情報がメチル化推定精度に本質的に寄与することが定量的に確認された。CNNのメチル化スコア<0.5のCpGは≥0.5のCpGと比較して有意に低いメチル化指数を示した (P<0.001、Wilcoxon順位和検定) (Fig 9B)。

考察/結論

本研究は、通常のNGSデータに内在するcfDNA末端モチーフ情報からバイサルファイト変換なしにCpGメチル化プロファイルを抽出できることを本研究で初めて体系的に実証した点で新規の意義がある。既報のDELFI・ヌクレオソームポジショニングマッピングなど従来の研究は断片長や末端位置座標の統計量に着目してきたのと異なり、FRAGMAは末端塩基配列の組成 (CGN/NCG比というCpGコンテキスト特異的モチーフ) という異なる次元のフラグメントミクス情報を活用する新規の枠組みである。

DNASE1L3欠損患者では、CGN/NCG比の高メチル化/低メチル化間差が健常者の約4倍差から約1.3-fold差へ大幅に縮小することが明確に示され (Fig 4B)、DNASE1L3活性がFRAGMAシグナルの生物学的基盤の中心的プレーヤーであることが裏付けられた。これはHCCで報告されているDNASE1L3活性低下と関連し、HCC特異的高メチル化CpGのシグナルが解析上減弱する可能性を示唆する。一方、HCC特異的低メチル化CpGではDNASE1L3活性低下がNCG末端増加を相乗的に増幅するため、SVM解析でAUC 0.98という実用水準の性能が得られたと考えられる。この相乗メカニズムの詳細な解明は、今後の検討課題として残されている。

臨床応用の観点では、HCC検出AUC 0.98・NPC screening PPV 26.8%は実用水準に達しており、特に肝硬変・HBV感染を背景とするHCC高リスク患者のサーベイランスや、EBV DNA陽性例の精密スクリーニングとしての臨床的意義が高い。FRAGMAは既存の血漿DNA NGS検査データに後処理として適用可能であり、専用の前処理ステップを追加せず遺伝子情報とエピゲノム情報を1アッセイから同時取得できる点が臨床現場への導入ハードルを下げる。CGN/NCG比だけに特化した低コスト版FRAGMAも bench-to-bedside の橋渡しとして有望である。

残された課題として、(1) シーケンス深度依存性のシミュレーション解析では、腫瘍DNA分率10%の場合に単一CpGでAUC 0.95を達成するには1,400×の深度が必要と推定されており、早期がんの超低分画ctDNA検出における感度limitation の定量的評価が必要である。(2) DNASE1L3活性の個体差・疾患差がFRAGMAシグナルに与える影響の定量モデルが未構築であり、自己免疫疾患など核酸分解酵素活性が変動する病態での適用妥当性が不明である。(3) CNNによる単一CpG推定はAUC 0.93を達成したが、ゲノムワイドな適用には膨大な計算資源が必要であり、臨床スケールでのコスト効率の実証が求められる。(4) 本研究のデータは既存公開データセットの再解析が中心であり、独立した前向きコホートでの更なる検討が望まれる。future research として、FRAGMAとDELFI・preferred ends・jagged ends などの他フラグメントミクス指標を統合したマルチモーダル解析が有望であり、エピゲノム情報の次元拡張によるがん早期検出精度の向上が期待される。

方法

既存の複数コホートデータを再解析した。(1) 健常者8例の血漿DNA全ゲノムバイサルファイト配列決定 (whole-genome bisulfite sequencing, WGBS) データおよびペアの非バイサルファイト配列決定データを用い、CpGサイト周辺11ヌクレオチド (nt) 窓 (切断測定窓) 内の各位置における切断割合 (cleavage proportion: 断片末端数/配列深度×100%) を定量した。高メチル化CpGはメチル化指標 (methylation index) >70%、低メチル化は<30%と定義した。(2) 組織起源モデルとして肝移植レシピエント14例 (肝臓特異的高メチル化CpG n=258,630、低メチル化CpG n=226,417) および妊婦30例 (胎盤特異的高メチル化CpG n=184,430、低メチル化CpG n=1,922,990) を解析した。(3) DNASE1L3欠損患者4例の血漿DNAを対照とした。CGN (cytosine-guanine-any nucleotide) /NCG (any nucleotide-cytosine-guanine) 末端モチーフ比は5’-CGN末端 (CGA/CGT/CGG/CGC) 断片数の5’-NCG末端 (ACG/TCG/GCG/CCG) 断片数に対する比として定義した。HCC検出にはHCC患者・健常者・HBV (B型肝炎ウイルス, hepatitis B virus) 感染者コホートを使用し、SVM (サポートベクターマシン, support vector machine) によるleave-one-out解析でモデルを構築した。NPC解析にはEBV (Epstein-Barr virus) 陽性非NPC 272例とEBV陽性NPC 65例を含むコホートを用いた。深度依存性はダウンサンプリング解析で評価した。単一CpG解像度のメチル化推定にはCNN (畳み込みニューラルネットワーク, convolutional neural network) を使用した。統計解析はPearson相関係数、Wilcoxon順位和検定を用い、ROC (receiver operating characteristic) 曲線下面積 (AUC, area under the curve) の比較はDeLong法で行った。