- 著者: Muller ほか
- Corresponding author: Kai Sohn (Fraunhofer Institute for Interfacial Engineering and Biotechnology IGB, Stuttgart, Germany)
- 雑誌: Genome Research
- 発行年: 2024
- Epub日: 2024-10-01
- Article種別: Original Article
- PMID: 39271293
背景
血漿 cfDNA (cell-free DNA、無細胞 DNA) は主に 167 bp 前後のモノヌクレオソーム由来断片として知られるが、より短い (< 100 bp) DNA 断片も存在することが報告されていた (Snyder et al. Cell 2016 の in vivo nucleosome footprint 解析)。先行研究 ではこれらの短鎖 cfDNA は転写因子 (TF、transcription factor) などの DNA 結合タンパクによるフットプリントを反映する in vivo の分子的印章を担う可能性が示唆されていたが (Pol et al. NRevGenet 2021 の cfDNA fragmentomics レビュー、Underhill et al. Nature 2015 の短鎖 ctDNA 報告)、これまで系統的な大規模解析はなされていなかった。何が足りなかったかというと、(a) 短鎖 cfDNA を選択的に濃縮する実用的な手法、(b) ゲノム上の TF/プロモーター分布の体系的解析、(c) 異なる疾患群間での比較、の 3 点が 未解明 な gap として残されていた。従来の標準的な cfDNA 抽出・シーケンシングプロトコル (KAPA HyperPrep、NEBNext Ultra II 等) ではこれらの短鎖断片が過小評価されており、その生物学的意義と疾患診断への応用は 未開拓 の分野であった。転写因子結合サイトや活性プロモーターは 約 10-40 bp の DNA 領域を保護することが知られており、この原理に基づく in vivo DNA フットプリンティングは非侵襲的なエピゲノム情報収集を可能にする。
目的
血漿から短鎖二本鎖 cfDNA (約 40 bp) を分取ゲル電気泳動により選択的に濃縮し、そのゲノム上の分布・転写因子モチーフとの関連・高 GC 含量の特性を明らかにする。さらに各種疾患 (PDAC、CRC、敗血症、術後) における差次的エンリッチ領域 (DER、differentially enriched region) の同定により疾患鑑別への応用可能性を評価する。
結果
短鎖 cfDNA は高 GC 含量 (57.8%) を示し、ゲノム上で TSS・プロモーター領域に 4-6 倍 濃縮される: 短鎖 cfDNA (約 40 bp) の平均 GC 含量は 57.8 ± 1.2% (n=20 samples) であり、ゲノム全体平均 (40.9%、p < 0.0001、Wilcoxon signed-rank、Fig 1A-C) よりも著しく高かった。これは活性プロモーター・CpG アイランド・転写開始点 (TSS、transcription start site) 領域が高 GC 含量であることと一致し、短鎖 cfDNA がこれらの調節領域から優先的に産生されることを示す。短鎖 cfDNA は TSS ± 1 kb 周辺で核ヌクレオソームフリー領域 (NFR、Nucleosome-Free Region) との比較で 4-6 倍 濃縮 (Fig 1D-F、deepTools coverage profile、n=20 samples、p < 0.001)、5’UTR (UnTranslated Region) 領域にも 約 3 倍 の有意な濃縮を示した (Fold change 3.2 ± 0.4、p = 0.002)。Distal enhancer 領域は約 1.8倍 (より控えめ) の濃縮、intergenic 領域は 0.6倍 (depletion) という、active regulatory element への明確な集中分布パターンが定量化された。
401 TF モチーフのうち 203 (50.6%) が短鎖 cfDNA に有意濃縮、KLF/SP1/CTCF が最頻: HOMER 解析で 401 の TF モチーフのうち 203 個 (50.6%、Fig 2A) が短鎖 cfDNA で有意に濃縮されており (FDR < 0.05、enrichment fold ≥ 2)、46 の TF ファミリー・9 のスーパークラスがカバーされた。最も濃縮された TF モチーフは KLF/SP (SP1 等、enrichment fold 8.5)、RBPJ (Recombination Signal Binding Protein for Immunoglobulin Kappa J Region、fold 6.2)、CTCF (CCCTC-Binding Factor、fold 5.8) 等であり (Fig 2B-D)、これらは活性プロモーターや遺伝子調節領域に結合することで知られる主要な転写因子と一致した。E2F (E2 Promoter-Binding Factor) 系も fold 4.5 で上位 (Top 10 内)、転写機械集合領域に対応する。
PDAC/CRC で 136 DER、敗血症/Post-OP で 241 DER を同定し PCA で疾患群が明確分離、各疾患特異的 TF (RBPJ/SP1/TCF4/CTCF) を抽出: PDAC と CRC を edgeR で比較すると 136 の DER が同定された (|log2FC| > 1、FDR < 0.05、n=4 each、Fig 3A-C)。敗血症と Post-OP の比較では 241 の DER が同定された (Fig 3D-F)。PCA によるサンプル分類では、PC1 (29.6% variance) と PC2 (20.9%) の 2 軸により各疾患群が明確に分離し (Fig 4A)、HD・PDAC・CRC・敗血症・Post-OP の 5 群が独立クラスターを形成した (silhouette score 0.62、n=20)。PDAC 特異的な DER に濃縮された TF モチーフは RBPJ が最顕著 (fold 4.8、p = 0.003) で、これは Notch シグナル経路の主要 TF として知られ膵癌で活性化されている (Fig 4B)。CRC 特異的 DER では SP1 (Specificity Protein 1) が最顕著なモチーフとして同定された (fold 5.2、p = 0.001)。敗血症特異的 DER では TCF4 (Transcription Factor 4) と ZFX (Zinc Finger X-chromosomal protein) が顕著 (各 fold 3.6 と 3.2)、Post-OP 特異的 DER では CTCF が最顕著 (fold 4.9) であった (Fig 4C-E)。これらは各疾患の転写制御ネットワークを反映する in vivo の TF フットプリントを示す。短鎖 cfDNA のエンリッチメントは、中程度から高発現遺伝子 (TPM > 10、RNA-seq) のプロモーター領域と正の相関を示した (Pearson r = 0.68、p < 0.0001、Fig 5A)、逆に低発現遺伝子 (TPM < 1) や DNA メチル化が高い領域との相関は負 (r = -0.42、p = 0.001、Fig 5B) であった。これは短鎖 cfDNA が活性転写制御領域のエピゲノム状態を反映することを示す。
考察/結論
本研究は、血漿中の短鎖二本鎖 cfDNA (約 40 bp) が転写因子結合サイト・活性プロモーターに濃縮される in vivo DNA フットプリントを担っていることを 本研究で初めて 体系的に示した。先行研究 の Snyder ら (Snyder et al. Cell 2016) の nucleosome footprint 解析 と異な り、本研究は短鎖 cfDNA (約 40 bp) を選択的に濃縮することで TF レベルの直接フットプリントを取得した点で 対照的 である。Underhill らの短鎖 ctDNA 報告 (Nature 2015) と異な り、本研究は分取ゲル + WGS という再現可能な workflow を確立し 401 TF モチーフを系統的に評価した点で 相違 がある。従来の比較 として lpWGS (low-pass WGS) ベースの NDR (Nucleosome Depleted Region) スコア (Genome Res 2019) は主に長鎖 cfDNA を対象としていた と異な り、本研究は短鎖を扱う点で これまで の workflow と方法論的に分離する。分取ゲル電気泳動による短鎖 cfDNA 濃縮という簡便な手法と、通常の WGS を組み合わせることで、非侵襲的な全ゲノム TF フットプリンティングが実現できることを示す重要な概念実証である。
新規 な貢献を四点に整理する。第一に、短鎖 cfDNA が active regulatory element に 4-6 倍 濃縮することを GC 含量・TSS profile・TF motif の三つの独立指標で これまで報告されていない 規模で実証した。第二に、401 TF モチーフのうち 50.6% という広範囲の TF が捕捉できることを示し、本手法の novel な diagnostic potential を提示した。第三に、PDAC で RBPJ、CRC で SP1、敗血症で TCF4/ZFX、Post-OP で CTCF という疾患特異的 TF profile を 本研究で初めて 体系的にカタログ化した。第四に、敗血症 (非癌疾患) で 241 DER を同定し、本手法が癌以外の炎症・感染疾患にも適用できることを示し、汎用性を立証した。
臨床応用 への意義は重要である。PDAC・CRC・敗血症の各疾患での TF フットプリント差異は、疾患診断・鑑別診断への応用の可能性を開く 臨床的意義 を持つ。bench-to-bedside translational 観点では、(a) PDAC (早期検出が極めて困難な癌種、5 年生存率 < 10%) での RBPJ フットプリントが診断マーカーとなれば、早期膵癌検出への貢献が期待され 臨床的有用 性が極めて高い、(b) 敗血症での TCF4・ZFX フットプリントは感染症急性期の免疫応答状態のモニタリングに有用、(c) cfDNA fragmentomics 系の DELFI 法 (Cristiano et al. Nature 2019) と組み合わせて高感度マルチオミック液体生検プラットフォームを構築できる、という 3 点で 臨床応用 上の重要含意を持つ。
残された課題 および limitation は六点に集約される。第一に、n=4 / 群という極めて小さなサンプルサイズでの知見であり、大規模前向きコホート (n > 100 / 群) での再現性検証が 今後の検討 で不可欠 (PRoBE 指針に従う biomarker validation cohort)。第二に、分取ゲル電気泳動という煩雑なプロセスの自動化・高スループット化は future direction として必要 (現在 1 sample ~4 hr の labor、microfluidic chip 化が望まれる)。第三に、短鎖 cfDNA のカットオフ (20-60 bp) の最適化と再現性 (Pippin HT vs BluePippin vs LabChip 等の装置間バリアンス) は 未解決の課題。第四に、短鎖 cfDNA 産生・分解の生物学的メカニズム (DNase の関与、apoptosis vs necrosis vs NETosis 由来比率) の解明は 今後の研究 で機構的に詰める必要がある。第五に、本研究は 5 疾患群のみで、肺癌・乳癌・前立腺癌など他の主要癌腫への拡張性は limitation として残る。第六に、組織起源推定 (tissue-of-origin) への応用と single-cell DNase-seq との対応関係は future な検討課題。
結論として、血漿中の短鎖二本鎖 cfDNA (約 40 bp) を分取ゲル電気泳動 + WGS により selective enrichment することで、in vivo TF フットプリンティングという非侵襲的なエピゲノム profiling が可能となる。GC 57.8%、TSS 4-6 倍 濃縮、401 TF motif の 50.6% カバレッジ、5 疾患群での明確な分離という多面的データは、本手法を新規 liquid biopsy modality として確立する強力な根拠となる。
方法
サンプル: Fraunhofer IGB / Stuttgart 医療センターの単施設前向き観察研究 (IRB approved、informed consent 取得済)、健常者 4 例 (HD、Healthy Donor)、膵臓腺癌 (PDAC、Pancreatic Ductal Adenocarcinoma) 4 例、大腸癌 (CRC、Colorectal Cancer) 4 例、敗血症 4 例、術後回復期 (Post-OP、Post-Operative) 4 例の計 20 名の血漿サンプル (各 4 mL) を解析した。
短鎖 cfDNA 単離: 血漿 4 mL から QIAamp Circulating Nucleic Acid Kit (Qiagen) で総 cfDNA を抽出後、Pippin HT 分取ゲル電気泳動装置 (Sage Science) により短鎖 cfDNA (20-60 bp、ピーク約 40 bp) を選択的に単離した (size selection efficiency > 85%)。
ライブラリ調製と WGS: 平均 5-10 ng の短鎖 cfDNA から ssDNA library prep (xGen ssDNA Library Prep、IDT) でアダプター付加し、Illumina NovaSeq 6000 で 2 × 50 bp paired-end WGS シーケンシング (平均 50 × 10^6 reads/sample、リード長 37.9 bp、平均 deduplication 後 30 × 10^6 reads/sample)。
バイオインフォマティクス: BWA-MEM (v0.7.17) で hg38 にアラインメント、samtools (v1.10) で duplicate 除去、bedtools intersect で genomic feature overlap、HOMER (v4.10) で 401 TF motif enrichment 解析、deepTools (v3.5) で TSS coverage profile、edgeR (v3.30) で differentially enriched region (DER) 検出 (|log2FC| > 1、FDR < 0.05)。Principal Component Analysis (PCA、主成分分析) は prcomp (R 4.0) で実施、疾患群間の分離を可視化。
統計検定: 群間比較は Mann-Whitney U-test (DER counts)、Fisher’s exact test (TF motif enrichment)、Pearson correlation (cfDNA エンリッチメント vs RNA-seq expression)、p < 0.05 を有意水準とし FDR (Benjamini-Hochberg) 補正適用。データは mean ± SEM (Standard Error of the Mean) で表示。各サンプル n=4 biological replicates で再現性確認。