• 著者: Mohammad Shahrokh Esfahani, Emily G. Hamilton, Mahya Mehrmohamadi, Barzin Y. Nabet, Stefan K. Alig, Daniel A. King, Chloe B. Steen, Charles W. Macaulay, Andre Schultz, et al.
  • Corresponding author: Maximilian Diehn; Ash A. Alizadeh (Stanford University School of Medicine)
  • 雑誌: Nature Biotechnology
  • 発行年: 2022
  • Epub日: 2022-03-31
  • Article種別: Original Article
  • PMID: 35361996

背景

血漿中を循環するcell-free DNA (cfDNA) 分子は、体内の多様な組織における細胞死に伴うクロマチン断片化から生じる。cfDNAプロファイリングは、固形臓器移植後の組織拒絶反応の検出、妊娠中の胎児異数性の非侵襲的出生前診断、および非侵襲的腫瘍遺伝子型診断に確立されており、多様な癌種の検出にも初期段階でのエビデンスが示されている (Jahr et al. 2001, Lo et al. 2010, Heitzer et al. 2020)。これまでのliquid biopsy研究は主に生殖細胞系列変異や体細胞変異を利用した遺伝学的アプローチに依拠してきたが、癌患者のcirculating tumor DNA (ctDNA) 中でも大多数のcfDNA断片は変異を持たない。このため、変異に依存しない組織起源推定が可能なエピジェネティクス的特徴、特にヌクレオソーム占有パターンやフラグメント長分布を利用したfragmentomics解析が注目されている (Snyder et al. 2016, Ulz et al. 2016)。

活発に転写されている遺伝子のプロモーター (転写開始部位; TSS) ではヌクレオソームが解離し、ヌクレアーゼによる分解を受けやすいため、cfDNAフラグメント長分布が多様化することが理論的に予測される。しかし、従来のfragmentomics手法 (ゲノムワイドシャロウシーケンス、窓保護スコア[WPS]など) は遺伝子レベルの分解能が低く、高ctDNA濃度でのみ有効であるという限界があった (Ivanov et al. 2015, Ulz et al. 2016)。例えば、腫瘍由来のcfDNA断片は野生型と比較して短い傾向があることが報告されているが (Jiang et al. 2015, Underhill et al. 2016)、これらの手法は遺伝子グループを考慮した場合でも、高ctDNAレベルでのみ発現を推測するのに良好な性能を示すに過ぎなかった。このため、遺伝子レベルでの高解像度な発現推測を可能にする新しいcfDNAフラグメント解析手法の開発が不足していた。特に、低ctDNA濃度下での癌検出やサブタイプ分類、治療応答予測において、既存のfragmentomics手法では十分な感度と特異度を達成することが困難であり、この知識ギャップが残されていた。本研究は、これらの限界を克服し、個々の遺伝子の発現レベルを血漿cfDNAから非侵襲的に推測する高解像度な手法を開発することを目指した。

目的

本研究の目的は、cfDNAフラグメントのプロモーター断片化エントロピー (Promoter Fragmentation Entropy; PFE) という新たなエピゲノムfragmentomics特徴量を用い、個々の遺伝子のRNA発現レベルを血漿cfDNAから非侵襲的に推測する手法「EPIC-seq (Epigenetic expression inference from cell-free DNA-sequencing) 」を開発・検証することである。具体的には、EPIC-seqが以下の臨床応用において高い精度を示すことを実証する。

  1. 非小細胞肺癌 (NSCLC) の組織型分類 (肺腺癌 [LUAD] vs 肺扁平上皮癌 [LUSC])。
  2. びまん性大細胞型B細胞リンパ腫 (DLBCL) の細胞起源 (Cell of Origin; COO) 分類 (胚中心B細胞様 [GCB] vs 活性化B細胞様 [ABC])。
  3. 免疫チェックポイント阻害薬 (ICI) 治療への応答予測。

これらの検証を通じて、EPIC-seqが診断、予後、治療選択に役立つ非侵襲的かつ高スループットな組織起源特性評価を可能にするプラットフォームとしての可能性を確立する。

結果

PFEとRNA発現の強力な相関: cfDNA WGSでのPFEとPBMC RNA-seq発現量との全トランスクリプトーム相関はR=0.89 (P<1×10⁻¹⁶) と非常に高かった (Fig. 1b,c)。これは、NDR depth (r=-0.78)、WPS (windowed protection score)、MDS (motif diversity score)、OCF (orientation-aware cfDNA fragmentation) など、これまでのどの指標よりも高い相関を示した (Fig. 1d)。PFEのシグナルはcfDNAに特異的であり、音波剪断した高分子量ゲノムDNAではPFE r=0.003と相関が見られず、生体内クロマチン構造を反映することが確認された。この結果は、PFEが個々の遺伝子レベルでの発現を正確に推測する能力を持つことを強く示唆する。

SCLC発現プロファイルの血漿cfDNAからの検出: 小細胞肺癌 (SCLC) 患者n=11例のcfDNAを深度約2,000× WESでプロファイルした結果、SCLC高発現遺伝子118個のPFEが健常者n=28例より有意に高く (P=3.94×10⁻⁵)、SCLC低発現遺伝子20個は逆パターン (P=0.02) を示した (Fig. 2d,e)。これらのシグネチャを組み合わせたSCLCスコアは、SCLC患者と健常者をAUC 0.98 (95% CI 0.94-1.00) で識別した。de novo DEGs探索でもASCL1、ANK1、ASTN1等の既知SCLCマーカーが同定され、cfDNAから腫瘍特異的な発現プロファイルを高解像度で捉えることが可能であることが示された (Fig. 2f)。

EPIC-seqによる肺癌検出と組織型分類: EPIC-lungクラシファイアーは、トレーニングコホート (NSCLC n=67 vs 健常者 n=71) でAUC 0.91 (95% CI 0.86-0.96) を示し、独立バリデーションコホート (NSCLC n=20 vs 健常者 n=23) でもAUC 0.83 (95% CI 0.71-0.96) と高い精度を維持した (Fig. 4a)。EPIC-seqスコアは、総代謝腫瘍体積 (MTV) およびCAPP-seqによるctDNA変異シグナルと有意に相関した (Extended Data Fig. 4a,b)。ctDNA AF<1%の低濃度域でも感度約34% (95%特異度時) を達成し、AF>5%では約86%に向上した (Fig. 4c)。

NSCLCの組織型分類 (LUAD vs LUSC) においては、NSCLC n=67例 (LUAD n=36、LUSC n=31) でleave-one-outクロスバリデーションAUC 0.90 (95% CI 0.83-0.97) を達成した (Fig. 4d)。分類に最も寄与した遺伝子は、LUAD側でSLC34A2・NKX2-1 (TTF1)、LUSC側でSOX2であり、生物学的妥当性が確認された (Fig. 4e)。ctDNA AF<1%でも精度73%、1-5%で81%、>5%で87%と、全ctDNA濃度範囲で良好な性能を維持した (Fig. 4f)。

ICI治療反応予測: NSCLC患者n=22例の縦断的サンプル (投与前・投与4週以内) から算出された「lung dynamics index」は、durable clinical benefit (DCB) vs non-durable benefit (NDB) の識別においてAUC 0.93 (95% CI 0.78-1.00) を示した (Fig. 4h)。DCB群は中央値スコア以上で有意に良好なPFS (log-rank P=0.0003、HR 11.86) を示した (Fig. 4i)。この指標はCAPP-seqによる変異ベース反応評価とr=0.526 (P=0.012) の相関を示し、相補的な情報を提供することが示唆された。

DLBCLの検出とCOO分類: DLBCL検出クラシファイアーは、トレーニングコホートでAUC 0.92 (95% CI 0.88-0.97)、バリデーションコホートでAUC 0.96 (95% CI 0.9-1.00) を示した (Fig. 5a)。EPIC-seqスコアはR-IPIと有意な関連を示し (Jonckheere’s trend test P=4×10⁻⁴)、ctDNA AF<1%の低濃度域でも約40%の検出感度を達成した (Fig. 5b,c)。

COO (GCB vs ABC) 分類では、EPIC-seq GCBスコアは変異ベースのGCBスコアとρ=0.75 (P=1×10⁻⁵) の有意な相関を示した (Fig. 6a)。また、Hansアルゴリズムによる分類よりも正確にEFSを層別化し (log-rank P=0.013)、高GCBスコアの患者は有意に良好な予後を示した (Fig. 6c)。腫瘍RNA-seq COOスコアとのconcordanceはr=0.84 (P=0.0006、n=12) であった (Fig. 6d)。LMO2遺伝子の遠位TSS発現は、多変量Cox回帰でIPI・ctDNA AFを調整後も有意な予後因子として残存した (P=0.005、HR 0.13、95% CI 0.03-0.56) (Fig. 6f)。これは、EPIC-seqがDLBCLの予後層別化において、既存の組織ベースバイオマーカーや遺伝子型分類を上回る可能性を示唆する。

考察/結論

新規性: 本研究は、血漿cfDNAのフラグメント断片化エントロピー (PFE) が個々の遺伝子レベルでRNA発現を反映することを系統的に実証したEPIC-seqを新規に開発した。従来のfragmentomics手法 (DELFI、WPS、OCFなど) では遺伝子単位の分解能が得られず高ctDNA濃度が必須であったが、EPIC-seqはプロモーター領域への標的深部シーケンスとPFEの組み合わせにより、低ctDNA濃度 (AF<1%) でも実用的な精度を達成した点が独自の貢献である。この手法は、生体内のヌクレオソーム構造と転写活性の関連性を非侵襲的に捉えるという点で、これまでの研究では十分に開拓されていなかった領域である。

先行研究との違い: 変異ベースのliquid biopsyでは区別が困難であったNSCLCのLUAD/LUSC組織型分類を、EPIC-seqはAUC 0.90 (95% CI 0.83-0.97) という高い精度で非侵襲的に分類できることを示した。これは、Cancer et al. Nature 2014TCGA et al. Nature 2012で示された組織ベースの遺伝子発現プロファイルと高い相関を示し、従来の組織生検に代わる非侵襲的アプローチとして、診断の課題を解決する可能性を秘めている。ICI反応予測においても、CAPP-seqの変異ベース手法と相補的に機能し、治療開始4週以内の早期評価を可能にした点は、Reck et al. NEnglJMed 2016Gandhi et al. NEnglJMed 2018などの先行研究と比較して、より早期かつ包括的な治療効果予測を提供し得る。DLBCLのCOO分類では、遺伝子型分類やHansアルゴリズムを上回る予後層別化能を示し、Newman et al. NatMethods 2015Gentles et al. NatMed 2015などの先行研究で示された組織ベースのバイオマーカーを液体生検で代替できる可能性を示した。

臨床応用: EPIC-seqは、非侵襲的な癌の検出、サブタイプ分類、治療応答モニタリング、および予後予測に多目的に利用できるプラットフォームとして、臨床的有用性が高い。特に、NSCLCの組織型分類は、最適な治療選択に不可欠であり、侵襲的な組織生検に伴うリスクや診断の困難さを軽減できる。ICI治療への早期反応予測は、患者の治療継続の判断や治療戦略の調整に貢献し、無駄な治療を回避し、より効果的な個別化医療を実現する。DLBCLのCOO分類における優れた予後層別化能は、高リスク患者の特定と個別化された治療戦略の策定に役立つ。

残された課題: 今後の検討課題として、早期癌での低ctDNA濃度下における感度の更なる向上、より多くの癌種・遺伝子パネルへの拡張、前分析的要因 (血液処理条件等) の標準化が挙げられる。また、本研究のコホートサイズは一部のサブグループで限定的であったため、より大規模な独立コホートでの検証が必要である。EPIC-seqは診断・予後・治療反応モニタリングの多目的プラットフォームとして、次世代liquid biopsyの基盤技術となり得るが、その広範な臨床導入にはさらなる検証と最適化が不可欠である。

方法

PFEの定義と評価: 各遺伝子TSS周辺±1 kbに両端が収まるcfDNAフラグメントの長さ分布を修正Shannon情報量として数値化し、Dirichlet-multinomialモデルで正規化してPFEを定義した。PFEは、201のサイズビン (100 bpから300 bp) にわたるフラグメント長分布の多様性を捉える。背景となるフラグメント長分布の変動を補正するため、TSSから最も離れた2つの250 bp領域 (-1 kbpから-750 bp、および+750 bpから+1 kbp) のフラグメント長密度をDirichlet分布のパラメータとして使用し、ベイズ統計学的な正規化を行った。PFEは、関心のあるTSSにおけるフラグメント長分布の過剰な多様性を、ランダムに選択された対照遺伝子セットと比較して測定する。超深度WGS (約250×) での全トランスクリプトーム解析を皮切りに、20-40× WGSや深度約2,000× WESでも検証した。

EPIC-seqプラットフォームの開発: 目的遺伝子群のTSS隣接領域をハイブリッドキャプチャーで高深度シーケンス (中央値約2,000× unique coverage) し、機械学習モデルでRNA発現推測および分類を実施した。NSCLCではTCGAからLUAD vs LUSC特異的DEGsを同定し141 TSS (117遺伝子) を設計した。DLBCLではGCB vs ABC DEGsからパネルを設計した。EPIC-seqのワークフローは、血漿からのcfDNA抽出、ライブラリ調製、関心のある遺伝子のTSSのキャプチャー、濃縮領域のハイスループットシーケンス、cfDNA断片化解析、および機械学習モデルによる各TSSでの発現予測と検体分類から構成される (Fig. 3a)。

研究コホート: 329血液サンプル (201癌患者 + 87健常者) を解析した。内訳はNSCLC (109サンプル、87患者)、DLBCL (126サンプル、114患者)、健常者 (94サンプル) であった。ICI治療中のNSCLC患者22例から44縦断的サンプルも収集し、CAPP-seqによるctDNA定量を並行実施した。全てのサンプルは、Stanford University、MD Anderson Cancer Center、Memorial Sloan Kettering Cancer Center (MSKCC) など、複数の施設で倫理委員会の承認を得たプロトコルに従ってインフォームドコンセントを得て収集された。

データ解析と品質管理: FASTQファイルはカスタムパイプラインでデマルチプレックスされ、PCR重複は内因性および外因性のユニーク分子識別子を組み合わせたバーコードアプローチで除去された。カバレッジ均一化のため、データは2,000×深度にダウンサンプリングされた。500×未満のシーケンス深度のサンプル、およびcfDNAフラグメント長密度モードが140 bp未満または185 bpを超えるサンプルは品質管理基準を満たさないとして除外された。マッピング品質 (MAPQ) はWGSで>30、EPIC-seqで>10を要求した。

統計解析: 関連性はPearson相関 (r) またはSpearman相関 (ρ) で測定された。群間比較には、データ分布に応じてt検定またはWilcoxon検定が使用された。連続変数における傾向の検定にはJonckheereの傾向検定が用いられた。多重比較補正はBonferroni法で実施された。ROC曲線解析にはRパッケージpROCが、生存解析にはRパッケージsurvivalが使用された。Kaplan-Meier曲線はログランク検定で評価され、Cox比例ハザードモデルが共変量の有意性を評価するために適合された。