• 著者: Janita Thurlkell Stanley, Dries Decallonne, Anna Vogt, Marketa Tomkova, Marjolein Smet, Eline Laenens, Lieven Dupont, Bert Smeets, Kathleen Claes, Eric van den Bogaert, Steven Vandamme, Jan Depreeuw, Hui-Qi Qu, Hakon Hakonarson, Sabine Tejpar, Diether Lambrechts, Joris Robert Vermeesch
  • Corresponding author: Joris Robert Vermeesch (Department of Human Genetics, Laboratory for Cytogenetics and Genome Research, KU Leuven, Belgium; email: joris.vermeesch@kuleuven.be)
  • 雑誌: Nature Communications
  • 発行年: 2024
  • Epub日: 2024-03-05
  • Article種別: Original Article
  • PMID: 38472221

背景

血中cfDNA (cell-free DNA) は、アポトーシス、壊死、あるいは能動的分泌といった多様な細胞死のメカニズムにより体液中に放出される。各細胞型は、その固有のクロマチン構造とヌクレオソーム配置を保持しており、これらの特徴がcfDNAの切断パターン、すなわちフラグメントームに細胞型特異的なシグネチャーとして反映されることが知られている。cfDNAフラグメントの大部分はモノヌクレオソームに由来し、ヌクレオソームによって保護されたDNA領域 (約147 bp) は核酸分解酵素による切断を受けにくく、血中に安定して残存する傾向がある。Kornberg et al. Cell 1999はヌクレオソームの基本的な構造と機能について詳細に報告しており、cfDNAのフラグメント化パターンがヌクレオソームの配置を反映するという概念の基盤を築いた。

窓保護スコア (WPS: Window Protection Score) は、ゲノムの各座位における120 bp窓内のcfDNA読み取り数を連続的に定量することで、核内のin vivoヌクレオソーム占有スコアを反映する指標である。Snyder et al. Cell 2016は、WPSと遺伝子発現の負の相関を利用し、76種類の組織および細胞株からのcfDNA起源組織を推定する先駆的なフレームワークを確立した。しかし、このアプローチはバルク転写データに依存しており、参照できる組織の種類が限定的であるという制約があった。このため、より高解像度で包括的な細胞型寄与の推定には、新たな手法の開発が求められていた。Cristiano et al. Nature 2019Lo et al. Science 2021などの研究は、cfDNAフラグメントミクスの疾患検出における有用性を示してきたが、細胞型レベルでの詳細な起源解析は未解明な部分が残されていた。

2020年代初頭における単細胞トランスクリプトームアトラス、特にTabula Sapiens (24臓器から456以上の細胞型を収録) の整備は、cfDNAフラグメントミクスと単細胞転写データを統合する、より包括的なフレームワークの構築を可能にした。この進展により、個々の細胞型レベルでのcfDNA寄与を詳細に解析する道が開かれた。さらに、超低カバレッジ (<0.3×) での標準的ゲノムシーケンスは、非侵襲的出生前スクリーニング (NIPS) において既に日常臨床に組み込まれている。もし、この超低カバレッジデータから疾患特異的な細胞型シグネチャーを効率的に抽出できれば、既存の臨床データの再利用価値が飛躍的に高まり、新たな診断・モニタリングツールとしての応用が期待される。

従来の変異やメチル化ベースのアプローチとは異なり、WPSと高速フーリエ変換 (FFT: Fast Fourier Transform) を組み合わせたフレームワークは、腫瘍特異的な遺伝子変化に依存せず、疾患に先験的な仮説なしに細胞型変化を探索できる「disease-agnostic」な特性を持つ。この特性は、疾患生物学の発見科学と臨床分類の両面において、その活用が期待される一方で、その実用性や汎用性については未解明な部分が残されていた。特に、超低カバレッジデータでの性能や、多様な疾患への適用可能性については、さらなる検証が不足しており、この知識ギャップを埋めることが喫緊の課題であった。

目的

本研究の目的は、cfDNA WPSプロファイルに高速フーリエ変換 (FFT) を適用し、Tabula Sapiens単細胞トランスクリプトームアトラスの456以上の細胞型との相関を算出する包括的フレームワークを構築することである。このフレームワークにより、超低カバレッジ (<0.3×) のシーケンスデータからでも疾患固有の細胞型シグネチャーを効率的に抽出し、その生物学的意義を解釈することを試みた。具体的には、健常者、妊娠中の女性、および複数の疾患 (大腸癌、早期乳癌、多発性骨髄腫、妊娠高血圧腎症) 患者を含む合計744名のcfDNAデータを用いて、本手法の疾患検出能力、生物学的解釈の妥当性、および将来的な臨床実装の実現可能性を評価することを目的とした。特に、低カバレッジデータでの性能検証を通じて、既存の臨床シーケンスデータの再利用価値を最大化し、液状生検の臨床的有用性を拡大する可能性を探ることを重要な目標とした。

結果

超低カバレッジでの技術的実現可能性: 健常コントロール230名のcfDNAデータを用いて、WPSピーク位置の再現性を検証した。10×カバレッジでは平均約300万、<0.3×カバレッジでは平均約5千のヌクレオソームピークが同定された。これらのピークは、231×の参照サンプルCH01との距離分布や、既知のヌクレオソームリピート長187 bpを良好に再現した (Fig. 2B)。FFT-WPSと遺伝子発現のPearson相関に基づく細胞型ランクは、35×から0.1×へのダウンサンプリングに対しても頑健であり、最高ランクのNK T細胞と最低ランクの赤血球の順位は維持された (Fig. 2G)。この結果は、通常のWGSの100分の1以下のシーケンスコストで同等の分類性能を達成できることを示唆しており、超低カバレッジでの解析の実用性が確認された。

健常状態での細胞型組成: 健常コントロール全例 (n=230) において、最も高いFFT-WPS相関を示したのは免疫細胞型であり、次いで内皮細胞、間質細胞、上皮細胞型が続いた (Fig. 2D)。組織別では、血液、胸腺、リンパ節、骨髄、脾臓など、免疫細胞産生臓器由来の細胞型が上位を占めた (Fig. 2E)。免疫細胞型の詳細な解析では、classical/intermediate単球、制御性T細胞、NK T細胞、CD8+ T細胞、naive B細胞が主要な寄与者であることが示された (Fig. 2F)。陰性コントロールとして、核を持たない赤血球は全例で最低ランクとなり、本手法の特異性が確認された。組織常在型マクロファージでは臓器特異的な寄与が確認され、血液および骨髄マクロファージが最も高いランクを示した (Fig. 2H)。性別特異的臓器由来の免疫細胞 (子宮、前立腺) では、それぞれ対応する性別で有意に高いランクが示された (Fig. 3B)。妊娠コントロール (n=331) では、妊娠特異的にランクが上昇した細胞型は胎盤由来のみであった (Fig. 3C)。滋養細胞では絨毛外滋養細胞 (EVT: extravillous trophoblasts) が最高ランクで、絨毛性滋養細胞 (VCT: villous cytotrophoblasts)、合胞体滋養細胞 (SCT: syncytiotrophoblasts) と続く順序は、VCTから脱落膜浸潤EVTへの滋養細胞分化軌跡と一致した (Fig. 3E)。妊娠週数とEVTランクの相関 (28週以降で増加、Kruskal-Wallis P=0.023) は、胎児cfDNA割合の妊娠週数依存性増加と整合した。

大腸癌における細胞型シグネチャーと検出: 大腸癌患者 (n=16、63%がStage III以上) では、122細胞型が過剰代表 (up-ranked) され、134細胞型が過少代表 (down-ranked) された (Fig. 4A)。最も過剰代表された細胞型は腸管CD4+ α/β T細胞 (P<10^-6、fold change=2.1) であり、同細胞型のランクはichorCNAによる独立した腫瘍分画推定値とPearson相関r=0.72 (P=0.0016) であった (Fig. 4B)。過剰代表された上皮細胞のうち33%が腸管由来 (Paneth細胞、goblet細胞、enterocyte、enteroendocrine細胞、transit amplifying細胞など) であった。SVM分類器を用いたleave-one-out交差検証では、AUC=84.7% (10×カバレッジ) を達成した (Fig. 4I)。外部検証コホート (<0.3×カバレッジ、n=29) では、陽性予測値82.6%、陰性予測値89.6%であり、シーケンス深度および施設間の汎化能が示された (外部コホートAUC=85.7%) (Fig. 4H)。

早期乳癌における検出性能: 乳癌コホート (n=52、77%がStage I-II) では、73細胞型が過剰代表され、83細胞型が過少代表された (Fig. 4C)。乳腺由来の上皮細胞は過剰代表細胞型に含まれなかったが、これは早期ステージの症例が多く、腫瘍由来cfDNA分画が低かったためと考えられる。最も過剰代表された免疫細胞はマクロファージ (80%が免疫細胞) であり、腫瘍関連マクロファージ (TAM) が乳癌前悪性病変での癌細胞播種を促進するという既報と一致した。また、早期乳癌で線毛細胞 (ciliated cells) が有意に過少代表され、線毛喪失が腫瘍増殖促進メカニズムとして最近提唱されていることと符合した。SVM分類器でAUC=90.1%を達成し (Fig. 4I)、ichorCNA (AUC 65.7%) やGriffin (AUC 77.4%) を大幅に上回る性能を示した。

多発性骨髄腫の高精度検出: 多発性骨髄腫患者 (n=24) では、形質細胞様樹状細胞、形質細胞、形質芽球、B細胞、骨髄前駆細胞が上位20の過剰代表細胞型に含まれ、骨髄腫細胞に由来する細胞型が直接検出された (Fig. 4E)。形質細胞ランクはichorCNAによる腫瘍分画とPearson相関r=0.68 (P=0.00047) の強い相関を示し (Fig. 4F)、超低カバレッジ (<0.3×) での解析でもシグナルが維持された。SVM分類器でAUC=95.0%と最高の検出精度を達成した (Fig. 4I)。これはichorCNA (AUC 92.6%) およびGriffin (AUC 75.6%) を上回った。単細胞アトラスベースの手法がバルクデータベースより優位である最良の例であり、バルクデータではAUCが87.1%に低下した。

妊娠高血圧腎症の病態特異的シグネチャー: 妊娠高血圧腎症 (preeclampsia) 診断時 (24-34週) のcfDNAで、AFP+ALB+滋養細胞 (細胞性滋養細胞)、肝臓常在好中球、単球が上位10の過剰代表細胞型として同定された (Fig. 5A)。肝臓常在好中球の過剰代表は、本コホートの39%でみられた肝障害 (preeclampsiaの既知合併症) と整合した。CD8+ α/β T細胞、CD4+ α/β T細胞、naive制御性T細胞が過少代表され、AFP産生滋養細胞によるT細胞増殖抑制という機序仮説と一致した。AFP+ALB+滋養細胞は成熟胎盤では通常検出されない未熟型であり、胎盤浸潤不全というpreeclampsia病態の分子的反映と解釈できる。SVM分類器でAUC=88.3%を達成した (PCA降次元後の10 PCをSVM入力) (Fig. 5B)。

多クラス分類による癌種識別: 乳癌と大腸癌を同一シーケンス深度で健常コントロールと共にone-vs-all SVMで多クラス分類したところ、乳癌44/52例 (84.6%)、大腸癌6/16例 (37.5%) がそれぞれのクラスに正しく分類され、全体精度は71.0%であった。この結果は、癌種特異的な細胞型シグネチャーの差異が多クラス分類に活用できることを示唆した。

考察/結論

本研究は、cfDNA WPSとFFT解析をTabula Sapiens単細胞トランスクリプトームアトラスと統合するという革新的なフレームワークを構築した。このフレームワークは、超低カバレッジ (<0.3×) のシーケンスデータからでも、複数の癌腫 (大腸癌AUC 84.7%、早期乳癌AUC 90.1%、多発性骨髄腫AUC 95.0%) および産科疾患 (妊娠高血圧腎症AUC 88.3%) を高精度で検出・生物学的に解釈できることを、744名の患者および健常者のデータで実証した。

先行研究との違い: 本研究の先行fragmentomics研究との主要な差別化点は三つある。第一に、Snyder et al. Cell 2016が用いた76種類のバルク組織から、単細胞アトラスの456細胞型へと参照セットが大幅に拡充されたことで、細胞型解像度と組織常在特異性の区別が飛躍的に向上した点である。これはこれまでの研究とは対照的である。第二に、超低カバレッジ (<0.3×) での実用性が証明されたことで、NIPSなど既存の臨床データへの直接応用が可能となった。これは、従来のfragmentomics研究では十分に検討されていなかった点である。第三に、癌以外の疾患 (妊娠高血圧腎症、消失双胎) への応用拡張が、cfDNA fragmentomicsの汎用性を示した点も、これまでの研究とは異なる。

新規性: 本研究で初めて、cfDNA断片化プロファイルから得られる細胞型シグネチャーが、疾患固有の生物学、例えば腫瘍微小環境、起源細胞、病態細胞動員に高度に対応していることを定量的に示した。腸管CD4+ T細胞と大腸癌腫瘍量のPearson相関r=0.72や、形質細胞ランクと骨髄腫TFのPearson相関r=0.68は、本手法が単なる検出マーカーを超えて、疾患生物学の発見ツールとして機能する新規性を示唆する。また、AFP+ cytotrophoblastのpreeclampsia特異性は、血漿AFP動態との既知関連を支持し、病態分子仮説の形成に貢献する新規な知見である。

臨床応用: 本知見は、液状生検の臨床的有用性を大幅に拡大する可能性を秘めている。超低カバレッジデータでの高精度な疾患検出能力は、NIPSデータの大規模な後ろ向きコホートへの適用を可能にし、既存の臨床インフラを活用した低コストの疾患スクリーニングという新たな実装形態を実現する可能性がある。これにより、早期診断や病態モニタリングの精度向上に貢献し、臨床現場での患者層別化や個別化医療の推進に繋がる臨床的意義は大きい。

残された課題と今後の方向性: 残された課題として、現在のコホートサイズが限られている点が挙げられる。特に大腸癌 (n=16) のような小規模コホートでの結果は、大規模な独立コホートでの検証が必要である。また、スクリーニング設定における偽陽性率 (陰性予測値) の制御は、実用化に向けた核心的課題である。今後は、cfDNA単細胞レベル解析との統合、さらに多彩な疾患や癌種への応用拡張が期待される。アッセイ標準化、商業化に向けたシーケンスプロトコル統一、および計算パイプラインの確立も、今後の重要な研究課題である。

方法

研究対象と検体:本研究では、合計744名のcfDNA全ゲノムシーケンスデータを解析した。内訳は、健常コントロール (非妊娠者および妊娠者)、大腸癌患者 (n=16、63%がStage III以上)、乳癌患者 (n=52、77%がStage I-II)、多発性骨髄腫患者 (n=24、25%がStage I、54%がStage II、21%がStage III)、妊娠高血圧腎症患者 (n=18、診断時24-34週)、消失双胎患者 (n=102)、および流産患者 (n=44) であった。シーケンス深度は、35×、10×、または<0.3×のいずれかであった。すべての研究は、ルーヴェン大学病院倫理委員会 (S62285, S66450, S57999, S67127) およびバルセロナのVall d’Hebron Institute of Oncology (VHIO) (PR(AG)321/2018) の承認を得て実施された。前向きに収集されたcfDNAサンプルについては、書面によるインフォームドコンセントを取得した。後向きに募集された患者は、電子カルテアプリケーションを通じて情報提供され、オプトアウトしない限り研究に参加した。

cfDNA抽出とシーケンス:末梢血サンプルは、Roche DiagnosticsまたはStreck製のcfDNA採血管に採取された。血漿は標準的な二段階遠心分離法で分離され、cfDNAはQIAamp Circulating Nucleic Acid Kit (Qiagen) またはMaxwell® HT ccfDNA Kit (Promega) を用いて抽出された。低カバレッジシーケンス用のライブラリはKAPA HyperPrep kit (Roche Diagnostics) を使用し、超低カバレッジ (0.1-0.3×) 全ゲノムシーケンスはNovaSeq 6000 (Illumina) で2×51 bpのペアエンドリードを生成した。乳癌および大腸癌cfDNAサンプル、ならびに残りの非妊娠コントロールサンプルのライブラリは、NEBNext Enzymatic Methyl-seq kit (New England Biolabs) を用いて調製され、10-35×カバレッジでNovaSeq 6000 (Illumina) で2×150 bpのペアエンドリードを生成した。リードはfastp (v0.12.4またはv0.20) でデマルチプレックス、品質チェック、アダプター除去され、hg38参照ゲノムにBWA (v0.7.17) またはbwameth (v0.2.2) でアラインされた。重複リードはPicard (v2.18.23) でマーク・除去された。

WPS計算とFFT:WPSはSnyder et al. Cell 2016の手法に準拠し、hg38アライメントBamファイルから算出した。120 bp窓でのモノヌクレオソームフラグメント (120-180 bp) の保護スコアを全ゲノムにわたり計算した。次に、全Ensemblゲノム19,536遺伝子の最初の10 kbにわたるWPSシグナルにFFTを適用し、196-199 bp波長範囲 (弱転写遺伝子ボディでのヌクレオソームインターバル距離に対応) での平均FFT強度を遺伝子ごとに算出した。

細胞型ランキング:Tabula Sapiensデータベースの456細胞型の平均遺伝子発現量と遺伝子ごとのFFT-WPS値のPearson相関係数を算出し、負の相関が強い (よりアクセシブルなクロマチン構造 = 高転写状態を反映) 細胞型を高ランクとした。妊娠合併症コホートでは、Fetal Cell Atlas (15胎児組織の細胞型) およびVento-Tormo et al. (2018) の胎盤単細胞RNAシーケンスデータを追加した。

機械学習分類器:細胞型ランクを入力特徴量としてサポートベクターマシン (SVM, linear kernel, cost=1) を訓練し、leave-one-out交差検証でROC-AUCを評価した。妊娠合併症コホートでは、PCA降次元後の上位10 PCをSVM入力とした。外部検証として、10×カバレッジ訓練モデルを<0.3×カバレッジ外部大腸癌コホートに適用した。

比較手法:ichorCNA (コピー数変異ベースのTF推定) およびGriffin (転写因子結合サイトのフラグメントカバレッジ) との性能比較を実施した。また、バルク転写データ (Human Protein Atlas, GTEx 50組織) を用いた分類性能も評価し、単細胞参照の優位性を検証した。