• 著者: Yadong Wang, Qiang Guo, Zhicheng Huang, Liyang Song, Fei Zhao, Tiantian Gu, Zhe Feng, Haibo Wang, Bowen Li, Daoyun Wang, Bin Zhou, Chao Guo, Yuan Xu, Yang Song, Shanqing Li, Hefei Li, Xueguang Sun, Naixin Liang
  • Corresponding author: Hefei Li (Affiliated Hospital of Hebei University, Baoding), Xueguang Sun (Shanghai Weihe Medical Laboratory), Naixin Liang (Peking Union Medical College Hospital, PUMCH)
  • 雑誌: Clinical and Translational Medicine
  • 発行年: 2025
  • Epub日: 2025-02-01
  • Article種別: Original Article
  • PMID: 39909829

背景

肺癌は世界的な癌死亡の主要原因であり、診断時の約75%が進行ステージであるため、5年生存率は10%未満に留まる。対照的に、早期ステージ(I/II期)での発見では5年生存率が68-92%に達し、早期検出の臨床的重要性は極めて高い。低線量CT(LDCT)スクリーニングは早期肺癌検出と死亡率低減に有効であることが確立されているが、偽陽性率が高く、不必要な侵襲的精密検査や心理的負担をもたらすことが課題である。このため、より高精度で非侵襲的な早期検出法の開発が喫緊の課題となっている。

液体生検によるcfDNA解析は非侵襲的早期検出として期待されるが、ステージI肺癌ではctDNA量が極めて少なく、単一オミクスによる検出感度は約60%前後に留まることが複数研究で報告されている。例えば、Mathios et al. NatCommun 2021Chabon et al. Nature 2020などの研究でも、単一の断片化解析では早期肺癌の検出感度に限界があることが示されている。これは、非小細胞肺癌(NSCLC)がcfDNA中のctDNA比率が他癌種より低いことに起因し、特に早期病変での検出感度の不足が問題視されている。

cfDNAのフラグメントミクス(断片化パターン解析)は癌種に依存しない汎用的な特徴を持つが、全ゲノムレベルの解析では肺癌に特異的なシグナルはゲノム全体にわたって一様に分布せず、特定のエピゲノム修飾を受けた遺伝子領域に濃縮されることが本研究で初めて明らかにされた。一方、cfDNA由来のエピゲノム情報(H3K4me3ヒストン修飾、CpGメチル化、ヌクレオソーム枯渇領域)は組織起源に特異的な情報を含み、転写活性・クロマチン構造・DNase活性の変化を反映する。これらのエピゲノム情報がフラグメントミクスに与える影響を系統的に解析し、機械学習モデルに統合することで、単一プラットフォームの限界を大幅に超えた高精度モデルの構築が期待された。しかし、これら複数のエピゲノム層とフラグメントミクスを統合した早期肺癌検出モデルの開発は未開拓であり、特にその相乗効果を系統的に解析した研究は不足している。また、肺腺癌の進行過程におけるcfDNAエピゲノム変化の動態も未解明な点が残されている。先行研究では、Lo et al. Science 2021がcfDNA生物学の多次元的側面を提唱しているが、その統合的な解析は不足していた。

目的

本研究の目的は、cfChIP-seq(H3K4me3ヒストン修飾)、cfRRBS(DNAメチル化)、lpWGS(低深度全ゲノムシーケンス・フラグメントミクス)の3プラットフォームを統合し、複数エピゲノム修飾により共同調節される遺伝子群(MERGE: multi-epigenetically regulated genes)を同定することである。さらに、MERGEを特徴選択基盤とするExtra Treesアンサンブルモデル(MERGEモデル)を開発し、独立した外部検証コホートでの肺癌早期検出能を評価する。特に、ステージI肺癌や微小浸潤腺癌(MIA)などの超早期病変に対する検出感度を向上させることを目指す。また、肺腺癌の進行過程におけるcfDNAのH3K4me3修飾パターンの動態を解析し、MERGEが癌の発生と進行に果たす役割を解明することも目的とする。最終的に、臨床応用可能な費用対効果の高い非侵襲的早期検出戦略を提示する。

結果

エピゲノムとフラグメントミクスの統合的関係: 非癌サンプルでの解析では、H3K4me3レベルが高い遺伝子(n=11,479)ほどCpGメチル化が低く、ヌクレオソーム枯渇領域(NDR)占有率が低いという一貫した傾向が確認された(Figure 2A)。これは、転写活性が高い遺伝子で一般的に見られるパターンである。フラグメントミクス面では、H3K4me3高発現遺伝子の周辺では、モノヌクレオソームおよびジヌクレオソーム双方で断片が短く、end motifはより無秩序で、DNase1L3およびDFFBに帰属するモチーフが少なかった(Figure 2B, C)。これらのパターンは癌サンプルでも同様の傾向を示し、エピゲノム修飾がフラグメントミクスに与える影響の普遍性が確認された(Figure S1B, C)。

癌特異的フラグメントミクス変化の分布: 500 bp bin解析により、癌特異的フラグメントミクス変化(>2σ)がH3K4me3ピーク、CpGアイランド、オープンクロマチン領域に極めて濃縮することが示された(Figure 3A)。代表的な例として、染色体4q21.22領域のHNRNPDおよびHNRNPDL遺伝子(肺癌で強発現し、転移促進機能を持つ)のプロモーターに有意な変化が集中するのに対し、隣接するTMEM150C遺伝子では変化がほとんど見られなかった(Figure 3A, B)。全ゲノムH3K4me3ランキングに基づく解析では、H3K4me3上昇遺伝子では50-160 bpの短断片比率が上昇し、癌濃縮モチーフが増加する一方、H3K4me3低下遺伝子では200 bp付近の断片が増加し、癌枯渇モチーフが増えるという対照的なパターンが確認された(Figure 3D)。これらの結果は、癌特異的なフラグメントミクス変化がエピジェネティックに調節された遺伝子ホットスポットに濃縮されるという仮説を裏付けるものであった。

MERGEの同定と機能的特徴: 3つの比較(癌vs非癌、癌vs健常、癌vs良性)の統合により、合計609個のMERGE遺伝子が同定された(Figure 4A)。内訳として、癌vs非癌で245遺伝子、癌vs健常で323遺伝子、癌vs良性で187遺伝子であった。エピゲノム修飾の組み合わせでは、H3K4me3とNDRで217遺伝子、H3K4me3とメチル化で185遺伝子、メチル化とNDRで180遺伝子が共調節されており、27遺伝子は3つの修飾すべてによって異常に調節されていた(Figure 4B)。機能的には、GTPase媒介シグナル伝達(GO:0007264, padj=0.001)、Reactome(R-HSA-9013148, padj=0.016)、EGF/EGFRシグナル経路(WikiPathway WP437, padj=0.068)に有意に富化していた(Figure 4C)。代表的なMERGE遺伝子としてCAV2、AP2A1、PRKCIが多オミクスエピゲノム調節を示した(Figure 4D)。TSS±1 kb内のモチーフ富化解析では、Sp/KLFファミリー(SP2、KLF5/6)のC2H2 zinc finger転写因子の結合モチーフが有意に富化し、CTCFもMERGE調節に関与することが示唆された(Figure 4E, F)。

MERGEモデルの検出性能: 単一特徴モデルの比較では、BPM、EDM、FSRのいずれもMERGE版が全ゲノム版よりAUCで優れていた(Figure 5A, S5A)。最終的なExtra Treesアンサンブルモデルは、3×カバレッジlpWGSデータで訓練コホートにおいてAUC 0.94 (95% CI 0.90-0.97) を達成し、未接触の外部検証コホートでも同等のAUC 0.94 (95% CI 0.90-0.98) を示し、過学習のない堅牢な汎化性能を実証した(Figure 5B, C)。カットオフ0.50を使用した場合、検証コホートでの感度は90.4%、特異度は83.1%であった(Table 1)。モデルスコアは、肺癌患者 n=114 subjectsで非癌コントロール n=71 subjectsと比較して有意に高値を示した (p<0.0001) (Figure 5D)。

ステージ別感度と病理・放射線学的サブグループ別感度: 特筆すべきは早期検出性能であり、ステージI肺癌に対する感度は訓練コホートで86.7%、検証コホートで95.1% (95% CI 0.865-0.983) であった(Figure 5E)。これは、ステージI感度16.8%を示すGalleriテストを大きく超える値である。病理・放射線学的サブグループでは、微小浸潤腺癌(MIA)に対して訓練コホートで100%、検証コホートで96.2% (95% CI 0.811-0.993) の感度を示した。上皮内腺癌(AIS)の75%が正確に悪性と分類され、異型腺腫様過形成(AAH)の10例中7例(70%)がカットオフを超えた(Figure 5F, Table S8)。AISおよびAAHは訓練データに含まれていなかったため、訓練なしでも客観的に高い検出能を示したことは、MERGEモデルが腫瘍発生早期のエピゲノム変化を捉えることができることを示唆する。1 cm未満病変に対する感度は検証コホートで76.5% (95% CI 0.60-0.876)、純粋すりガラス結節(pGGO)に対しては86.4% (95% CI 0.733-0.936) であった(Table 1)。

悪性vs良性の鑑別: 同カットオフ0.50でのAUCは0.816 (95% CI 0.725-0.907) であり、感度89.6%、特異度60.6%で、LDCTで検出された疑いのある悪性結節の性状評価にも応用可能であることが示された(Figure 5G)。モデルスコアは、疾患の進行ステージ、より浸潤性の表現型、腫瘍径の増大、およびconsolidation/tumour比の増加に伴い有意に上昇した(Figure 5H)。性別、年齢、喫煙状況、遺伝などの他のベースライン臨床特性は、モデルスコアに統計的に有意な影響を示さなかった(Figure S6A)。

H3K4me3の段階的変化とLUAD進行: AAH→AIS→MIA→IAC(浸潤腺癌)の腺癌進行ステージに伴い、H3K4me3 cfChIP-seqパターンが健常肺から段階的に乖離することが非教師なしクラスタリングで示された(Figure 6B)。MIAとIACの相関は0.96 (Euclidean距離89.88) と最も近く、これらが近似したエピゲノム状態にあることが示された(Figure 6C, D)。健常-AAH比較のEuclidean距離はAISを超えてMIAに近く、AAHの不均一性を反映している可能性が示唆された(Figure 6E)。代表的なMERGE遺伝子5個(KDM4C、OXSR1、RAD17、RUNX1、NPR3)では、AAH/AIS期とMIA/IAC期でH3K4me3が明確に異なるパターンを示した(Figure 6F)。

想定される集団に対するNPVと臨床ベネフィット試算: 中国の40-74歳での悪性結節有病率0.107%の想定集団では、MERGEモデルのNPVは99.9%となり、スクリーニング陰性での肺癌否定力が極めて高いことが示された。最も保守的な腫瘍倍増時間シナリオ(攻撃的高速モード)でのinterception modelシミュレーションでは、年次スクリーニングにより進行癌の81%が早期ステージで発見されるように移行し、5年全生存率が38.80%から67.47%に改善すると推算された(Figure S6B, Table S9)。

考察/結論

多層エピゲノム統合の革新性: 本研究の最大の貢献は、cfChIP-seq(H3K4me3)、cfRRBS(DNAメチル化)、lpWGS(フラグメントミクス)という3種のエピゲノム解析が同一分子実体である血漿cfDNAの核小体複合体を対象とし、互いに相補的な情報を提供するという発見にある。H3K4me3はダイナミックな発現調節を、DNAメチル化はより安定した系譜情報を、NDRはリアルタイムの転写因子結合を反映し、これら3層の統合により単一オミクスでは捉えられない癌特異的シグナルの精度が飛躍的に向上した。これは、Lo et al. Science 2021が提唱したcfDNA生物学の多次元的側面を実証するものであり、本研究で初めて系統的に解析された。

先行研究との違い: 既存の単一オミクスモデルがステージI感度約60%に留まるのに対し、MERGEモデルの95.1%という感度は質的に異なる水準である。例えば、Liu et al. AnnOncol 2020による多癌メチル化検出(MCED)アプローチの同等ステージ感度50-60%や、GalleriテストのステージI感度16.8%と比較しても、MERGEモデルは特に早期ステージで優れる。これは、cfDNAの断片化パターンがエピジェネティックに制御された遺伝子領域に濃縮されるという本研究の新規な発見に基づいている。

新規性: 本研究で初めて、癌特異的なフラグメントミクス変化がエピジェネティックに調節された遺伝子ホットスポットに濃縮されることを明らかにした。また、AAH(異型腺腫様過形成)やAIS(上皮内腺癌)といった超早期病変に対しても、訓練データに含めずに高い検出能を示したことは、MERGEモデルが腫瘍発生早期のエピゲノム変化を捉えることができるという新規な知見である。

臨床応用: 最終MERGEモデルはlpWGSのみのデータで動作し、cfChIP-seqとcfRRBSはMERGE遺伝子の特定(一次開発)にのみ使用され、最終予測には不要である。これにより、実臨床での導入コストは大幅に低減でき、3×カバレッジのlpWGSのみで実施可能な簡便なアッセイとなっている点が、Galleri等の高コスト多メチル化ターゲットパネルと対照的であり、臨床現場での普及に向けた大きな利点となる。また、本モデルはAAHやAISといった超早期病変に対しても高い検出能を示しており、これらの病変が100%の10年無病生存率を持つことを考慮すると、MERGEモデルは早期介入による根治的治療の機会を大幅に拡大する臨床的意義を持つ。Saji et al. Lancet 2022が示すように、小径肺癌に対する縮小手術の非劣性が確立されつつある現状において、本モデルは肺機能温存と根治の両立に貢献しうる。

残された課題と今後の展望: 全参加者がアジア人(中国)であり、アジア人NSCLC(特に女性非喫煙者の肺腺癌)の変異ランドスケープが西欧集団と異なるため、非アジア集団への汎化性は未検証である。AAH・AISのサンプルサイズが少なく、これらの超早期病変での解析には追加データが必要である。小細胞肺癌(SCLC)とNSCLCの差別的診断へのMERGEモデルの応用も未検討である。フラグメントミクスとエピゲノム変化の根本的なメカニズム的関係も依然として未解明であり、cfDNA生物学の理解深化が今後の研究課題として残されている。例えば、Snyder et al. Cell 2016Esfahani et al. NatBiotechnol 2022などの研究はcfDNAの組織起源や遺伝子発現との関連を示唆しているが、癌特異的なエピゲノム変化がどのようにフラグメントミクスに影響を与えるかの詳細なメカニズムはさらなる解明が必要である。また、LaFave et al. CancerCell 2020がマウスモデルで示したように、エピゲノム状態の遷移が腫瘍進行を特徴づけるメカニズムをヒトのcfDNAで詳細に検証することも今後の方向性である。

方法

研究デザインとコホート: 本研究は多施設前向きコホート研究として実施された。2022年11月から2023年12月まで、2施設(Anhui Medical University附属病院 (AHHU、訓練コホート) とPeking Union Medical College Hospital (PUMCH、検証コホート))から参加者を連続登録した。悪性結節疑いで手術または生検を予定している患者と、年齢・性別マッチ健常ボランティアを組み入れた。組み入れ基準は、18歳以上、病理学的確定診断取得可能、文書化されたインフォームドコンセント取得であった。除外基準は、既往癌、血液採取前の抗癌治療、多発原発性肺癌であった。本研究はヘルシンキ宣言に準拠し、AHHU(承認番号: HDFYLL-IIT-023-005)およびPUMCH(承認番号: I-23PJ1205)の倫理委員会によって承認された。

コホート規模: 訓練コホートは191例(悪性97例、良性14例、健常80例)、検証コホートは185例(悪性114例、良性19例、健常52例)で、合計376例が解析対象となった。悪性例のステージ分布は、訓練コホートでステージIが61.9%(60例)、ステージIIが20.6%(20例)であった。検証コホートではステージ0が23.1%(24例)、ステージIが58.7%(61例)、ステージIIが1.9%(2例)と、早期ステージの症例が多く含まれた。

検体処理: 各被験者から末梢血10 mLをCell-Free DNA BCT tubes (Streck) に採取した。採血後2時間以内に1600×gで10分間、次いで16,000×gで10分間の2段階遠心分離により血漿を分離した。cfDNAはQIAamp Circulating Nucleic Acid Kit (Qiagen) を用いて抽出された。

3プラットフォーム解析:

  1. cfChIP-seq (cell-free chromatin immunoprecipitation sequencing): 200 µgのH3K4me3 Recombinant Polyclonal Antibody (Invitrogen) をDynabeadsに結合させ、1 mL血漿から核小体複合体を免疫沈降(IP)した。NEBNext Ultra II End Prep kitを用いてライブラリを構築し、Illumina 150 PEプログラムで10 Gbpシーケンスを実施した。バイオインフォマティクス解析にはbowtie2 (v2.5.3) とMACS2 (v3.0.1) を使用した。
  2. cfRRBS (cell-free reduced representation bisulphite sequencing): 10 ngのcfDNAをMspI酵素でCCGG部位を消化後、EZ DNA Methylation-Lightning Kit (ZYMO) で亜硫酸水素塩変換を行った。KAPA HiFi HotStart Uracil + ReadyMix KitでPCR増幅後、Illuminaマシンで20 Gbpシーケンスを実施した。Bismarkアライナー (v0.24.1) を用いてhg19参照ゲノムにアラインメントし、メチル化コールを行った。
  3. lpWGS (low-pass whole-genome sequencing): 5 ngのcfDNAからxGen Prism DNA Library Prep Kit (IDT) を用いてライブラリを構築し、7サイクルのPCR増幅を行った。Illumina 150PEプログラムで10 Gbpシーケンス(3×カバレッジ)を実施した。bwa-mem2 (v2.2.1) とsamtools (v1.17) を用いてhg19参照ゲノムにアラインメントし、断片化情報を取得した。

cfDNAフラグメントミクス特徴量の算出: 自家製スクリプトを用いて、6 bp end motif、2+4 bp breakpoint motif (BPM)、断片サイズ比 (FSR: 151-220 bp断片の割合)、断片サイズ分布 (FSD: 65-400 bp、5 bp窓)、TSS-NDRスコアをlpWGSデータから抽出した。FSRは各1 Mbウィンドウ内の151-220 bp断片の総断片数に対する割合として計算された。

MERGE (multi-epigenetically regulated genes) 同定: cfChIP-seq、cfRRBS、lpWGSのデータを用いて、癌vs非癌、癌vs健常、癌vs良性の3種の比較を実施した。少なくとも2種の比較で有意な差分を示し、かつ生物学的に一貫した方向性(例: H3K4me3上昇とCpGメチル化低下が遺伝子活性化と一致)を示す遺伝子をMERGEとして選定した。遺伝子機能および経路濃縮解析にはWu et al. Innovation(Camb) 2021ツールを使用した。

機械学習モデル構築: 各フラグメントミクス特徴(BPM、MERGE-BPM、EDM、MERGE-EDM、FSR、MERGE-FSR、FSD)を個別モデルで評価し、MERGE版が全ゲノム版より優れた場合に採用した。最終的に、MERGE-BPM、MERGE-FSR、FSDの3特徴をExtra Treesアルゴリズム(scikit-learn、n_estimators=1000、max_depth=5、min_samples_split=5)で統合したアンサンブルモデルを構築した。訓練コホートで10-fold交差検証を行い、未接触の検証コホートで独立評価を実施した。統計解析はR version 4.4.0を使用し、Mann-Whitney U検定、Kruskal-Wallis検定、Chi-squared検定またはFisher’s exact testを適用した。ROC曲線はpROCパッケージで生成され、AUCの95% CIは2000回の層別ブートストラップ複製で計算された。