• 著者: Stephen Cristiano, Alessandro Leal, Jillian Phallen, Jacob Fiksel, Vilmos Adleff, Daniel C. Bruhm, Sarah Østrup Jensen, Jamie E. Medina, Carolyn Hruban, James R. White, Doreen N. Palsgrove, Noushin Niknafs, Valsamo Anagnostou, Patrick Forde, Jarushka Naidoo, Kristen Marrone, Julie Brahmer, Brian D. Woodward, Hatim Husain, et al.
  • Corresponding author: Robert B. Scharpf, Victor E. Velculescu (Johns Hopkins University School of Medicine, Baltimore, MD, USA)
  • 雑誌: Nature
  • 発行年: 2019
  • Epub日: 2019-05-29
  • Article種別: Original Article
  • PMID: 31142840

背景

血漿中の無細胞DNA (cfDNA) を用いた液体生検は非侵襲的ながん診断の重要な手段として注目されているが、既存手法にはいくつかの本質的な制約があった。腫瘍特異的体細胞変異を標的とするアプローチは腫瘍分画率に感度が依存し、早期ステージでは循環腫瘍DNA (ctDNA) 分画が0.1%未満になることも多く検出が困難であった。Bettegowda et al. SciTranslMed 2014 はctDNA検出が後期病変では有効であることを示したが、ステージI病変での感度は低かった。Newman et al. NatMed 2014 が開発したCAPP-Seq (cancer personalized profiling by deep sequencing) は感度を改善したが、個別化アッセイ設計が必要で普及の妨げとなっていた。染色体コピー数異常を全ゲノムシーケンス (WGS) で検出するアプローチ (Leary et al. Sci Transl Med 2012) も初期がんでは変化が少なく感度に限界があった。cfDNA断片長については、健常者では約167 bpを中心とするヌクレオソーム由来の長さ分布が特徴的であり、Snyder et al. Cell 2016 がcfDNAのin vivoヌクレオソームフットプリントを反映することを示したが、断片長全体の増減方向はがん患者で報告間に一致が見られず、解釈が困難であった。位置依存的なゲノムワイド断片化パターンをがんシグナルとして系統的に活用する手法は未確立であり、複数がん種に対して患者固有の個別化パネルを必要としない非個別化アッセイで感度と特異度を両立する方法が確立されていなかった。この方法論的ギャップが未解決のまま残されており、断片化プロファイルの位置依存的変化をゲノムワイドに定量して機械学習で統合する診断枠組みが欠如していたことが先行研究で何が足りなかったかを端的に示していた。cfDNA断片化情報はDNAメチル化解析 (Yasumizu et al. NARCancer 2024) とは独立したエピゲノム情報を提供しうると考えられ、相補的統合による感度向上が期待されていた。1 mlの血漿中に含まれるcfDNAはおよそ2,000ゲノム等価にすぎないため、単一アルテレーション検出の理論的感度限界は数千分の一にとどまり、多数の異常を同時に捉えるアプローチが感度向上に不可欠であった。本研究ではこれらの課題を解決するためDELFI (DNA Evaluation of Fragments for Early Interception) が開発された。

目的

ゲノムワイドcfDNA断片化プロファイルを用いて複数がん種のがん患者と健常者を識別する新規液体生検法DELFI (DNA evaluation of fragments for early interception) を開発・検証すること。断片化プロファイルによる腫瘍組織起源の推定可能性、ならびに変異検出との組み合わせによる検出感度向上を評価すること。また治療経過中の断片化プロファイル変化を予備的に検討すること。

結果

DELFI法の全体的がん検出性能:n=423例 (がん患者n=208例、健常者n=215例) の全コホートで、勾配ブースティング機械学習モデルはAUC 0.94 (95% CI 0.92-0.96) を達成した (Fig. 4)。特異度98%固定において感度73% (152/208例、95% CI 67-79%)、特異度95%固定において感度80% (166/208例、95% CI 74-85%) であった (Table 1)。健常者の誤分類は特異度98%条件で4/215例、95%条件で10/215例のみであった。切除可能病変 (ステージI-III) に限定した特異度95%での感度は79% (145/183例) であり、ステージIVでも82% (18/22例) の感度を示した。健常者間のゲノムワイド断片化プロファイル中央 Pearson 相関係数は r=0.99 (n=30) であったのに対し、がん患者n=208例では r=0.84 (P<0.001, Wilcoxon rank-sum検定) と有意に低下しており、GC補正後も r=0.83 を維持した。

がん種・ステージ別の検出感度:特異度98%での感度はがん種によって異なった (Table 1)。肺がん100% (12/12例、95% CI 74-100%)、卵巣がん89% (25/28例、95% CI 72-98%)、胆管がん81% (21/26例、95% CI 61-93%)、胃がん81% (22/27例、95% CI 62-94%)、大腸がん70% (19/27例、95% CI 50-86%)、膵がん65% (22/34例、95% CI 46-80%)、乳がん57% (31/54例、95% CI 43-71%) であった (Table 1)。ステージ別では特異度98%でのステージI感度が68% (28/41例、95% CI 52-82%)、ステージII 72% (78/109例)、ステージIII 79% (26/33例)、ステージIV 77% (17/22例) と、早期ステージでも一定の検出能を示した (Table 1)。各がん種のAUCは膵がんの0.86から乳がん・胆管がん・大腸がん・胃がん・肺がん・卵巣がんでは0.93以上の範囲であり、ステージ別でも各ステージAUC≥0.92であった (Extended Data Fig. 9a, b)。

特徴量の寄与と断片化プロファイルの生物学的基盤:断片カバレッジのみを使用したモデルのAUCは0.94であり、全特徴量統合モデル (AUC=0.94) と同等であった。染色体アームコピー数の機械学習解析はAUC=0.88、個別スコアはAUC=0.78、ミトコンドリアDNAコピー数はAUC=0.72にとどまり (Fig. 4)、ゲノムワイド断片化プロファイルが予測精度の主要な寄与因子であることが示された。パイロット解析 (肺がん8例・健常者30例、約9×カバレッジ) では健常者cfDNA断片長中央値167.3 bp、肺がん163.8 bp (P<0.01、Welch’s t検定) と全体的な長さの差はわずかであったのに対し、位置依存的プロファイル異常の方が診断的情報量が高かった。健常者cfDNAの断片化プロファイルは健常リンパ球ヌクレオソームDNAパターンと高度に相関し (Fig. 2b)、隣接ヌクレオソーム間距離がHi-C (high-throughput chromosome conformation capture) 解析のopen/closed compartmentと対応することが確認された (Fig. 2c)。がん患者では腫瘍コピー数中立領域でも断片化プロファイル異常が存在し、コピー数変化領域で増強された (Fig. 3a)。がん種全体の解析で中央60以上のウィンドウに位置依存的異常が検出され (Fig. 3c)、データのサブサンプリング実験では0.5×カバレッジまで断片化異常が検出可能であることも確認された。

組織起源の推定と治療モニタリング:DELFI陽性ながん患者において断片化プロファイルから組織起源を推定したところ、単一部位への正確な推定精度61% (95% CI 53-67%)、上位2部位以内では75% (95% CI 69-81%) であり、全がん種で無作為割り当てを有意に上回った (P<0.01、二項検定、Extended Data Fig. 9c, d)。治療モニタリングでは抗EGFR/抗ERBB2療法中のNSCLC患者 (n=19) において断片化プロファイル異常の変動が変異アレル分画の変動とSpearman r=0.74 (n=19) で対応し (Extended Data Fig. 4)、治療反応・安定・進行に応じたリアルタイムモニタリングへの応用可能性が示唆された (Lam et al. JThoracOncol 2021)。

変異検出との組み合わせによる感度向上:126例を対象にDELFIと変異検出 (targeted sequencing) を独立して施行した結果、DELFI単独82% (103/126例、95% CI 74-88%)、変異検出単独66% (83/126例、95% CI 57-74%) であった。両手法の組み合わせでは91% (115/126例、95% CI 85-96%) の感度が特異度98%で達成された (Extended Data Fig. 10)。変異アレル分画が1%未満の症例でもDELFIは80%を検出し、targeted sequencingで検出不能であった症例を補完した。

考察/結論

本研究は、低カバレッジWGS (約1-2×) によるゲノムワイドcfDNA断片化プロファイリングという新規概念を確立し、単一の非個別化アッセイで7がん種の早期・進行病変をAUC 0.94で識別できることを示した。これまでの研究は腫瘍特異的変異検出または染色体コピー数変化の検出に依存し、いずれも腫瘍分画率や個別アッセイ設計という制約を抱えていた点と異なり、本法は数万〜数十万の断片からゲノムワイドなエピゲノム情報 (クロマチン構造由来のヌクレオソームポジショニング) を統合することで感度の制約を克服した。先行研究でcfDNA断片長の変化方向が一致していなかった理由が、全体的な長さではなく位置依存的プロファイルの変化こそが生物学的に意義ある情報を持つためであることを本研究で初めて系統的に実証したことは、既報と明確に相違する重要な知見である。

新規性の観点では、5 Mbウィンドウ504個にゲノムを分割した断片カバレッジパターンを機械学習で統合し、断片カバレッジ単独でAUC 0.94が達成できる点はSnyderらのヌクレオソームフットプリント概念を診断応用へ実装した新規な成果である。個別化パネル設計が不要であることから、本新規のアプローチは普及型スクリーニングアッセイとしての可能性を持つ。

臨床応用の観点では、ステージI-IIIで特異度95%・感度79%という性能は早期診断・治療介入機会の拡大への臨床的意義を持つ。変異検出との統合 (感度91%) は相補的なcfDNA情報源の組み合わせが検出能を大きく向上させることを実証しており、バイオマーカー主導型アプローチ (Moran et al. AnnOncol 2014) との連携など、bench-to-bedside の橋渡しとして機能しうる。

残された課題として、本研究は横断的・後ろ向きデザインであり独立した前向きコホートでの検証が不十分である点が limitation として残る。組織起源推定精度 (単一部位61%、上位2部位75%) のさらなる向上、クローナル造血 (clonal hematopoiesis) による断片化プロファイルへの影響の補正、PCRフリーライブラリによるGCバイアス低減も今後の検討課題として指摘されている。低カバレッジWGSを実施できる施設インフラの整備や解析パイプラインの標準化も普及に向けた future research として求められる。本手法はDNAメチル化解析や臨床情報との統合によりさらなる感度・精度向上が期待される。

方法

コホートは乳がん (n=54)、大腸がん (n=27)、肺がん (n=12)、卵巣がん (n=28)、膵がん (n=34)、胃がん (n=27)、胆管がん (n=26) の7がん種計208例と健常者215例から構成された (総n=423)。全がん患者は未治療かつ大部分が切除可能病変 (n=183) であり、診断時・腫瘍切除前に採取された血漿を使用した。試料はILSBio (a commercial biospecimen repository) およびBioreclamation、オーフス大学病院、コペンハーゲン大学ヘルレブ病院、ユトレヒト大学医療センター、アムステルダム大学医療センター、ネザーランズがん研究所、UCサンディエゴほか複数施設から倫理審査承認・インフォームドコンセントのもとに収集された。シーケンスデータはdbGaP (database of Genotypes and Phenotypes, study ID 34536) に寄託されている。

血漿cfDNAはQiagen Circulating Nucleic Acids Kitで抽出し、NEBNext (a library preparation kit from New England Biolabs) DNA Library Prep Kitを用いて独自改変法でシーケンスライブラリを調製した。Illumina HiSeq 2000/2500で100 bp paired-endシーケンスを実施し、本解析では1〜2×のゲノムカバレッジを使用した (パイロット解析では約9×)。hg19へのアライメントはELAND (Enhanced Large-scale Alignment of Nucleotide Data) で実施し、MAPQ (mapping quality) <30のリード対およびPCR重複を除去した後、ゲノムを5 Mbの非重複ウィンドウ504個に分割した (低マッピング性領域・Dukeブラックリスト領域を除く約2.6 Gbをカバー、全ゲノムの13%に相当する361 Mbを除外)。各ウィンドウ内の短鎖断片 (100〜150 bp) および長鎖断片 (151〜220 bp) のカバレッジを算出し、GCバイアス補正にLOESS (locally weighted scatterplot smoothing) を短鎖・長鎖それぞれ独立に適用した (span=0.75)。

機械学習モデルとしてgbm (gradient tree boosting; n.trees=150、interaction.depth=3、shrinkage=0.1、n.minobsinside=10) を採用した。特徴量はGC補正済みの短鎖・長鎖断片カバレッジ (504ウィンドウ×2)、染色体アーム別コピー数Zスコア (39アーム、50 kbのbinベース)、ミトコンドリアDNAコピー数 (log10変換) を含む。性能評価は10分割交差検証を10回反復して実施し、特徴量選択は各交差検証の訓練データのみを用いた。感度・特異度の信頼区間はブートストラップ2,000回で推定した (特異度98%および95%固定)。組織起源推定では90%特異度でDELFI陽性と判定された症例に対して別途gbmモデルを構築した。変異検出との統合解析では126例を対象に両手法を独立施行した。治療モニタリングとして抗EGFR/抗ERBB2療法を受けるNSCLC患者19例の複数時点血漿を解析した。統計解析はR 3.4.3を使用し、Wilcoxon rank-sum検定・Welch’s t検定・Spearman相関係数・二項検定を適宜適用した。