• 著者: Jacob J. Chabon, Emily G. Hamilton, David M. Kurtz, Mohammad S. Esfahani, Henning Ostergaard Jensen, Florent Mouliere, Adam Birkenkamp-Demtroder, Tina Kostoula, Jorge Alcaide, Aadel A. Chaudhuri, Ash A. Alizadeh, Maximilian Diehn
  • Corresponding author: Ash A. Alizadeh; Maximilian Diehn (Stanford University School of Medicine, Stanford, CA, USA)
  • 雑誌: Nature
  • 発行年: 2020
  • Epub日: 2020-03-25
  • Article種別: Original Article
  • PMID: 32269342

背景

肺がんは世界的に主要な死亡原因であり、早期発見が予後改善に不可欠である。低線量CT(LDCT)スクリーニングは高リスク集団において肺がん関連死亡率を低減することが示されているが、その実施には課題が多い。LDCTスクリーニングは偽陽性率が約90%と高く、不必要な侵襲的確認生検や放射線被曝のリスクを伴う。米国では、LDCTスクリーニング適格者のうち約95%がスクリーニングを受けていないという報告があり Jemal et al. JAMAOncol 2017、より簡便で非侵襲的なスクリーニング法の開発が強く求められている。

血漿中の細胞遊離DNA(cfDNA)を解析する液体生検は、非侵襲的ながん検出の有望なアプローチとして注目されている。特に、腫瘍由来のcfDNA(ctDNA)の検出は、早期がんの診断に役立つ可能性がある。しかし、早期非小細胞肺がん(NSCLC)、特にステージIの患者では、ctDNA濃度が極めて低い場合が多く、従来の変異検出アッセイでは感度が不十分であることが課題であった。例えば、ステージI NSCLC患者の50%、ステージIIの38%、ステージIIIの7%でctDNA濃度が0.01%未満であると報告されている Abbosh et al. Nature 2017。この低濃度が早期検出における感度不足の主要な原因であり、既存の技術ではこのギャップを埋めることができていなかった。

さらに、加齢に伴うクローナル造血(CH: clonal haematopoiesis)に由来する体細胞変異が血漿cfDNAから検出されることが、偽陽性の主要な原因となることが明らかになっている。本研究の先行解析では、NSCLC患者のcfDNA変異の58%、対照群の90%がCH由来であることが判明した。これらのCH由来変異は、腫瘍由来のctDNA変異と区別することが困難であり、診断の特異度を低下させる要因となっていた。このCH由来のノイズを効果的に除去する技術は未確立であり、特異度を損なうことなく早期肺がんを検出するための重要な課題として残されていた。

これまでの研究では、単一のゲノム特徴(例:体細胞変異)に焦点を当てたアプローチが多かったが、早期がんの検出には感度と特異度の両方を同時に向上させる必要があった。そのため、体細胞変異、コピー数変化(CNA: copy number alteration)、cfDNAの断片化パターンといった複数のゲノム特徴を統合し、さらにCH由来のシグナルを系統的に除去する機械学習モデルの開発が、非侵襲的な早期肺がんスクリーニングの実用化に向けた重要な課題として残されていた。特に、複数の特徴を組み合わせることで、低濃度のctDNAでも高精度に検出できるようなアプローチが不足していた。

目的

本研究の目的は、以下の3点である。(1) CAPP-Seq(cancer personalized profiling by deep sequencing)法を改良し、cfDNAの体細胞変異が腫瘍由来かクローナル造血(CH)由来かを高精度に区別する特徴を同定すること。(2) これらの特徴を統合した機械学習モデル「Lung-CLiP(lung cancer likelihood in plasma)」を開発し、CH由来の偽陽性シグナルを系統的に除去しつつ、早期NSCLCを高感度かつ高特異度で検出すること。(3) 開発したLung-CLiPモデルの外部妥当性を、独立した前向きコホートで検証し、非侵襲的な早期肺がんスクリーニングツールとしての臨床応用可能性を評価すること。最終的には、既存のLDCTスクリーニングの補完ツールとしてのLung-CLiPの位置づけを確立することを目指した。

結果

腫瘍情報依存型ctDNA検出率と臨床相関: 集団ベースパネルによるctDNA検出率は、85例中38例(45%)であった。患者特異的個別化パネル(腫瘍WESベース)を追加した17例では、10/17例(59%)でctDNAが検出され、中央値VAF(variant allele frequency)0.002%(最低2.9 × 10⁻⁶分子)という超低濃度まで検出可能であった。腫瘍情報依存型と個別化パネルを組み合わせた総合感度は、ステージIで42%、ステージIIで67%、ステージIIIで88%であった。検出限界(LOD: limit of detection)<0.01%が達成できた43例では、感度がステージIで64%、ステージIIで82%、ステージIIIで100%まで向上した(Fig. 1b)。ステージI、II、IIIの患者のそれぞれ50%、38%、7%でctDNAレベルが0.01%未満であった(Fig. 1c)。 ctDNAレベルは、ステージ(Fig. 1f)、代謝性腫瘍体積(MTV: metabolic tumor volume)(Fig. 1g, Spearman相関)、および腫瘍組織型(Fig. 1h)と関連することが判明した。これらのパラメータは多変量解析においてctDNAレベルと独立して関連していた。特に、前治療ctDNA高値(中央値0.0031%を閾値)は、ステージIのみの解析でも無再発生存(freedom from recurrence)と有意に相関し(HR 2.52, 95% CI 1.51-4.21, p=0.0004)、高ctDNAが微小転移の代理指標となる可能性が示唆された(Fig. 1i, j, k)。

クローナル造血の系統的同定と除去: NSCLC患者104例と対照98例の解析では、患者およびリスクマッチ対照ともに、低リスク対照よりも多くのcfDNA変異とCH変異(白血球DNAにも存在する変異: WBC+)を持つことが判明した(Fig. 2a)。全cfDNA変異の94.8%は個人特異的であり、対照のWBC+変異の48%は古典的CH遺伝子(DNMT3A、TET2、TP53、PPM1D、SF3B1など)以外の遺伝子に存在した(Fig. 2c)。患者の58%、対照の90%でcfDNA変異の大半がCH由来であり、患者の76%、対照の91%で最高VAF変異が白血球DNAにも存在した(Fig. 2d)。WBC+変異はVAFの81%が白血球DNAで1%未満であり、高感度ペアード解析が必須であることを示した。 変異スペクトルでは、CH由来(WBC+)変異が老化関連signature 1優位であったのに対し、腫瘍由来(WBC-)変異は喫煙関連signature 4優位であり(p<1×10⁻⁸)、これがCHと腫瘍ctDNAの鑑別の一助となることが示された(Fig. 2g)。フラグメントサイズでは、CH変異を含むcfDNA分子が非変異分子と同一の長さ分布を示したのに対し、腫瘍由来変異を含む分子は有意に短く(Kolmogorov-Smirnov検定)、変異とサイズの組み合わせが鑑別に有用であった(Fig. 2i)。この解析には、n=104 NSCLC patientsとn=98 control subjectsのcfDNAサンプルが用いられた。

Lung-CLiPの開発と性能: Lung-CLiPは、変異確率、CNA、断片化を統合したランダムフォレストモデルとして設計された(Fig. 3a)。特異度98%固定での感度は、トレーニングコホート(n=104 NSCLC patients, n=56 risk-matched controls)でステージI 41%、ステージII 54%、ステージIII 67%(全ステージ感度51%)であった(Fig. 3b)。特異度80%では、感度ステージI 63%、ステージII 69%、ステージIII 75%まで向上した(Fig. 3c)。Lung-CLiPは、腫瘍情報依存型CAPP-Seqとステージマッチ感度が統計的に同等であり(Fisher検定)、組織ゲノミクス情報なしで腫瘍情報依存型に匹敵する感度を達成した点が重要である(Fig. 3e)。Lung-CLiPスコアは腫瘍情報依存型ctDNAレベルと有意に相関し(Spearman相関)、Lung-CLiP陽性腫瘍は陰性腫瘍より有意にMTVが大きく、非腺癌組織型で陽性率が高かった(Fig. 3f, g, h)。

前向き独立コホートでの外部妥当性確認: マサチューセッツ総合病院から前向きに登録した検証コホート(46 NSCLC patients + 48 control subjects)では、トレーニングで設定した98%特異度閾値が検証対照で96%(95% CI: 89-100%; 46例中44例が陰性)を達成し(p=0.59、トレーニング対照98%との比較)、モデルが過適合なく外部検証された(Fig. 4b)。ステージ別AUCおよび感度は、トレーニングコホートと統計的に同等であった(Fig. 4a, b, c)。これは、同一コホート内クロスバリデーションではなく、独立施設・前向きコホートによる外部検証であり、先行研究に対する方法論的優位性を示した。MTVとLung-CLiPの検出感度との間には強い相関が認められ、MTVが1 mL、10 mL、>100 mLの腫瘍に対する感度はそれぞれ約16%(95% CI: 4-24%)、52%(95% CI: 32-72%)、80%(95% CI: 60-96%)であった(Fig. 4d)。例えば、MTVが10 mLの腫瘍では、検出感度は約52%であり、腫瘍体積が大きくなるにつれて感度が向上する傾向が示された。

考察/結論

先行研究との違い: 本研究は、先行するCAPP-Seq研究(例: Newman et al. 2016)に比べて、単一変異検出から多次元ゲノム特徴(変異、CNA、断片化)の統合へと進化させた点で対照的である。また、GRAILなどの多癌種スクリーニング研究と異なり、高リスクのNSCLCに特化し、リスクマッチ対照を用いた点が独創的である。これにより、未認識の交絡因子による分類結果のバイアスを低減できた。さらに、断片化情報をCH変異と腫瘍ctDNAの鑑別に活用するというアプローチは、これまでの報告と異なり、新規性がある。

新規性: 本研究で初めて、改良CAPP-Seqと機械学習モデルLung-CLiPを組み合わせることで、組織ゲノミクス情報なし(tumour-naive)で腫瘍情報依存型ctDNA解析に匹敵する早期NSCLC検出感度を達成した。特に、CH由来の偽陽性シグナルを系統的に除去する手法を確立し、変異スペクトルやcfDNA断片サイズがCHと腫瘍由来変異の鑑別に有用であることを新規に示した点は重要である。独立した前向きコホートでの外部妥当性確認は、モデルの過適合リスクを低減し、その堅牢性を本研究で初めて実証した。

臨床応用可能性: 米国ではLDCTスクリーニング適格者の約95%がスクリーニングを受けていない現状において、Lung-CLiPを初期スクリーニングとして陽性者をLDCTに誘導するハイブリッドアプローチが提案される。このアプローチにより、年間の肺がん死亡予防数が現状の約600人から最大12,000人相当まで拡大できる可能性があると著者らは試算している。また、高ctDNA前治療レベルがMTVやステージと独立して再発を予測した知見は、術前全身療法適応決定や手術後補助療法強化の指標への臨床応用可能性を示唆する。これは、患者の個別化された治療戦略に貢献し、臨床現場での意思決定を支援する可能性がある。

残された課題: 本研究にはいくつかのlimitationが存在する。第一に、Lung-CLiPの性能特性を完全に確立するためには、さらなる大規模コホートでの解析が必要である。第二に、トレーニングコホートの大半は偶発的に発見されたがん(LDCTスクリーニングで発見されたがんではない)であるため、実際の集団スクリーニングにおける臨床感度は異なる可能性があり、これは前向きに評価されるべき今後の検討課題である。第三に、本研究のコホートは主に喫煙者で構成されているため、非喫煙者における性能は未評価である。最後に、本研究の枠組みは、将来的に他の癌種へのCLiP法の発展や、マルチキャンサースクリーニングへの応用可能性を秘めているが、これらは今後の研究方向性として残されている。

方法

本研究は、AJCC v7ステージI〜IIIのNSCLC患者を対象とした多施設共同研究として実施された。

コホート構成: トレーニングコホートは、4施設(スタンフォード大学、MDアンダーソンがんセンター、メイヨークリニック、ヴァンダービルト大学)から登録された104例のNSCLC患者と、56例のリスクマッチ対照(LDCTスクリーニング実施成人; 年齢、性別、喫煙歴マッチ)、加えて42例の低リスク対照(血液ドナー)で構成された。腫瘍情報依存型コホートは85例であった。検証コホートは、マサチューセッツ総合病院から前向きに登録された46例のNSCLC患者と48例のリスクマッチ対照(2018年)で構成された。全てのサンプルはインフォームドコンセントを得て収集された。

サンプル処理とシーケンス: 全サンプルについて、改良CAPP-Seq(255遺伝子、355 kbパネル; 中央値シーケンス深度23,570× nominal/5,012× unique)を用いて腫瘍組織、血漿cfDNA、白血球DNAを解析した。cfDNAは2-6 mlの血漿から抽出され、中央値38 ngがライブラリ調製に投入された。白血球DNAは、cfDNA枯渇全血から抽出され、170 bpのターゲットサイズに断片化された。腫瘍DNAは、凍結生検またはFFPE生検サンプルから抽出された。ライブラリ調製には、デュプレックス分子バーコードとサンプルバーコードを分離した「FLEXアダプター」が使用され、エラー訂正機能が強化された。ハイブリダイゼーションキャプチャーには、ROS(reactive oxygen species)スカベンジャーであるハイポタウリンが5 mMの最終濃度で添加され、G>Tトランスバージョンなどの酸化損傷由来のアーチファクトが低減された。シーケンスはIllumina HiSeq4000で2 × 150-bpペアエンドリードで行われた。

データ解析と変異検出: FASTQファイルはカスタムパイプラインでデマルチプレックスされ、BWA ALN(Burrows-Wheeler Aligner)を用いてヒト参照ゲノム(hg19)にアラインメントされた Li et al. Bioinformatics 2009。分子バーコードを介したエラー抑制とバックグラウンドポリッシングが実施された。セレクターワイドSNV(single nucleotide variant)コールは、低アレル頻度変異検出に最適化されたカスタムアルゴリズムを用いて行われた。CH由来変異は、白血球DNAとの比較により系統的に除去された。具体的には、cfDNA変異がマッチした白血球DNAでバックグラウンドよりも有意に高い場合にWBC+と判定された。腫瘍組織における体細胞変異コールには、VarScan2、Mutect Cibulskis et al. NatBiotechnol 2013、Strelka Saunders et al. Bioinformatics 2012が使用され、2つ以上のコーラーでコールされた変異が採用された。

Lung-CLiPモデル開発: Lung-CLiPは、体細胞変異(SNV)確率、ゲノムワイドコピー数変化(CNA)、cfDNA断片化パターンを統合したランダムフォレストモデルとして設計された2段階機械学習フレームワークである。SNVモデルは、各変異のバックグラウンド頻度、cfDNA断片サイズ、関連遺伝子、CHの可能性などの生物学的・技術的特徴を活用し、変異が腫瘍由来である確率を推定した。CNAは、CAPP-Seqのオンターゲットおよびオフターゲットリードの両方を用いて同定された。これらのSNVモデルの結果とゲノムワイドCNAコールが、最終的な患者レベル分類器に統合され、血漿サンプルが肺がん由来cfDNAを含む可能性(Lung-CLiPスコア)を推定した。モデルのトレーニングは、トレーニングコホート内でネストされた患者レベルのleave-one-outクロスバリデーションフレームワークで行われた。

統計解析: 統計解析はR、MATLAB、GraphPadPrism7を用いて行われた。Wilcoxon順位和検定、Fisherの正確検定、Pearson相関、Spearman相関、Cox比例ハザードモデルなどが使用された。感度、特異度、AUC(area under the curve)の信頼区間は1,000回のブートストラップ再サンプリングにより生成された。