Clinical validation of a targeted methylation-based multi-cancer early detection test using an independent validation set

著者: Eric A. Klein, Minetta C. Liu, Mark A. Reder, Christoph Isaacs, Francis Schleicher ほか (CCGA Consortium)
Corresponding author: Eric A. Klein (Glickman Urological and Kidney Institute, Cleveland Clinic, Cleveland, OH)
雑誌: Annals of Oncology
発行年: 2021
Epub日: 2021-07-28
Article種別: Original Article
PMID: 34176681

背景

癌は世界的な主要死因であり、ステージIVに達する前に発見されれば癌関連死亡を15%以上削減できると推定されている Bettegowda et al. SciTranslMed 2014。現在、米国では乳癌・大腸癌・子宮頸癌・肺癌・前立腺癌の5癌種に対するスクリーニング検査が利用可能であるが、これらは50〜79歳の年間癌罹患数の42%しかカバーしない。さらに既存スクリーニングは単一癌種のみを標的とし、偽陽性率が高く (乳癌マンモグラフィ 9〜14.5%、肺癌低線量CT 約96%)、累積偽陽性率や医療コストの問題も指摘されている。これらの課題により、既存のスクリーニング戦略では、多くの癌種における早期発見の機会が不足しているのが現状である。

多癌早期検出 (MCED) 検査は、血液中のcell-free DNA (cfDNA) のメチル化シグナルを機械学習で解析することにより、多数の癌種を1回の採血で検出するアプローチである。このアプローチは、従来の単一癌種スクリーニングでは検出が困難であった癌種、特に早期発見が予後改善に大きく寄与する膵癌や卵巣癌などにおいて、未充足の医療ニーズを満たす可能性を秘めている。循環細胞フリーゲノムアトラス (CCGA) 試験は計15,254例を登録した前向き多施設ケースコントロール研究であり、3つのサブスタディに分けられた: (i) 全ゲノム亜硫酸塩シーケンシング (WGBS) が最も優れた手法と同定されたサブスタディ1 (発見)、(ii) 標的メチル化アッセイと機械学習分類器の訓練・検証を行ったサブスタディ2 (Liu et al. AnnOncol 2020、特異度99.3%・CSO精度93.3%)、そして (iii) 本報告のサブスタディ3 (最終臨床検証)。サブスタディ2と本サブスタディ3の違いは、アルゴリズムがスクリーニング実装に向けてさらに精緻化されている点にあり: 造血系偽陽性シグナルの特異度補正、新CSO分類「神経内分泌腫瘍 (肺または他臓器由来)」の追加、不確定CSO分類の廃止 (全陽性例にCSO予測を付与) の3点が改善されている。サブスタディ3では、サブスタディ1・2に参加した患者とは完全に独立した検証セットのみを使用したため、その結果の信頼性は高いと考えられる。しかし、これらのMCED検査が実臨床において既存のスクリーニング検査を補完し、癌関連死亡率の低下に寄与するかどうかは、大規模な独立検証コホートでの詳細な性能評価が未解明な課題として残されていた。特に、高い特異度を維持しつつ、多様な癌種における早期ステージでの検出感度と癌シグナル起源 (CSO) 予測精度を検証することが不足していた。また、cfDNAの断片化パターンを用いた癌検出に関する研究も進められているが Cristiano et al. Nature 2019、メチル化シグナルに特化した本研究のアプローチは、異なる生物学的基盤に基づいている点で対照的である。

目的

CCGA試験のサブスタディ3として、スクリーニング用途に最終精緻化された標的メチル化ベースMCED検査 (Galleriテスト) の臨床的性能 (特異度・感度・CSO予測精度) を独立した大規模検証コホートで確認し、その実用性と実装可能性を評価することである。具体的には、本検査が既存の単一癌種スクリーニングを補完し、特にスクリーニングが困難な癌種において早期発見に貢献できるか否かを検証することを目的とした。また、年齢層別の性能や、癌の診断方法（スクリーニングによる発見か臨床症状による発見か）による感度の違いも評価し、MCED検査の最適な適用対象を特定することも目的の一つであった。

結果

特異度と偽陽性率: 非癌群1,254例中1,248例が真陰性であり、特異度は99.5% (95%CI 99.0〜99.8%) であった。偽陽性率は0.5%であり、1,000人のスクリーニングで約5人のみが偽陽性となる計算である (Figure 3A)。これは既存の推奨スクリーニング検査 (マンモグラフィ偽陽性率9〜14.5%、低線量CT偽陽性率約96%) と比較して著しく低く、不必要な診断ワークアップを大幅に削減できることを意味する。サブスタディ2 (99.3%) とほぼ同等であり、アルゴリズムの汎化性能の高さが独立コホートで確認された。非癌参加者 n=1,254 individuals のうち、偽陽性であったのはわずか n=6 individuals であった。

全体感度とステージ別感度: 全癌群2,823例における全体感度は51.5% (95%CI 49.6〜53.3%、1,453/2,823例が陽性) であった。ステージ別感度は、ステージI 16.8% (95%CI 14.5〜19.5%)、ステージII 40.4% (95%CI 36.8〜44.1%)、ステージIII 77.0% (95%CI 73.4〜80.3%)、ステージIV 90.1% (95%CI 87.5〜92.2%) と、ステージ進行に伴い顕著に上昇した (Table 2)。ステージI-III全体の感度は40.7% (95%CI 38.7〜42.9%)、ステージI-IIは27.5%であった。癌シグナルは50種以上のAJCC癌タイプで検出された。この結果は、MCED検査が多様な癌種に対して検出能力を持つことを示唆している。

事前規定12癌種グループの感度: 年間癌死亡の2/3を占める12癌種グループ (肛門癌・膀胱癌・大腸癌・食道癌・頭頸部癌・肝胆道癌・肺癌・リンパ腫・卵巣癌・膵癌・形質細胞腫・胃癌) でのステージI-III感度は67.6% (95%CI 64.4〜70.6%)、ステージI-IV感度は76.3% (95%CI 74.0〜78.5%) であり、サブスタディ2の67.3%と一致した (Figure 3C)。これらは現行スクリーニングが存在しない癌種 (膵癌・卵巣癌・頭頸部癌等) を多く含んでおり、未充足のスクリーニングニーズに応える可能性が高いことが示唆された。特に、膵癌はステージIで n=12 individuals のうち感度10.0% (95%CI 1.2-31.7%)、ステージIVで n=128 individuals のうち感度93.8% (95%CI 88.0-97.3%) を示した。

サブグループ解析: スクリーニング検査で発見された癌 (乳癌・子宮頸癌・大腸癌・肺癌・前立腺癌) の感度は18.0% (95%CI 15.5〜20.8%) と低かったが、これは早期ステージの前立腺癌・乳癌が多いことに起因すると考えられる。一方、現行スクリーニングが存在しない固形腫瘍の感度は65.6% (95%CI 63.0〜68.1%) と、スクリーニング有り固形腫瘍の33.7% (95%CI 31.1〜36.5%) の約2倍であった。血液悪性腫瘍の感度は55.1% (95%CI 49.3〜60.8%) であった。年齢層別 (<50歳・50歳以上・65歳以上) での特異度・感度・CSO予測精度は類似しており、高齢者特有の過剰な偽陽性増加は認められなかった。例えば、50歳以上の群では n=3,288 individuals が含まれ、特異度は99.5% (95%CI 98.8-99.8%) であった。

CSO (cancer signal origin) 予測精度: 真陽性例中のCSO予測精度は88.7% (95%CI 87.0〜90.2%) であった (Figure 4)。これはサブスタディ2の93.3%よりも低いが、サブスタディ3では不確定CSO分類を廃止し、全陽性例にCSO予測を付与する仕様に変更されたためである。HPV関連癌 (子宮頸癌と肛門癌) 間など、生物学的に近縁な癌種間での誤分類が発生した。CSO予測が誤っていた場合でも残余PPVは8.0% (95%CI 4.2〜29.7%) であり、現行スクリーニング検査の乳癌・大腸癌のPPVの2倍以上に相当することから、不正確なCSO予測であっても精密検査を実施する価値があることが示唆された。

外挿PPV・NPV: SEER癌罹患データ (50〜79歳) で外挿した場合、癌シグナル検出のPPVは44.4% (95%CI 28.6〜79.9%)、NPVは99.4% (95%CI 99.4〜99.5%) であった。このPPVは現行推奨スクリーニング検査 (乳癌マンモグラフィ・大腸癌便潜血検査等) のPPVを上回り、高特異度設計の恩恵が示された。

考察/結論

先行研究との違い: CCGA試験は3つのサブスタディを通じて、全ゲノムから標的メチル化パネルへの最適化、サブスタディ2での機械学習モデル訓練、そして本サブスタディ3での真の独立検証という段階的設計を採用した点で方法論的厳密性が高い。先行MCED研究であるCancerSeek (Cohen et al., Science 2018) がタンパク質マーカーとctDNA変異を組み合わせた多analyte検査で感度69%・特異度99%を示したのに対し、本アッセイはメチル化のみで類似の性能を達成した点で異なる。また、単一癌種スクリーニング (乳癌マンモグラフィ感度77〜87%・特異度83〜91%、大腸癌便潜血検査感度74%・特異度95%) と異なり、本MCEDは50種以上の癌種を単一検査でカバーできる点が根本的な差異である。

新規性: 本研究で初めて、スクリーニング用途に精緻化された標的メチル化ベースMCED検査 (Galleriテスト) が、完全に独立した大規模検証コホートにおいて、99.5%という高い特異度と、ステージI-IIIの12事前規定癌種で67.6%の感度、そして88.7%のCSO予測精度を示すことを実証した。これは、これまで報告されていない、多癌種スクリーニングにおける高特異度と広範な癌種カバー率の両立を可能にする新規なアプローチである。

臨床応用可能性: Galleriテストは2021年に米国で商業展開され、本試験結果をもとにFDAへの承認申請が進められている。実臨床応用の評価試験として、PATHFINDER試験 (NCT04241796、n=6,662例、陽性例での診断解決までの時間を評価) および英国NHSとのNHS-GALLERI試験 (140,000例規模の大規模RCT、癌死亡率低下を主要エンドポイント) が進行中である。本MCEDは既存のスクリーニングを置き換えるのではなく補完するものと位置付けられ、特に現行スクリーニングが存在しない癌種 (膵癌・卵巣癌・肝胆道癌等) での早期発見に最大の貢献が期待される。高いPPV (44.4%) とNPV (99.4%) は、実臨床現場での有用性を示唆する。

残された課題: 第一に、CCGA試験はケースコントロールデザインであり、癌群では生検後のサンプル採取により血中cfDNA濃度が生検前より高い可能性があるというlimitationがある。第二に、スクリーニング集団では癌の事前確率が低いため、ケースコントロール集団で得た性能指標をそのまま実集団に適用できない。第三に、ステージI感度が16.8%と依然低く、最も治療効果が高い段階での検出には限界がある。第四に、CHIP (clonal hematopoiesis of indeterminate potential) や免疫調節治療 (PD-1抗体等) による偽陽性への影響評価が必要である。第五に、癌死亡率低下という臨床的真エンドポイントの証明には無作為化比較試験が必要であり、その結果は5〜10年後となる。費用対効果の評価も不可欠な課題として残されている。今後の検討課題として、これらの限界を克服するための大規模前向きコホート研究や、特定の高リスク集団における本検査の有効性を評価する研究が挙げられる。

方法

試験デザイン: CCGA試験 (NCT02889978) のサブスタディ3として事前規定された大規模検証研究である。北米142施設で2016年8月〜2019年2月に登録された。独立検証セットの適格参加者5,309例のうち、確定ステータス解析セットとして4,077例 (癌群n=2,823例・非癌群n=1,254例) を解析対象とした。非癌参加者は1年後追跡で非癌ステータスを確認済みであった。本研究は、各参加施設の治験審査委員会または独立倫理委員会によって承認され、ヘルシンキ宣言およびICH-GCPガイドラインに従って実施された。

参加者: 20歳以上の成人を対象とした。癌群の参加者は、癌と診断された個人、および既知または高度に疑われる悪性腫瘍の生検または外科的切除が予定されている個人を含んだ。研究採血前に化学療法、放射線療法、確定的な局所療法、または診断確定以上の広範な手術を受けた個人は不適格とされた。非癌参加者は、交絡因子を制御するために参加施設から登録された。

アッセイと分類器: 血漿cfDNA (最大75 ng) をカスタム亜硫酸水素塩変換処理し、標的メチル化パネル (100万以上のCpGサイト) でハイブリダイゼーションキャプチャーし、Illumina NovaSeqで150-bp paired-endシーケンシングを行った。分類器は17,339サンプル (CCGAサブスタディ1・2由来12,185サンプル + STRIVE試験由来4,891サンプル + 市販サンプル263例を含む6,383名由来) で訓練し、特異度ターゲット99.4%に固定した。分類器パラメータは訓練完了後に固定し、独立検証セットに適用された。分類器には、スクリーニング用途での性能向上のため、3つの主要な変更が加えられた: (i) 非癌個体における一般的な非悪性血液疾患に起因する癌様シグナルを考慮した特異度閾値の調整、(ii) 新しいCSOクラス「神経内分泌腫瘍 (肺または他臓器由来)」の追加によるCSOの精緻化、(iii) 不確定CSO分類の廃止と、すべての陽性検体に対するCSO予測の付与。

主要評価項目: 特異度 (非癌群中の真陰性割合)・感度 (全癌群および事前規定グループ別)・CSO (cancer signal origin) 予測精度 (真陽性例中の正確なCSO予測割合)。事前規定の12癌種グループ (肛門癌・膀胱癌・大腸癌・食道癌・頭頸部癌・肝胆道癌・肺癌・リンパ腫・卵巣癌・膵癌・形質細胞腫・胃癌) は米国の年間癌死亡の約2/3を占める癌種であり、これらの癌種における性能は特に注目された。

探索的評価: SEER癌罹患データ (50〜79歳) に基づく陽性予測値 (PPV) と陰性予測値 (NPV) の外挿を行った。また、AJCC癌タイプ別の検査陽性率も評価された。

統計解析: 記述統計量を用いて人口統計学的特性およびベースライン特性を報告した。カテゴリカル変数については、各カテゴリの参加者数と割合を算出し、連続変数については、参加者総数 (n)、平均、標準偏差 (SD) または標準誤差 (SE)、中央値、第1四分位 (Q1)、第3四分位 (Q3)、最小値、最大値を算出した。感度、特異度、CSO予測の全体精度などの検査性能指標の95%信頼区間 (CI) は、Wilson (スコア) 法を用いて算出された。正式な統計検定は実施されなかった。すべての解析はRソフトウェア、バージョン3.6以上を用いて実施された。

Research Wiki

エクスプローラー

Clinical validation of a targeted methylation-based multi-cancer early detection test using an independent validation set

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク