Generalizable AI predicts immunotherapy outcomes across cancers and treatments

著者: Wanxiang Shen, Intae Moon, Thinh H. Nguyen, Michelle M. Li, Yepeng Huang, Nitya Nair, Daniel Marbach, Marinka Zitnik
Corresponding author: Daniel Marbach (F. Hoffmann-La Roche), Marinka Zitnik (Harvard Medical School)
雑誌: Nature Medicine
発行年: 2026
Epub日: N/A
Article種別: Original Article (computational study)
DOI: 10.1038/s41591-026-04502-7

背景

免疫チェックポイント阻害薬 (ICI; immune checkpoint inhibitor) は多くの固形腫瘍で治療標準となったが、奏効患者は依然として少数であり、既存バイオマーカーの予測精度には根本的な限界がある。腫瘍変異負荷 (TMB; tumor mutational burden) は一部のがん種でネオアンチゲン増加の代替指標として機能するが、TMB 高値でも奏効しない症例が多く、低値でも奏効する症例が存在することが示されている (Havel et al., 2019)。PD-L1 IHC スコアも同様に単独では奏効を正確に層別化できず、27,810 例の pan-cancer 解析でも PD-L1・CD8 T 細胞・TMB と奏効の関連は複数がん種にわたって一貫しないことが明らかになっている (Hsiehchen et al., 2024)。腫瘍免疫微小環境 (TIME; tumor immune microenvironment) の機能的状態が奏効の鍵を握るとされながらも、その複雑な相互作用を単一バイオマーカーで捉えることは未解明な問題として残されてきた (Topalian et al., 2016)。

転写産物解析に基づく既存の予測モデルも汎化性に課題を残してきた。腫瘍免疫機能障害・除外スコア TIDE (Tumor Immune Dysfunction and Exclusion Score) や免疫予測スコア IMPRES (Immuno-Predictive Score) は単一がん種・固定シグネチャへの依存が強く、複数がん種横断での予測精度は不安定である。T 細胞炎症型遺伝子発現プロファイル (GEP; gene expression profile) スコアや IFNγ 関連 mRNA シグネチャも解釈可能性を提供するが、がん種・薬剤をまたぐ汎化性はいまだ確立されていない (Ayers et al. JClinInvest 2017)。グラフ型・ネットワーク型の学習モデルも開発されてきたが (Newell et al. CancerCell 2022)、多くはがん種特異的であるか固定の遺伝子相互作用マップを用いる。複数がん種・複数 ICI 薬剤に汎化し、生物学的解釈可能性を保ちつつ個別患者の耐性機構を可視化できる汎用フレームワークが手薄であった。

目的

バルク腫瘍転写産物から ICI 奏効を予測するコンセプトボトルネック型 pan-cancer ファウンデーションモデル COMPASS (Concept-Based Pan-Cancer Immunotherapy Response Assessment System) を開発し、7 がん種・6 ICI 薬剤・16 コホートにわたる汎化性能の評価、および個別患者の応答マップを通じた耐性機構の解釈可能性の実証を目的とした。

結果

COMPASSアーキテクチャ：コンセプトボトルネック型 pan-cancer ファウンデーションモデルの設計

COMPASS は 3 層構造からなる。第 1 層は Transformer 型の遺伝子言語モデル (GLM; gene language model) であり、15,672 個のタンパク質コード遺伝子の発現プロファイルをコンテキスト依存的な表現に変換する。第 2 層はコンセプトボトルネック型の階層的プロジェクターであり、文献由来の 132 個の遺伝子セット (免疫細胞種・機能状態・シグナル経路・間質プログラムを網羅) を 43 個の高次 TIME コンセプトに統合する。第 3 層は応答分類器であり、コンセプト表現のみを入力として奏効確率を出力する。がん種トークンを 1 次元追加した 44 次元の患者埋め込みが最終的な TIME 表現となる。事前学習はThe Cancer Genome Atlas (TCGA) 33 がん種 10,184 例の bulk RNA シークエンシング (RNA-seq; RNA sequencing) データを用いたトリプレット対照学習で実施し、同一腫瘍の拡張バージョン(アンカー・ポジティブ)をコンセプト空間で近接させ異なる腫瘍(ネガティブ)から離反させた。転写産物は Genomic Data Commons (GDC) Portal v37 の GRCh38/hg38 参照ゲノムと GENCODE v36 アノテーションを用いて処理し、転写産物 100 万あたりのリード数 (TPM; transcripts per million) に変換した (Fig. 1)。

22手法を凌駕するstate-of-the-art性能：16コホート横断評価

評価には 7 がん種 (膀胱癌 BLCA、腎細胞癌 KIRC、皮膚黒色腫 SKCM、肺腺癌 LUAD、胃腺癌 STAD、神経膠芽腫 GBM、肺扁平上皮癌 LUSC) にわたる 16 コホート計 1,133 例 (奏効 n=346, 30.5%; 非奏効 n=787, 69.5%) を使用し、RECIST (Response Evaluation Criteria in Solid Tumors) v1.1 に基づく奏効定義を統一した。COMPASS は単一遺伝子マーカー・免疫シグネチャスコア・ネットワーク/機械学習モデルを含む 22 手法と比較された。Leave-one-cohort-out 評価では、部分的ファインチューニング (COMPASS-PFT; partial fine-tuning) と線形プロービング (COMPASS-LFT; linear probing fine-tuning) が最も高い性能を発揮し、第 2 位の手法に対して平均精度 +8.5%・精度再現率曲線下面積 (AUPRC; area under the precision-recall curve) +15.7%・マシューズ相関係数 (MCC; Matthews correlation coefficient) +12.3% の改善を示した。コホート間転移評価 (240 ペア評価) では COMPASS-LFT が 163/240 件で成功転移を達成し、次点の PGM (130/240) および Teff (118/240) を大幅に上回った (Fig. 2c,d,g,h)。

がん種横断汎化性能：治療薬・免疫チェックポイント標的をまたぐ適用性

がん種横断汎化では、LUAD を訓練から除外して評価した際に COMPASS-PFT は 76.5% の精度を達成した。抗 PD-1/PD-L1 コホートのみで訓練したモデルを抗 CTLA-4 治療コホートに適用した場合の精度は 70.8% に達し、共通する免疫応答機構の存在を示唆した (Supplementary Table 5)。単剤療法コホートのみで訓練したモデルをイピリムマブ＋ペンブロリズマブ併用療法コホートに適用した場合の精度は 85.3% であり、治療レジメン間の免疫応答の共通性が確認された (Fig. 3b)。技術的因子 (シークエンシングプラットフォーム・生検部位) に対する安定性も確認され、シグネチャベース手法が示すような platform 依存性を COMPASS は示さなかった。

多段階ファインチューニング (MSFT)：薬剤特異的モデルの逐次学習による最適化

MSFT (multi-stage fine-tuning) は TCGA 事前学習 → pan-cancer ICI コホートでの粗調整 → 薬剤/疾患特異的コホートでの精密調整という逐次学習戦略である。アテゾリズマブ (anti-PD-L1) の KIRC コホート (n=176) での評価では、MSFT が 73.7% の精度を達成し、薬剤特異的コホートのみで訓練した SSFT1 (single-stage fine-tuning type 1; 薬剤特異的単段階学習) の 70.3%、pan-cancer データのみで調整した SSFT2 (single-stage fine-tuning type 2; pan-cancer 単段階学習) の 60.7% を上回った (Fig. 4b)。LUAD でのペンブロリズマブ特異的モデルでは MSFT が 91% の精度を達成し、SSFT1 の 67% と比較して大幅な改善を示した。これは小規模治療特異的データでの過適合を多段階学習が防ぐことを示す。

個別耐性機構と生存予測：TIME コンセプトによる患者別奏効マップ解析

IMvigor210 コホート (アテゾリズマブ治療転移性尿路上皮癌 phase 2 試験、n=298) をホールドアウト評価セットとして、Leave-one-cohort-out で訓練した COMPASS-PFT モデルを適用した。奏効確率 (PR) ≥0.5 の患者は 1 年生存率 86% を示したのに対し、PR <0.5 の患者では 40% にとどまり、ハザード比 (HR) は 4.7 (log-rank P = 1.7×10⁻⁷) であった。TMB データ利用可能な n=234 例での比較では、COMPASS (HR = 4.37, 95% CI: 2.29-8.32, P = 1.0×10⁻⁶) が TMB (HR = 1.67, P = 0.0038)、PD-L1 IC2+ スコア (HR = 1.75, P = 0.0018)、IHC 免疫表現型 (HR = 1.85, P = 0.0042) を大幅に上回った (Fig. 5a-d)。Brier スコアは COMPASS 0.212 対 TMB 0.241 であり良好なキャリブレーションも確認された。TIME コンセプト解析では、炎症型腫瘍は Cytotoxic T Cell・IFNγ Pathway・Macrophage・Immune Checkpoint の高活性を示し、除外型腫瘍は TGFβ Pathway・Endothelial コンセプトの活性化が特徴的であった。炎症型非奏効者は TGFβ シグナリング、血管内皮コンセプトによる物理的排除、CD4 T 細胞功能障害・B 細胞欠乏の 3 パターンのクラスターに分類された (Fig. 5f)。患者個別応答マップは遺伝子発現から TIME コンセプトを経て奏効確率に至る情報伝播を 5 階層で可視化し、炎症型奏効者 (PR=1.0) では IFNγ・細胞傷害性 T 細胞コンセプトの広範な活性化が確認され、炎症型非奏効者 (PR=0.22) では TGFβ シグナリングと B 細胞欠乏の共活性化が観察された (Fig. 6)。

考察/結論

Ayers et al. JClinInvest 2017 が示した GEP スコアや Jiang et al. の TIDE など、先行研究が単一免疫シグネチャや固定スコアに基づく手法を構築してきたのと対照的に、COMPASS はコンセプトボトルネックアーキテクチャを通じて転写産物を 44 次元の生物学的コンセプト空間にマッピングし、固定シグネチャではなく学習された腫瘍免疫表現を通じた汎化を実現した。さらに Newell et al. CancerCell 2022 らのマルチオミクスアプローチが個別コホートでの耐性同定に注力したのと対照的に、COMPASS は単一の事前学習済みモデルで 7 がん種・6 薬剤にわたる汎化的予測と個別解釈を同時に達成した。

本研究で初めてコンセプトボトルネック型のファウンデーションモデルを pan-cancer 免疫療法奏効予測に適用し、44 次元 TIME コンセプト表現が従来手法を凌駕する予測性能と解釈可能性を両立させることを示した。特に、従来の免疫表現型分類 (炎症型・除外型・砂漠型) では適切に処理できなかった「炎症型非奏効者」を機能的免疫状態によって識別し、TGFβ 駆動抑制・血管内皮排除・CD4/B 細胞機能障害という異なる耐性経路を解明したことは新規の知見である。

臨床応用として、COMPASS の奏効マップは試験デザインにおける患者エンリッチメントや薬力学的変化のトラッキングに利用できる。MSFT による薬剤特異的モデルの構築は、初期相試験での限られたデータからでも高精度な適応予測を可能にし、臨床的意義は大きい。Clinical Transformer 予測器への COMPASS コンセプトスコア統合により生存予測精度が向上することも確認された。

今後の課題として、バルク RNA-seq の空間分解能不足により稀少免疫細胞集団からのシグナルが見落とされる可能性があり、単細胞・空間転写産物解析との統合が次のステップとなる。年齢・性別・腫瘍病期などの臨床的共変量の非調整および非 ICI 比較アームの欠如により、COMPASS の予測は予後的・予測的効果の混在を反映している可能性がある。prospective な検証試験による定義が必要であり、現時点では探索的ツールとして位置付けられる。limitation として、コンセプト説明忠実性の評価 (アブレーション・入力摂動) や学習コンセプトの実験的検証が未実施であり、仮説生成ツールとしての使用に留まる。

方法

計算科学研究であり新規患者データは収集していない。匿名化データを使用し、IRB 承認不要。

データセット: TCGA 33 がん種 60,660 遺伝子 10,534 例 (前治療除外・非 FFPE サンプル除外・患者レベル集計後 10,184 例) を事前学習に使用。ICI 臨床コホートは 16 コホート 1,133 例 (大規模 4 コホート n>100: IMvigor210, IMmotion150, Ravi-1, Liu; 中規模 6 コホート n=30-100: Freeman, Van Allen, Kim, Riaz, Gide, Rose; 小規模 6 コホート n<30: Choueiri, Miao, Snyder, Zhao, Ravi-2, Hugo)。いずれも前治療サンプルのみ。奏効 = PR/CR、非奏効 = SD/PD per RECIST v1.1。RNA-seq は STAR v2.7.5c で GRCh38/hg38 にアライン、GENCODE v36 アノテーション、TPM 正規化。

モデル: Transformer 型 GLM (Performer アーキテクチャで線形近似 Attention) → 132 遺伝子セットへの階層的プロジェクター → 単層 MLP または Prototypical Network 分類器。事前学習は NVIDIA Tesla A100 80GB GPU、バッチサイズ 128、学習率 1×10⁻³、Adam optimizer。ファインチューニングは V100 GPU。4 戦略: COMPASS-NFT (0 パラメータ)、COMPASS-LFT (182 パラメータ)、COMPASS-PFT (2,144 パラメータ)、COMPASS-FFT (約 1,018,784 パラメータ)。

評価: Leave-one-cohort-out、コホート間転移 (240 ペア)、within-cohort LOOCV。評価指標: accuracy (閾値 0.5 固定)・AUPRC・MCC。生存解析: lifelines v0.27.8、log-rank test、Kaplan-Meier。SHAP 解析: shap v0.46.0、Kernel SHAP。コード: GitHub (https://github.com/mims-harvard/COMPASS)、インタラクティブ予測サーバー (https://www.immuno-compass.com/predict)。

Research Wiki

エクスプローラー

Generalizable AI predicts immunotherapy outcomes across cancers and treatments

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク