Deep Learning of CT Imaging Predicts PD-L1 Expression and Immunotherapy Response in Metastatic NSCLC: A Multi-Center Study

著者: Amgad Muneer, Eman Showkatian, Maliazurina B. Saad, Lingzhi Hong, Shenduo Li, Morteza Salehjahromi, Muhammad Aminu ほか (Jianjun Zhang, John V. Heymach, Jia Wu)
Corresponding author: Jia Wu (Department of Imaging Physics / Thoracic Head and Neck Medical Oncology, MD Anderson Cancer Center, Houston, TX, USA)
雑誌: Cancer Letters
発行年: 2026
Epub日: 2026-06-18
Article種別: Original Article
PMID: 42314966

背景

免疫チェックポイント阻害薬 (ICI; immune checkpoint inhibitor) は PD-1 / PD-L1 / CTLA-4 を標的に進行非小細胞肺癌 (NSCLC; non-small cell lung cancer) の治療を一変させたが、その恩恵を受けるのは患者の一部に限られ、未選択集団での奏効率は平均およそ 20% にとどまる。現状で FDA 承認された唯一のバイオマーカーは腫瘍組織の PD-L1 発現 (immunohistochemistry; IHC) だが、侵襲的な生検を要し、腫瘍の空間的不均一性と免疫発現の動的変化に起因するサンプリングバイアスを免れない。すなわち「1 回の生検が腫瘍全体・経時変化を代表できない」という構造的限界が、患者選択の精度を頭打ちにしている。

これに対し、ルーチンの放射線画像から PD-L1 発現を非侵襲的に推定する radiomics (放射線画像特徴量解析) / radiogenomics 研究が先行して行われてきた。Aerts ら (Nat Commun 2014) の radiomics による腫瘍表現型デコード、Sun ら (Lancet Oncol 2018) の CD8 浸潤・抗 PD-1/PD-L1 応答の imaging biomarker、Mu ら (J Immunother Cancer 2021) の PET/CT 深層学習、Tian ら (Theranostics 2021) の CT 深層学習、Zhu ら (Ann Transl Med 2020) の CT deep neural network、Monaco ら (Eur J Nucl Med Mol Imaging 2022) の FDG-PET/CT「digital biopsy」などがその実現可能性を示した。しかしこれら先行研究の多くは手作業の handcrafted features や限られた単施設データに依存し、再現性が低く撮像プロトコルの変動に脆弱で、大規模な実臨床・前向き集団での精度向上と臨床検証が未開拓のまま残されていた。すなわち、複数の生検部位・スキャナベンダ・スライス厚をまたいだ汎化性能の検証、組織 IHC との相補性の定量化、そして治療中の経時的な PD-L1 変動を画像で追跡できるかという「virtual biopsy」としての価値の検討が決定的に不足しており、ここに本研究が埋めるべき知見のギャップ (gap in knowledge) が存在していた。画像 AI の臨床橋渡しという文脈は組織病理側でも進展しているが (Liang et al. CancerCell 2026)、CT 側での大規模・多施設・経時的検証は依然として未解明のまま残されていた。

目的

本研究の目的は、ルーチンの胸部 CT スキャンから PD-L1 発現を推定する ensemble 深層学習フレームワーク SCENT (Scalable Ensemble Transformer; スケーラブルアンサンブルトランスフォーマー) を開発し、多施設・実臨床データセットでその臨床的価値を評価することである。具体的には、(i) SCENT が組織由来 PD-L1 status (≥50% vs <50%) を非侵襲的に分類できるか、(ii) clinical model / 従来 radiomics model を上回るか、(iii) SCENT 由来 PD-L1 が ICI 治療下の無増悪生存期間 (PFS; progression-free survival) と全生存期間 (OS; overall survival) を組織 IHC と同等に層別化できるか、(iv) 組織 IHC と組み合わせた際に相補的な予後情報をもたらすか、を検証する。さらに探索的に、第 III 相無作為化 LONESTAR 試験 (進行 NSCLC を対象に局所根治療法を評価する MD Anderson 主導の前向き臨床試験) の連続 CT を用いて、SCENT を導入免疫療法中の PD-L1 変動を捉える「virtual biopsy」として使えるかを評価し、画像サロゲートモデルの動的バイオマーカーとしての可能性を検討することを目指した。

結果

MDACC コホートでの PD-L1 分類精度：SCENT は MDACC 保留テストサンプルにおいて、PD-L1 高発現 (≥50%) vs 低発現 (<50%) の二値分類で特異度 83.9%・感度 85.3%・AUC 0.84 (95% CI 0.799 to 0.882) を達成し、clinical model および従来 radiomics model を一貫して上回った (Fig 2a, Table 2)。Table 2 では SCENT 単独が精度 84.38%・balanced accuracy 84.62%・AUC 0.8363 (95% CI 0.785-0.887) で、clinical model (AUC 0.524)・radiomics model (AUC 0.599) を DeLong 検定 p < 0.001 で凌駕した。SCENT は肝・骨を含む解剖学的に異なる転移部位の生検でも一貫して高精度を維持した (Fig 2c)。

外部検証コホートでの汎化性能：独立した Mayo Clinic コホート (n=72) で AUC 0.80、第 III 相 LONESTAR 試験コホート (n=116) で AUC 0.78 を達成し、SCENT の再現性が確認された (Fig 2d, Fig 7b-d)。LONESTAR の AUC がやや低い点は、dual immunotherapy 集団・PD-L1 高発現割合の低さ・撮像プロトコル差に起因する dataset shift を反映する可能性がある。技術因子別のサブグループ解析では、スキャナベンダ別に GE 0.85・Siemens 0.82・その他 0.78、スライス厚別に ≤1.25 mm で 0.74・1.5-2.5 mm で 0.87・2.8-3.75 mm で 0.84・>3.75 mm で 0.79 と、撮像設定の異質性をまたいで頑健性を保った (Suppl Fig S3)。

Ablation 研究とアーキテクチャの優位性：空間コンテキスト (腫瘍内・局所・大域) と次元 (2D・2.5D・3D) を分離した ablation 版に対し、統合 SCENT が一貫して上回り、多階層の空間・次元情報を統合する設計の利点が示された (Fig 3a-b)。部位特異的に学習した ablated model は肺 AUC=0.80・脳 AUC=0.54・肝 AUC=0.59 と劣化したのに対し、全生検部位で学習した SCENT は cross-anatomy 評価でも安定した性能を維持した (Fig 3c, 3f)。連続値解析では SCENT 確率は組織 PD-L1 TPS と Spearman ρ=0.429・Pearson r=0.512・Kendall τ=0.299 (いずれも p<0.001) で有意な正相関を示し、平均 SCENT 確率は TPS 0% の 0.481 から TPS ≥50% の 0.603 へ上昇した (Suppl Fig S8)。

統合モデルは SCENT を超えない：clinical または radiomics モデルを SCENT に加えると単独モデルよりわずかに改善したが、Clinical + Radiomics + SCENT の full fusion model (balanced accuracy 73.3% [95% CI 0.696-0.787], AUC 80.6% [95% CI 0.756-0.855]) を含め、いずれの統合モデルも単独 SCENT (AUC 0.8363) を上回らなかった (Table 2, Fig 3)。これは SCENT が追加の特徴統合を要さず、PD-L1 発現に関連する主要な画像パターンを単独で捉えていることを示す。Decision curve analysis では、MDACC 保留テストで閾値確率 0.47-0.68、Mayo 外部コホートで 0.48-0.61 の範囲にわたり SCENT が陽性の net benefit を示し、clinical / radiomics モデルおよび treat-all / treat-none 戦略を上回った (Suppl Fig S9)。

予後層別化と組織 IHC との相補性：Kaplan-Meier 解析で、SCENT 予測の高 PD-L1 は延長 PFS と関連し、HR は 1.47 から 1.56 (いずれも p≤0.004) であった (Fig 4g-i)。OS では SCENT が検証コホート (HR=1.52, p=0.017) と全データセット (HR=1.40, p=0.009) で生検由来 PD-L1 の生存トレンドを再現した (Fig 4k-l)。組織 IHC と SCENT を統合した joint 層別化では、両者ともに低い low-low (LL; 両者低発現) 群が最も予後不良で、PFS は訓練 HR=1.57 (p=0.003)・検証 HR=1.68 (p<0.001)・統合 HR=1.61 (p<0.001)、OS は検証 HR=1.74 (p=0.006)・全体 HR=1.45 (p=0.008) であった (Fig 5)。両者の判定が食い違う不一致群 LH-HL (low-high / high-low の合算) は概ね中間的な生存を示し、HH 群との有意差は認めなかった。多変量 Cox 回帰で臨床因子調整後も低 PD-L1 は有害アウトカムのハザード増加と関連し続け、VIF (variance inflation factor) は 1.01-1.55 と多重共線性なく、SCENT が独立予後因子として保持された (Fig 6)。

LONESTAR での経時的探索評価：LONESTAR の baseline と 3 ヶ月後 CT に SCENT を適用し、患者を 2 時点の予測 PD-L1 status で LL / LH / HL / HH の 4 群に層別化した。HH 群は LL 群より進行しにくい傾向を示したが、4 群の多重比較補正後は統計的有意に至らなかった (odds ratio = 0.14, unadjusted Fisher’s exact p=0.054, Bonferroni-adjusted p=0.216) (Fig 7e-f)。RECIST 応答カテゴリ (PD / SD / PR) 間でも有意差は認めず (Kruskal-Wallis p=0.573, Suppl Fig S15)、この経時利用は仮説生成段階にとどまることが明示された。

考察/結論

本研究は、ルーチン CT から PD-L1 発現を予測する ensemble Vision Transformer モデル SCENT を、972 例の discovery コホートと Mayo Clinic・第 III 相 LONESTAR 試験という 2 つの独立検証コホートで開発・検証し、PD-L1 分類 (MDACC AUC 0.84) のみならず PFS・OS の予後層別化において組織由来 PD-L1 と同等の性能を示した点に意義がある。

先行研究との違い：従来の radiomics / radiogenomics 研究 (Liang et al. CancerCell 2026 が示す病理側の解釈可能 AI とは対照的に) は手作業の handcrafted features と限られた単施設データに依存し、再現性が低く撮像プロトコル変動に脆弱であった。本研究はこれと異なり、局所・腫瘍周囲・大域の空間 attention を統合する ensemble 深層学習を用いることで、腫瘍生物学をより忠実に反映する複雑な画像表現型を捉え、複数の外部大規模コホートで予測精度を保ったまま従来 radiomics を上回った。Ablation で部位特異モデルが脳 AUC 0.54 まで劣化するのに対し SCENT が cross-anatomy で安定する点は、統合アーキテクチャの汎化優位性を裏づける。

新規性：本研究で初めて、CT 由来の画像サロゲートを組織 IHC と統合する joint 層別化で「両者一致の low-low 群が最も予後不良」という相補的予後情報を多施設で実証し、SCENT を単なる PD-L1 代替ではなく腫瘍全体の画像表現型を反映する補完的バイオマーカーとして位置づけた。さらに、第 III 相無作為化試験の baseline / 3 ヶ月連続 CT を用いて導入免疫療法中の PD-L1 変動を画像で追跡する探索的枠組みを提示した点は新規である。組織病理から仮想的に腫瘍プロファイルを再構成する近年の流れ (Li et al. Cell 2026) と軌を一にする「virtual biopsy」の CT 版といえる。

臨床応用 / 橋渡し：SCENT は組織 PD-L1 が利用不能・不十分・遅延する状況での decision-support tool として、また borderline / 不一致の生検結果を腫瘍全体の画像表現型で文脈づける補完的バイオマーカーとして最も有用となりうる。CT は治療中ルーチンに取得されるため、非侵襲的な経時評価によるリスク層別化・モニタリングへの臨床応用が展望される。免疫療法に伴う画像由来バイオマーカーで早期変化を捉える試みは心毒性領域でも進んでおり (Chae et al. ClinCancerRes 2026)、深層学習バイオマーカーの臨床意思決定への統合という橋渡しの方向性は共通する。深層学習による創薬・設計の進展 (Xing et al. Cell 2026) と並び、AI を実臨床に接続する流れの一部をなす。

残された課題 / 今後の検討：第一に、PD-L1 を 50% カットオフで二値化したため、生物学的勾配を捉える連続値モデリングが今後の検討課題である。第二に、独立コホート・臨床試験で検証されたものの、臨床的有用性確定には多施設前向き研究が必要である。第三に、majority voting ensemble に代えて attention-weighted / uncertainty-aware な fusion 技術が頑健性・解釈性を高めうる。第四に、経時解析は baseline と 3 ヶ月後の短間隔のみで長期 PD-L1 動態を捉えきれず、より長い追跡と時点追加が必要である。臨床実装ではモデルの直接転移に頼らず、外部キャリブレーション・事前定義の決定閾値・dataset shift モニタリング・治療レジメン/撮像プロトコル横断の前向き評価を含む展開経路が求められる。結論として、SCENT は precision immuno-oncology のための汎化可能な「virtual biopsy」ツールとして、前向き検証を経て深層学習バイオマーカーの臨床統合の基盤となりうる。

方法

研究デザインとデータセット (cohort identifier)：MD Anderson Cancer Center (MDACC; テキサス大学 MD アンダーソンがんセンター) で 2014 年 1 月-2020 年 2 月に ICI 治療を受けた stage IV NSCLC 1,002 例を curate し、低画質 30 例を除外して 972 例を解析対象とした (Suppl Fig S1)。本研究は MD Anderson の施設内倫理審査委員会承認のもとで実施され、SCENT のコードは GitHub リポジトリ WuLabMDA/SCENT で公開されている。うち組織 PD-L1 発現と胸部 CT の両方を持つ 640 例を discovery コホートとし、訓練 (n=320)・テスト (n=320) に均等分割した。PD-L1 を欠く CT のみの 332 例を追加検証コホートとした。外部検証は Mayo Clinic コホート (n=72、PD-L1 高 23・低 49、2017-2020) と第 III 相 LONESTAR 試験 (n=116、baseline と 12 週導入 ipilimumab + nivolumab 後の paired CT を持つ無作為化前サブセット、EGFR/ALK wild-type) で実施した。PD-L1 は高 (≥50%) / 低 (<50%) に二値化した (discovery で高 32%・低 68%)。コホート横断で計 1,160 例を解析した。コード/データは GitHub (WuLabMDA/SCENT) で公開されている。

SCENT アーキテクチャと前処理：SCENT は 2D・2.5D・3D の 3 つの Vision Transformer (ViT) を組み合わせ、腫瘍内 (intratumoral)・局所周囲 (peritumoral, +32 px)・大域 (global, +64 px) の 3 つの空間コンテキストを捉える。各 ViT は MONAI (Medical Open Network for AI) の Vision Transformer 実装で、convolutional positional embedding、12 transformer encoder layer、12 self-attention head、hidden size 768、MLP (multilayer perceptron) 次元 3072、binary 分類ヘッドを持ち、patch size は 2D で 16×16、3D で 16×16×16 voxel。3 空間コンテキスト × 3 次元表現の計 9 モデルを categorical cross-entropy loss で独立学習し、majority voting で統合した。CT は医用画像標準形式 NIfTI (Neuroimaging Informatics Technology Initiative) に変換後、RAS 配向に整え、1.5×1.5×2.0 mm³ にリサンプリング、−800 to 400 HU でクリップし [0,1] に線形スケール。2D は最大腫瘍断面を 224×224 に、2.5D / 3D は 64 スライスの腫瘍含有窓 (64×224×224) を抽出。学習は SGD (learning rate 0.01, momentum 0.9, batch size 32)、最大 50 epoch・15 epoch early stopping、PyTorch 2.2.1 + CUDA 11.8 + Nvidia A100 GPU で実装した。

比較モデルと統計解析：clinical model は性別・年齢・喫煙・組織型などの臨床放射線変数で、radiomics model は形状・一次統計・grey-level の二次テクスチャ統計量 (共起行列・ランレングス行列・サイズゾーン行列・依存行列の 4 系統)・wavelet/Laplacian-of-Gaussian の計 n=2,060 特徴で構築し、いずれも AutoGluon-Tabular 1.4.0 で ROC-AUC を最適化した。性能は感度・特異度・accuracy・ROC 曲線下面積 (AUC) で評価。ベースライン特性比較は Pearson カイ二乗検定 (小セルは Fisher’s exact)、Benjamini-Hochberg FDR 補正で q<0.05 を有意とした。予後評価は Kaplan-Meier 生存解析と log-rank 検定で行い、ハザード比 (HR) と 95% CI を報告。多変量解析は Cox 比例ハザード回帰、多重共線性は VIF (variance inflation factor; 分散拡大係数) で評価した。Decision curve analysis で net benefit を比較。LONESTAR の経時解析は Fisher’s exact test (探索的)。全解析は R software 3.6.1 で実施した。

Research Wiki

エクスプローラー

Deep Learning of CT Imaging Predicts PD-L1 Expression and Immunotherapy Response in Metastatic NSCLC: A Multi-Center Study

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク