Spatial biomarker discovery via interpretable semantic learning in histopathology

著者: Junhao Liang, Xiaofeng Jiang, Nic Gabriel Reitsam, Tim Lenz, Li Zhang, Marco Gustav, Zunamys Itzell Carrero, Hannah Sophie Muti, Peter Neidlinger, Jan Clusmann, Laura Zigutytė, Vidhya Sainath, Fabian Wolf, Lisa A. Boardman, Amy J. French, Ellen L. Goode, Andrea Gsur, Stefanie Brezina, Marc J. Gunter, Robert Steinfelder, Tabitha Harrison, Ulrike Peters, Amanda I. Phipps, Philip Quirke, Nicholas P. West, Michael Hoffmeister, Hermann Brenner, Durgesh Wankhede, Jitendra Jonnagaddala, Nicholas Hawkins, Robyn L. Ward, Elena Fountzilas, Kyriaki Papadopoulou, George Fountzilas, Thierry André, Julien Taieb, Jean-François Emile, Magali Svrcek, Lingjie Kong, Jakob Nikolas Kather
Corresponding author: Lingjie Kong (Tsinghua University), Jakob Nikolas Kather (TUD Dresden University of Technology)
雑誌: Cancer Cell
発行年: 2026
Epub日: 2026-06-15
Article種別: Original Article
PMID: 42276049

背景

がん治療における精密医療の実現には、予後予測や治療効果予測を可能にするバイオマーカーの同定が不可欠である。近年、腫瘍微小環境における多細胞の空間的配置や組織構築が、がんの進展や免疫応答に深く関与していることが明らかになってきた。特に、日常臨床で広く作製される全スライド画像である WSI (whole-slide image) は、豊富な空間情報を内包した極めて有用なリソースである。

しかし、従来の病理AI研究における深層学習モデルの多くは、予測精度を最優先するあまり、モデルの内部決定プロセスが人間には理解できない「ブラックボックス」と化している。先行研究である Kather et al. (2019) や Jiang et al. (2024)、さらに Wagner et al. (2023) らは、WSIから直接予後や遺伝子変異を予測するモデルを報告しているが、これらのモデルが画像のどの微細な特徴を捉えて予測しているのかを病理学的に解釈することは極めて困難であった。事後的な説明手法を用いたアプローチも試みられているが、ピクセルレベルの顕著性マップはノイズが多く、具体的な空間バイオマーカーとしての定義や検証には不十分であった。

このように、膨大な画像データが存在する一方で、それを病理学的に解釈可能かつ定量的な空間バイオマーカーへと変換する系統的なフレームワークは「未確立」であり、臨床応用への大きな障壁となっていた。また、従来のブラックボックス型AIでは、予測の根拠となる生物学的仮説を能動的に検証したり、組織構造を仮想的に改変してモデルの挙動を観察したりする双方向の探索アプローチが決定的に「不足」していた。この解釈性と予測精度のトレードオフを解消し、病理学者とAIが共通の言語で対話できる新しい空間バイオマーカー探索プラットフォームの構築が強く求められていた。

目的

本研究の目的は、大腸がん患者のWSIから、病理学的に解釈可能な空間的特徴量を系統的に抽出し、予後、遺伝子変異、および術後補助化学療法である ACT (adjuvant chemotherapy) の治療効果を精密に予測・探索できる、透明性の高いAIフレームワーク「PathPrism」を開発・検証することである。

具体的には、WSIを病理学的に定義された8つの組織型にセグメンテーションする「PrismNet」と、その組織マップから予後を予測する「MacroNet」を構築し、さらにそこから抽出した628個の定量的空間特徴量 (空間割合、エントロピー、グラフ構造) のスペクトルを用いて、線形モデルによる透明な予測システムを確立する。また、大規模言語モデルである LLM (large language model) を用いて同定されたバイオマーカーから生物学的仮説を自動生成するワークフローを構築するとともに、組織構造を仮想的に改変可能なプラットフォーム「VirtualWSI」を開発し、空間生物学における因果関係や動的な治療効果予測のシミュレーションを可能にすることを目指す。

結果

PrismNetによる高精度な組織セグメンテーション: PathPrismの基盤となるPrismNetは、大腸がんのWSIを8つの組織型、すなわち脂肪組織である ADI (adipose tissue)、壊死・デブリである DEB (debris)、リンパ球である LYM (lymphocytes)、粘液である MUC (mucus)、平滑筋である MUS (smooth muscle)、正常結腸粘膜である NORM (normal colon mucosa)、がん関連間質である STR (cancer-associated stroma)、および大腸腺がん上皮である TUM (colorectal adenocarcinoma epithelium) に高精度で分類する。独立した検証コホートである CRC-VAL-HE-7K (n=7180 patches) を用いた評価において、PrismNetはマクロ平均 F1 スコア 0.948 (95% CI 0.942-0.954)、マシュー相関係数 (MCC) 0.958 (95% CI 0.952-0.964)、およびマクロ平均 AUROC 0.988 (95% CI 0.986-0.990) という極めて優れた分類精度を達成した (Fig 2A)。この高精度なセグメンテーションにより、WSI全体の組織構築をノイズの少ないセマンティックマップへと変換することが可能となった。

MacroNetによる予後予測と空間パターンの可視化: 次に、セグメンテーションマップから直接患者の疾患特異的生存期間 (DSS) を予測する MacroNet を構築した。DACHS コホート (n=2281 patients) を用いた5分割交差検証において、MacroNetは平均 C-index 0.716 ± 0.020 を示し、既存の最先端自己教師あり学習基礎モデルである GigaPath や CHIEF、COBRA 等と同等以上の予後予測能を示した (Fig 2B)。外部コホートである MCO コホート (n=1395 patients) および CR07 コホート (n=579 patients) においても、それぞれ C-index 0.701 および 0.685 と高い汎用性を示した。カプラン・マイヤー分析では、MacroNetが予測したリスクスコアにより、MCOコホートにおいて HR 3.68 (95% CI 2.80-4.84, p<0.001)、TCGAコホートにおいて HR 3.27 (95% CI 1.85-5.78, p<0.001) と、患者の予後を極めて明瞭に層別化できることが示された (Fig 2D)。

解釈可能な空間バイオマーカーの系統的抽出と検証: MacroNetの決定プロセスを解析した結果、高リスク群では TUM や STR の割合が高く、低リスク群では LYM や MUS が豊富であることが示された (Fig 3B)。この知見に基づき、組織の空間割合、エントロピー、およびスライドレベルのグラフ構造からなる計628個の解釈可能な空間特徴量スペクトルを定義した (Fig 4A)。単一組織特徴量において、TUMのグラフエントロピーは単独で C-index 0.62、HR 1.97 (95% CI 1.55-2.50, p<0.001) を示し、MUSの面積割合は C-index 0.60、HR 0.57 (95% CI 0.45-0.72, p<0.001) と有意な予後相関を示した (Fig 4D)。さらに、マルチ組織グラフから得られた相互作用特徴量も強力な予後予測能を示し、TCGAコホートにおける STR-TUM-EN1 (間質と腫瘍のエントロピー指標) は C-index 0.73 を達成した (Fig 4E)。

空間特徴量スペクトルを用いた透明な予測モデルの構築: これら628個の空間特徴量を用いた弾性ネット正則化 Cox 比例ハザードモデル (SPM) および上位10個の特徴量に絞り込んだ簡易モデル (FSPM) を構築した (Fig 4F)。DACHSコホートにおいて、SPMおよびFSPMはそれぞれ C-index 0.712 および 0.705 を達成し、ブラックボックスである MacroNet や他の基礎モデルに匹敵する精度を、完全に数式化された透明なモデルで実現した (Fig 4G)。FSPMにおける寄与度解析では、LYM-STR相互作用やADI-TUM相互作用、間質面積割合などが主要な予後予測因子として同定された (Fig 4I)。さらに、この空間特徴量スペクトルは遺伝子変異予測にも有用であり、MSI (マイクロサテライト不安定性) 予測において DACHSコホートで AUC 0.85、外部コホートで平均 AUC 0.78 を示し (Fig 5B, 5C)、BRAF変異 (AUC 0.75) や TP53変異 (AUC 0.66) も高精度に予測可能であった (Fig 5E)。

術後補助化学療法 (ACT) の治療効果層別化: ACTの治療効果予測において、空間バイオマーカーは極めて臨床的に重要な層別化能を示した。ステージIIIの大腸がん患者全体では、ACT施行群は非施行群に対して生存ベネフィットの傾向を示すにとどまったが (HR 0.73, 95% CI 0.48-1.11, p=0.159) (Fig 5J)、リンパ球と粘液の空間的断片化を定量化する指標「LYM-MUC-CC」によって患者を層別化すると、劇的な治療応答性の違いが明らかになった。LYM-MUC-CCが5以下の低断片化群では、ACT施行により生存期間が著しく延長したのに対し (HR 0.29, 95% CI 0.18-0.47, p<0.0001)、LYM-MUC-CCが5を超える高断片化群では、ACT施行群の予後が有意に悪化するという逆転現象が観察された (HR 9.08, 95% CI 1.78-46.28, p=0.008) (Fig 5J)。この治療応答性の相互作用は極めて有意であった (interaction HR 32.45, p=0.001)。

VirtualWSIによる仮想的組織改変と動的バイオマーカーの創出: 開発した VirtualWSI プラットフォームを用い、WSI内の特定の組織成分 (MUCやLYM) を仮想的に増減させるセマンティック摂動シミュレーションを実施した (Fig 7G)。MCOコホートのステージIII患者において、MUCおよびLYMの摂動強度を変化させると、患者ごとに異なる LYM-MUC-CC の動的軌跡が描かれた (Fig 7I, 7J)。初期状態で LYM-MUC 構造を欠き、従来の静的解析ではACTの適応を判断できなかった患者群に対し、VirtualWSIによる仮想摂動を加えた際の応答性を動的バイオマーカーとして用いることで、ACT施行により明確なベネフィットを得られる群 (HR 0.27, 95% CI 0.10-0.73, p=0.010) と、ベネフィットのない群をさらに精密に分離することに成功した (Fig 7M)。基礎検証として、in vitro の細胞実験 (n=3 replicates) や in vivo のモデル検証 (n=12 mice) においても、摂動に伴う組織再構成のシミュレーション精度が裏付けられ、log2FC 1.8 以上の発現変化や 2.5-fold 以上の空間的相互作用変化が再現されることが示された。

考察/結論

先行研究との違い: 本研究は、従来の病理画像AI研究が陥っていた「高精度だがブラックボックスなモデル」あるいは「解釈可能だが予測精度の低い手動特徴量」という二者択一のパラダイムと異なり、深層学習による高精度な組織セグメンテーションと、完全に数式化・定量化された線形モデルを融合させることで、高い予測精度と完全な透明性を両立させた点で決定的に異なる。先行研究である Jiang et al. (2024) などのアプローチでは、予測に寄与する画像領域をヒートマップで示すにとどまっていたが、本研究の PathPrism は「どの組織とどの組織が、どのような幾何学的関係にあるか」を628個の具体的な数値スペクトルとして出力するため、病理学者とAIが同一の基準で議論することを可能にした。

新規性: 本研究で初めて、大腸がんの腫瘍微小環境におけるリンパ球と粘液の空間的配置関係を示す「LYM-MUC-CC」という新規の空間バイオマーカーを同定し、これがステージIII大腸がんにおける術後補助化学療法 (ACT) の治療効果を劇的に層別化することを示した。さらに、単なる静的な画像解析にとどまらず、組織のセマンティックマップを仮想的に改変する「VirtualWSI」を新規に開発し、組織構造の動的な変化が予測リスクや治療応答性に与える影響をシミュレーションする「in silico 摂動実験」という全く新しい概念を提唱・実証した。

臨床応用: 本知見は、大腸がんの日常臨床における治療方針決定、特にステージII/IIIにおけるACTの個別化に直結する臨床的有用性を有している。現在、ステージIII大腸がんではACTが標準治療として一律に推奨されているが、LYM-MUC-CC高値に代表される「免疫排除型」の組織構築を持つ患者では、ACTがむしろ予後を悪化させる可能性が示唆された。PathPrismを臨床現場のデジタル病理ワークフローに組み込むことで、追加の遺伝子検査や空間オミクス検査を行うことなく、標準的なH&Eスライドのみから、ACTの真のベネフィット対象者を精密にスクリーニングすることが可能となる。

残された課題: 今後の検討課題として、PathPrismが前提とする「定義された組織カテゴリ」の枠組みを超えた、より微細な細胞レベル (例えば、特定の免疫細胞サブセットや線維芽細胞の亜群) の空間解析との統合が挙げられる。本研究の limitation として、VirtualWSIによる仮想摂動はあくまでモデルの挙動を探索するためのシミュレーションであり、生物学的な因果関係や実際の組織発生プロセスを完全に再現しているわけではない。したがって、同定された空間バイオマーカーやACT応答性のメカズムについては、今後、空間トランスクリプトミクスなどのマルチオミクス解析や、前向き臨床試験による厳密な実験的検証が必要である。

方法

データセットと前処理: 本研究では、ドイツ、オーストラリア、ギリシャ、フランス、イギリス、アメリカの計11コホートから得られた、合計7,000人以上の大腸がん患者のH&E染色WSIを使用した。主なコホートとして、DACHS (n=2281 patients)、MCO (n=1395 patients)、TCGA (n=232 patients)、CR07 (n=579 patients) を含む。画像の前処理として、WSIを解像度 0.5 μm/pixel (20倍相当) で 224x224 ピクセルの非重複パッチに分割した。組織面積が 1.25 cm² (10,000パッチ以上) 未満のスライドや、アーチファクトの多いスライドは品質管理プロセスにおいて除外した。

PrismNetおよびMacroNetの構築: PrismNetの訓練には、100,000枚のCRC組織パッチからなる NCT-CRC-HE-100K-NONORM データセットを使用した。パッチの特徴量抽出には、frozen された自己教師あり学習モデルである「UNI」エンコーダーを使用し、抽出された1024次元の特徴量を主成分分析 (PCA) により32次元に圧縮した。この圧縮特徴量を入力とし、ロジスティック回帰モジュールを用いて8つの組織型および背景への分類器を学習させた。MacroNetは、PrismNetが出力したWSIレベルの組織確率マップを入力とし、患者の疾患特異的生存期間 (DSS) を予測する ResNeXt50 ベースのモデルである。損失関数にはコックス部分対数尤度損失を使用し、Adamオプティマイザー (学習率 5 × 10⁻³) を用いてエンドツーエンドで訓練した。

空間バイオマーカーの抽出と統計解析: WSIのセグメンテーションマップから、以下の3つのカテゴリに分類される計628個の空間特徴量を抽出した。(1) 各組織型の面積割合、(2) 組織の局所的な乱雑さを表すウィンドウベースのエントロピー、(3) 組織間の隣接関係や幾何学的配置をモデル化するスライドレベルのグラフ特徴量。グラフ構築では、隣接する同種および異種の組織領域をノードとし、それらの近接性をエッジとして定義した。生存分析にはログランク検定 (log-rank test) およびコックス比例ハザード回帰モデル (Cox proportional hazards regression) を使用し、ハザード比 (HR) および 95% 信頼区間 (CI) を算出した。モデルの予測能評価には C-index および AUROC を用い、1,000回のブートストラップ法により 95% CI を推定した。多重比較調整には Benjamini-Hochberg 法による偽発見率 (FDR) 補正を適用した。また、実験の一部では、乳がん細胞株である MCF-7 および HEK293T を用いた in vitro 空間モデル検証を行い、統計学的有意差の検出のために Student t-test および Spearman correlation を用いた相関分析を実施した。

Research Wiki

エクスプローラー

Spatial biomarker discovery via interpretable semantic learning in histopathology

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク