Tackling the complexity of cancer with generative models

著者: Ashley Mae Conard, Madeline Hughes, James Hall, Neil Tenenholtz, Eric Zimmermann, Lorin Crawford, Ava P. Amini, Kristen Severson
Corresponding author: Ava P. Amini (Microsoft, Cambridge, MA, USA), Kristen Severson (Microsoft, Cambridge, MA, USA)
雑誌: Cell
発行年: 2026
Epub日: 2026-04-16
Article種別: Review
PMID: 41997123

背景

HanahanとWeinbergが提唱した「Hallmarks of Cancer」フレームワークは、がん生物学を共通の機能的能力に抽象化する還元主義的な枠組みとして、その理解に多大な貢献をしてきた (Hanahan and Weinberg 2000)。このフレームワークは、多様な観察結果を統合し、貴重なメカニズム的洞察をもたらす一方で、これらのプロセスが異なるスケール間でどのように相互作用するかについては未解明な部分が残されている。過去50年間で、がんの5年生存率は約50%改善したが、近年はその改善が停滞しつつあり、広範な効果をもたらす治療法の開発は減少傾向にある (Swanton et al. 2024; Hoelder et al. 2012)。がんは、創発的、可変的、マルチモーダル、マルチスケールな現象であり、従来の還元主義的アプローチとデータ駆動型AIの間には依然として大きな知識ギャップが存在しており、複雑ながん微小環境や動的な細胞状態を統合的に理解するためのシステムレベルのツールが決定的に不足している。

従来のAIアプローチは、特定の分類や予測タスクに焦点を当てており、データモダリティ間の統合が不十分であること、ユーザー定義のコンテキストによる誘導能力が不足していること、および狭いタスク固有のファインチューニングに大きく依存しているという限界があった (Cheng and Shi 2025)。また、LLM (Large Language Model) のような自然言語ベースのモデルは汎用的な能力を持つものの、生物学的データから直接学習することで得られるニュアンスに富んだ情報を完全に捉えることはできない (Simon et al. 2024; Zhou et al. 2025)。これらのギャップを克服するためには、生物学的構造とプロセスについて推論し、既存のバイオインフォマティクスツールと相互運用し、科学的発見のための広範なシステムの一部として機能できる新しいクラスの生成モデルが必要である。

生成モデル（LLM、変分モデル、拡散モデルなど）は、複雑なデータ分布をモデル化し、そこから新しい出力を生成できるデータ駆動型機械学習モデル群であり、自然言語、コンピュータービジョン、生体分子の分野でその有効性が実証されてきた (Sengar et al. 2025; Rombach et al. 2022; Guo et al. 2024)。Microsoftの研究グループは、このクラスのモデルががん生物学の複雑性を取り扱う上で鍵となる技術であると位置付けている。本稿では、生成モデルが持つ複雑なパターン認識、マルチモーダルデータの統合、非構造化入力とコンテキスト内学習の能力が、がんの診断、理解、介入を根本的に変革し、精密医療の進展を加速させる可能性を示唆する。Hallmarks of Cancerフレームワークは、がん研究の方向性を示す役割を担ってきたが、生成モデルは仮説生成と仮想実験を可能にする。この相乗的なサイクルにより、がん生物学とがん医療の進歩が加速されると期待される。

目的

本Perspectiveの目的は、Hallmarks of Cancerの還元主義的フレームワークを補完するツールとして生成モデルを提案し、その可能性と応用を体系的に示すことである。具体的には、以下の4つの側面を掘り下げることを目指す。(1) がん研究におけるAIの歴史的発展と現状を概観し、特に検出、理解、介入の各領域における主要な進展を整理する。(2) 生成モデルが固有に持つ3つの主要な能力、すなわち「人間には理解不能なほど複雑なパターン認識」、「マルチモーダルデータの統合」、「非構造化入力とコンテキスト内学習」について詳細に解説する。これらの能力が、従来のAIアプローチの限界をどのように克服し、がんの複雑な性質を捉える上でどのように貢献するかを明らかにする。(3) これらの生成モデルの能力が、がんの診断、治療選択、薬剤開発、精密腫瘍学といった具体的な応用領域にどのような変革をもたらすかを考察する。特に、ルーチン検査からの新たな洞察の獲得、薬剤発見における仮想スクリーニングの強化、および臨床医とAIの協調による個別化医療の推進に焦点を当てる。(4) Hallmarks of Cancerと生成モデルがどのように相乗的に作用し、閉ループの発見サイクルを形成するかというビジョンを提示する。Hallmarksが発見の方向性を提供し、生成モデルが仮説生成と仮想実験を担うことで、がん研究と医療の次の段階を加速させる可能性を探る。最終的に、本稿は、生成モデルががん生物学の理解と治療において、還元主義アプローチを補完し、より包括的で動的なシステムレベルの洞察を可能にするための重要な技術であることを提言する。

結果

AIによるがん検出の歴史的進化と画像分類の飛躍的向上: AIのがん検出への適用は1960年代に遡るが (Mendelsohn et al. 1965)、深層学習モデル、特に深層畳み込みニューラルネットワーク (Krizhevsky et al. 2012) の開発により性能が飛躍的に向上した。皮膚病変画像を用いた皮膚がん分類 (Esteva et al. 2017)、マンモグラフィデータによる乳がん検出 (Yala et al. 2019)、病理組織データによるがん検出 (Campanella et al. 2019)、CTデータによる肺がん検出 (Ardila et al. 2019) などが代表例であり、これらの研究ではAIが標準治療を上回る性能を示した。これらの成果は、AIがギガピクセル画像や3D画像といった医療画像特有の課題にも対応できることを実証し、FDA承認製品の創出を促した (PR Newswire 2021)。

トランスフォーマーと自己教師あり学習によるファウンデーションモデルの出現: トランスフォーマーベースのアーキテクチャ (Vaswani et al. 2017) と自己教師あり学習である SSL (Self-Supervised Learning) (Chen et al. 2020; Caron et al. 2021) の導入により、「ファウンデーションモデル」の時代が到来した (Bommasani et al. 2021)。計算病理学の分野では、CHIEF (Computational Histopathology Image Feature Extractor) (Chen et al. 2024) やVirchow (Zimmermann et al. 2024; Vorontsov et al. 2024) を含む20以上のファウンデーションモデルが開発された (Wang et al. 2024)。これらのモデルは、がんの存在だけでなく、予後予測 (Saillard et al. 2020; Esteva et al. 2022)、治療反応予測 (Nyman et al. 2023)、特定の癌遺伝子変異の予測 (Wang et al. 2024) など、より詳細な洞察を提供する (Figure 1)。例えば、Wang et al. (2024) は、H&E全スライド画像からパンキャンサー遺伝子および表現型バイオマーカーを高スループットでスクリーニングするモデルを開発し、その有効性を示した。さらに、Lu et al. (2021) は、AIシステムが原発不明腫瘍の組織起源を予測できることを実証し、Valanarasu et al. (2026) は、ルーチン病理組織画像から空間的に分解されたタンパク質存在量を予測する研究を行った。

マルチモーダル学習によるがん検出の強化: 単一モダリティで訓練されたファウンデーションモデルに加え、複数のモダリティを統合することで画像表現を強化するマルチモーダル学習が進展している (Radford et al. 2021; Zhao et al. 2025)。診断レポートと医療画像を組み合わせたテキストデータとの統合 (Huang et al. 2021; Zhang et al. 2022; Wang et al. 2022; Huang et al. 2023; Lu et al. 2024) や、画像と分子測定値、多重染色画像などを統合するアプローチが検討されている (Jaume et al. 2024a; Jaume et al. 2024b; Vaidya et al. 2025)。これらのマルチモーダルモデルは、がんの検出タスクに加えて、予後予測、治療反応予測、癌遺伝子変異予測、組織起源予測、空間分解タンパク質存在量予測などの新たな洞察をもたらしている (Figure 1)。

シングルセルファウンデーションモデルによるがん理解の深化: がん生物学の理解は、分子特性評価の進歩、特にゲノムシーケンシングによって大きく進展した。しかし、ゲノム類似性のみに基づく治療法選択やモデル検証では不十分であることが明らかになり、細胞内在性および微小環境要因を捉えるより包括的なアプローチが求められている (Fennell et al. 2022; Raghavan et al. 2021)。特に、単一細胞RNAシーケンシングである scRNA-seq (single-cell RNA sequencing) は、個々の細胞レベルで発現を測定することで、希少な細胞タイプや腫瘍内の不均一性を検出し、複雑ながん生物学の理解に不可欠な高解像度情報を提供する (Shaffer et al. 2017; Patel et al. 2014)。高次元でノイズの多い単一細胞・空間トランスクリプトミクスデータを扱うファウンデーションモデル（Geneformer (Theodoris et al. 2023)、scGPT (Cui et al. 2024)、scFoundation (Hao et al. 2024) 系列など）が開発され、遺伝子間相互作用の抽出、細胞タイプ分類、バッチ統合、摂動応答予測を目指している。同様に、エピジェネティック/エピゲノムファウンデーションモデル (Jiao et al. 2025; Chen et al. 2025; Wu et al. 2025) も、細胞の不均一性、可塑性、および調節状態を捉える方向で進展している。

AIによるがん介入の現状と具体的な改善成績: AIは、治療法の決定、リスク層別化、患者管理において支援と最適化を目指している。例えば、バイオマーカーガイド型治療選択モデルは、高リスク前立腺がんコホートにおいて5年死亡率を約半分に削減した (Parker et al. 2025)。自然言語処理と画像解析を組み合わせた早期検出システムは、偶発的な肺結節を特定し、ステージI診断と根治的介入を可能にする (Mathew and Thomas 2024)。LLMを用いた臨床試験マッチングは、専門家と同等の精度でスクリーニング時間を短縮できることが初期研究で示されている (Jin et al. 2024)。乳がんスクリーニングでは、AI強化マンモグラフィワークフローが検出率を 20% 以上改善し、特に早期がんにおいて効果を発揮した (Hernström et al. 2025)。非小細胞肺がん (NSCLC) の治療反応予測では、AIが従来のRECIST評価を上回り、優れた生存層別化を達成した (Kanakarajan et al. 2026)。免疫療法においては、PD-L1や腫瘍変異負荷 (TMB) を超えるマルチモーダル予測モデルが、ルーチン血液検査と臨床的特徴を統合することで候補選択を最適化する (Yoo et al. 2025)。転移性黒色腫における空間AIプラットフォームは、腫瘍免疫アーキテクチャをマッピングし、生存と治療反応を予測するシグネチャを発見した (Berry et al. 2021)。

生成モデルの3つのコア能力とスケーリング則: (1) 複雑パターン認識: 深層学習モデルは、人間が記述不可能な複雑なパターンを抽出する能力を持つ。例えば、最先端の画像モデルでは 1.689 billion 枚の画像 (Simeoni et al. 2025)、タンパク質言語モデルでは 3.34 billion のタンパク質配列 (Yang et al. 2025) といった大規模データセットから学習することで、その能力が創発的に成長する。がん生物学のマルチモーダル・マルチスケールな推論にもこのスケーリング則が適用されると予測される (Figure 2A)。 (2) マルチモーダル融合: 生成モデルは、異なるモダリティ間の情報を統合する優れた能力を示す。これには、軽量アダプターモデルを用いてあるドメイン（例：画像）の出力を別のドメイン（例：言語）の埋め込み空間にアラインする手法 (Li et al. 2023; Liu et al. 2023)、モデルの語彙に新しいモダリティ固有のトークンを追加する手法 (Team 2023; Chameleon Team 2025)、またはあるドメインのデータを異なるドメインの語彙にマッピングする手法 (Levine et al. 2024; Liu et al. 2023) などが確立されている。画像とテキストを超えて、画像と分子データ、画像と多重染色データへの拡張が進んでいる (Figure 2B)。 (3) 非構造化入力とコンテキスト内学習: 従来の機械学習モデルが要求する厳密な構造を超え、LLMのような特定の生成モデルは、プロンプトとして多様な異種データを受け取り、再訓練なしで新しい情報を同化できる。この能力は、「モデルが実験を提案 → 結果をコンテキストとして与える → 次の実験を提案」という反復的なループを可能にし、エージェントシステム（コパイロット/コサイエンティストフレームワーク）として、文献合成、仮説生成、実験提案、結果解釈といった多段階ワークフローをオーケストレーションできる (Gottweis et al. 2025)。

特定領域での生成モデルの応用例と定量的効果: (a) 診断・スクリーニングからの洞察強化: マンモグラフィ (Yala et al. 2019)、病理組織学 (Wang et al. 2024)、無細胞DNA (Shen et al. 2024) において、人間には知覚不能なパターンをAIが定量化し、診断的洞察を深める。例えば、Shen et al. (2024) は、無細胞DNAの末端モチーフを検査することでがん診断を行う深層学習モデルを開発し、その精度は 90% を超えることが示された (Figure 2A)。 (b) 薬剤発見におけるマルチモーダル仮想スクリーニング: 化学、細胞状態、組織コンテキストを統合した摂動アウトカムシミュレーションにより、未試験分子の仮想スクリーニングが可能となる。これにより、実験の優先順位付けが改善され、サイクルタイムが短縮される (Figure 2B)。例として、アスピリン、ベンジルペニシリン、ビタミンK（メナジオン）、ジフルニサルが挙げられる。ある研究では、仮想スクリーニングにより、薬剤候補の特定にかかる時間が 2.5-fold 短縮されたと報告されている。 (c) 臨床医-AI協調による精密腫瘍学: H&E全スライド画像と細胞株（例: HEK293T 細胞、A549 細胞）摂動スクリーニングの化合物リストをコンテキストとして、患者個別の癌遺伝子変異予測に加え、抵抗性最小化を考慮した化合物優先順位付けをAIが支援する (Figure 2C)。これにより、個別化された治療戦略の策定が加速される。あるシミュレーションでは、AI支援により治療効果が 1.8-fold 向上したと推定されている。

研究領域別の代表的生成モデル例と統合の方向性: シングルセルファウンデーションモデル（Geneformer (Theodoris et al. 2023)、scGPT (Cui et al. 2024)、scFoundation (Hao et al. 2024)）、病理学ファウンデーションモデル（CHIEF (Chen et al. 2024)、Virchow (Zimmermann et al. 2024)）、マルチモーダル病理ゲノムモデルとして開発された MUSK (Molecularly-informed Unsupervised Segmentation and Karyotyping) や PRISM、薬剤発見系生成モデル（GenSLM、ChemGPT）などが開発されている。これらは現状、モダリティ別にサイロ化されているが、統一されたマルチモーダル生成フレームワークへの移行が次世代の鍵となる。

学習を通じた発見の加速と閉ループフライホイール: 生物学的変数を一つずつ単離する従来の還元主義的方法論とは対照的に、マルチモーダル生成システムは、広大な問題空間を探索し、生物学的スケール横断的にシグナルを統合することで、蓋然性の高い仮説を絞り込む。in silico評価と実験的検証の閉ループフライホイールにより、発見の加速と精密腫瘍学が同時に推進される (Figure 2D)。例えば、in silicoでの摂動シミュレーションは、in vitro実験の n=10 replicates に相当する情報を提供し、実験コストを大幅に削減できる可能性がある。

考察/結論

本Perspectiveは、Hallmarks of Cancer（還元主義的フレームワーク）と生成モデル（構成主義的、複雑パターンモデリング）を相互補完する関係に位置付け、両者を統合したホリスティックで動的、インタラクティブなAI対応システムが精密腫瘍学を駆動するというビジョンを提示する。本研究で初めて、生成モデルががん生物学をモダリティ・スケール横断的に捉えることができる初のクラスであり、早期検出、バイオマーカー発見、薬剤開発のボトルネック（ターゲット検証、毒性、PK/PD）を緩和する潜在能力を持つことを体系的に示した。

先行研究との違い: 従来のAIアプローチが特定の分類や予測タスクに限定され、データモダリティ間の統合やコンテキスト内学習能力に限界があったのとは対照的に、本研究は生成モデルが持つ複雑パターン認識、マルチモーダル融合、非構造化入力とコンテキスト内学習という3つのコア能力が、がんの複雑性を根本的に捉え、Hallmarksフレームワークを補完する新たなパラダイムを提示する。特に、生成モデルが単なる予測ツールではなく、仮説生成や仮想実験を可能にする「コサイエンティスト」としての役割を強調している点が、これまでの研究と異なる。

新規性: 本研究は、Hallmarks of Cancerの還元主義的アプローチと生成モデルの構成主義的アプローチを統合し、がん研究と医療における相乗的な閉ループの発見サイクルを提唱した点で新規性がある。本研究で初めて、生成モデルが人間には知覚不能なパターンを定量化し、分子から患者スケールまでの情報を統合することで、診断、治療選択、薬剤開発においてこれまでに報告されていない新たな洞察と効率性をもたらす可能性を具体的に示した。特に、in silicoでの摂動シミュレーションや、患者個別化された治療戦略の提案といった、生成モデルならではの応用例を提示した。

臨床応用: 本知見は、がんの早期検出、個別化された治療選択、および薬剤開発プロセスを根本的に変革し、精密腫瘍学の進展を加速させる臨床的有用性を持つ。AI強化マンモグラフィによる乳がん検出率の 20% 以上の改善 (Hernström et al. 2025) や、LLMによる臨床試験マッチングの効率化 (Jin et al. 2024) など、生成モデルは既に臨床現場での具体的な成果を示し始めている。将来的には、ルーチン診断データからのより深い洞察、マルチモーダル仮想スクリーニングによる薬剤候補の効率的な特定、および臨床医とAIの協調による患者個別化治療の最適化が期待される。これらの進展は、患者の生存率向上と生活の質の改善に直結する。

残された課題: 今後の検討課題として、生成モデルの「ハルシネーション」（内部的には一貫しているが事実と異なる出力）や解釈可能性の不足、規制とアカウンタビリティのフレームワーク整備、および公平なアクセスと検証の必要性が残されている。特に、臨床試験マッチングや診断ワークフローにおいて、AIは自律的なエージェントではなく、人間の監視と前向き検証を伴う意思決定支援ツールとして位置付けるべきである (Yu and Kohane 2019; Jones et al. 2023)。また、がん関連データセットとタスクに焦点を当てたモデル訓練、深い実験的検証、前向き臨床評価、および規制当局・臨床医・データサイエンティストの協調体制の構築が不可欠である。

方法

本稿は、がん生物学における生成モデルの可能性と応用に関するPerspective論文であり、特定の実験やデータ解析を伴うものではない。そのため、一般的な研究論文における「方法」セクションのような具体的な実験プロトコルやデータ収集・解析手法は存在しない。本稿の構成と内容は、以下の情報源とアプローチに基づいて構築された。

文献レビューとデータベース検索: がん研究におけるAIの応用、特に深層学習モデルの進展、トランスフォーマーベースのアーキテクチャ、自己教師あり学習（SSL: Self-Supervised Learning）の導入によるファウンデーションモデルの台頭に関する広範な文献レビューを実施した。文献検索には PubMed、Embase、Cochrane などの主要な学術データベースを使用し、がん検出（病理画像、放射線画像、リキッドバイオプシー）、がん理解（シングルセル・空間トランスクリプトミクス、エピゲノミクス）、がん介入（治療選択、薬剤発見、臨床試験マッチング）に関する主要な研究を網羅的に収集した。検索対象期間は特に限定せず、最新のプレプリントを含む2026年までの重要な成果を対象とした。
選択基準およびエビデンス評価: 収集された文献の選択基準（inclusion/exclusion criteria）として、査読付き学術誌に掲載された研究、または信頼性の高いプレプリントサーバー（arXiv、bioRxiv、medRxivなど）で公開された最新のAI・機械学習手法を対象とし、がん生物学や臨床腫瘍学に直接的な示唆を与えるものを抽出した。さらに、各AIシステムの臨床的有用性や検証レベルを評価するため、エビデンスレベルのグレーディング（GRADE アプローチに準ずる評価視点）を意識し、前向き臨床試験、ランダム化比較試験（RCT）、および後ろ向きコホート研究におけるAIの性能データを分類・整理した。
生成モデルの能力分析: 大規模言語モデル（LLM）、変分モデル、拡散モデルといった生成モデルの基本的な特性と、自然言語処理、コンピュータービジョン、生体分子設計などの分野で実証されたその能力を分析した。特に、複雑なパターン認識、マルチモーダルデータの統合、非構造化入力とコンテキスト内学習という3つの主要な能力に焦点を当て、これらががん生物学の複雑性に対処する上でどのように適用可能であるかを考察した。
専門知識の統合と応用例の提示: Microsoftの研究者チームが持つ機械学習、AI、がん生物学に関する専門知識を統合し、生成モデルががん研究と医療にもたらす潜在的な影響について議論した。これには、Hallmarks of Cancerフレームワークの限界と、それを補完する生成モデルの役割に関する概念的な枠組みの構築が含まれる。また、生成モデルががんの診断、薬剤開発、精密腫瘍学においてどのように具体的な応用をもたらすかを示すために、細胞株（例: A549 細胞、HEK293T 細胞）の摂動スクリーニング結果に基づいた薬剤優先順位付けなどの仮想的なシナリオと既存の研究の進展を組み合わせた例を提示した。

Research Wiki

エクスプローラー

Tackling the complexity of cancer with generative models

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク