Advancing AI for multi-omics and clinical data integration in basic and translational cancer research

著者: Fei Liu, Stephan Beck, Lei Yang, Huiyan Luo, Kang Zhang
Corresponding author: Huiyan Luo (Sun Yat-sen University Cancer Center); Kang Zhang (Macau University of Science and Technology)
雑誌: Nature Reviews Cancer
発行年: 2026
Epub日: N/A
Article種別: Review
PMID: 42014628

背景

がんの生物学的異質性はゲノム、エピゲノム、トランスクリプトーム、プロテオーム、メタボロームといった複数階層にわたって存在し、単一オミクス解析では腫瘍生物学の全貌を捉えることができない。例えば、ゲノム変異が必ずしもタンパク質レベルの機能変化に直結しないことや、病理形態が分子シグナル状態を反映しきれないことは、単一解析の根本的限界を示している。マルチオミクス統合は、多様なデータ層を電子診療記録 (EHR) や医用画像 (ラジオミクス、デジタル病理) などの臨床情報と組み合わせることで、腫瘍エコシステムのシステムレベルの理解を提供するアプローチである。この相乗的なアプローチにより、腫瘍の異質性、異なる分子層間の相互作用、そして分子プロファイル、組織形態、臨床表現型間の関連性をより包括的に特徴づけることが可能となる。

高次元の多モーダルデータは、技術プラットフォームの差異、施設間バッチ効果、病理・放射線読影における観察者間変動など、解析上の複合的課題をはらんでいる。従来の統計手法はこれほど高次元かつ非線形な生物学的関係のモデリングには不十分であり、AI (artificial intelligence: 人工知能)、とりわけ深層学習が不可欠な技術として台台した。AIアルゴリズムは、複雑なパターンを特定し、多様なデータソースを統合し、大規模データセットから予測モデルを構築することに優れている。

しかし、先行研究である Boehm et al. (2022) や、細胞遊離DNA (cfDNA: cell-free DNA) のメチル化シグネチャーを用いた複数種がん早期検出を報告した Liu et al. AnnOncol 2020、さらにTRACERxコホートにおいてctDNA (circulating tumor DNA: 循環腫瘍DNA) を用いて早期肺がんの転移性播種を追跡した Abbosh et al. Nature 2023 などの概念的フレームワークや個別技術の報告はあるものの、近年の生成AI、基盤モデル、デジタルツインといった次世代技術による急速な発展を体系的に統合したレビューが不足しており、臨床実装における具体的なロードマップは未確立であった。特に、大規模なラベルなしデータセットの利用を可能にする自己教師あり学習や、異なるデータタイプを共有潜在空間にマッピングするマルチモーダル基盤モデルの登場は、従来のAIの限界を克服し、がん研究における新たなパラダイムを確立する可能性を秘めている。しかし、これらの強力な予測モデルを臨床実践に変換するためには、データアクセシビリティ、モデルの汎化性、前向き臨床検証の欠如といった課題が残されており、これらの課題を克服するための戦略的なアプローチや、多施設共同研究における標準化プロトコルは依然として未解明な点が残されている。このように、次世代AI技術を統合したがんマルチオミクス解析の臨床応用における具体的な障壁と解決策に関する包括的な議論は、これまでの研究において圧倒的に不足しているのが現状である。

目的

本レビューは、AIを用いたマルチオミクス統合の方法論的枠組みを体系的に解説し、がん診断、リスク層別化、治療応答予測、予後予測、サーベイランスにわたる実践的応用を概述することを目的とする。さらに、XAI (explainable AI: 説明可能人工知能) の役割と、患者固有のデジタルツインへの発展可能性を論じるとともに、臨床実装に向けた残課題と将来的な方向性を示すことを目的とする。特に、大規模なラベルなしデータからの事前学習と少量のラベル付きデータでのファインチューニングという二段階アプローチが、医療AIにおけるラベル付きデータ不足という根本的なボトルネックに対応する主流となっていることを強調する。また、生成AI、基盤モデル、デジタルツインなどの次世代技術が、がんの早期診断、精密な患者層別化、治療反応予測、薬剤耐性メカニズム解明を根本的に再編し、精密腫瘍学をAI駆動型多オミクスループへと進化させる可能性を論じる。

結果

学習パラダイム: Foundation Modelsと自己教師あり学習: 大規模ラベルなしデータからの事前学習と小規模ラベルありデータでの fine-tuning という二段階アプローチが、医療AIの根本的ボトルネックであるラベル付きデータ不足に対応する主流となっている (Fig. 2)。Foundation Models は、タスク固有モデルから汎用プラットフォームへの根本的転換を体現する。Virchow (計算病理用; パン腫瘍検出 AUC 0.95 を達成し、一部の希少がん変異型では組織特異モデルを凌駕; 数百万枚の病理スライドで事前学習) や Evo (ゲノム配列用) がその代表例であり、zero-shot 推論 (明示的に訓練されていないタスクの実行) や少数例での高性能 fine-tuning を可能にする。さらに多モーダル Foundation Models は異なるデータ型を共有 latent space にマッピングする cross-modal alignment を実現し、画像から診断レポートを生成するなど AI を単なるパターン認識ツールから臨床アシスタントへと進化させる。

深層学習アーキテクチャ: 用途別設計と特性: CNN は病理・放射線画像などグリッド状データに従来用いられてきたが、長距離依存関係の捕捉に限界がある。Vision Transformer (ViT) と hybrid アーキテクチャはこの制限を克服し、ギガピクセル (gigapixel) の WSI (whole-slide image) でも間質・免疫細胞との空間的関係を捉えられる「計算スポットライト」として機能する。GNN はノード (遺伝子・タンパク質・細胞) とエッジ (相互作用) で生物学的ネットワークを表現し、タンパク質相互作用 (PPI) ネットワークへのマルチオミクスデータ統合やがんドライバー遺伝子発見に適用される。TREE (Transformer-powered graph representation learning for cancer gene identification) モデルは pan-cancer 8 データセットで最高性能を達成し 57 の高信頼候補ドライバー遺伝子を同定した。Generative Models (GAN・拡散モデル) は希少がんにおいてデータセット拡充・欠損モダリティ補完に貢献し、GigaTIME フレームワークは標準 H&E スライドから仮想空間プロテオミクス (多重免疫蛍光) を生成して腫瘍免疫微小環境の集団規模モデリングを実現する (Fig. 2)。

Multimodal Fusion戦略: Early/Late/Intermediate Integration: Early integration (データレベル連結) は高次元モダリティに計算的に「溺れる」リスクがあり、低次元データセットには有効である。Late integration (モデルアンサンブル) は堅牢だが、モダリティ間の相乗的相互作用を見落とす可能性がある。Intermediate integration (表現レベル) が最も広く採用され、各モダリティを専用エンコーダーで埋め込み共有 hidden layer で統合することで非線形クロスモーダル相互作用を学習する (Fig. 2)。NSCLC (非小細胞肺がん) の免疫療法応答予測で、high 免疫細胞密度 (病理) と strong IFN-γ 遺伝子シグネチャー (トランスクリプトーム) の組み合わせが単独より強力な予測子となることがその典型例である。重要な留保として、モダリティ間情報が冗長な場合や高次元ノイズが追加されるだけの場合は unimodal モデルが優れることもある。複数の cancer type で臨床変数が genomic・proteomic 特徴より survival 予測で優れることも示されている。

分子・遺伝的ドライバーの同定: 弱教師あり多重インスタンス学習 (MIL) モデルが患者レベルの腫瘍特性 (腫瘍種・マイクロサテライト状態) を個別変異ラベルなしで予測できる。DeepProfile フレームワークは 18 がん種 50,000 超のトランスクリプトームを解析し、変異負荷と患者生存に一貫して関連する遺伝子発現プログラムを同定した。形態学的特徴からの driver 遺伝子予測では、DeepGEM が EGFR (上皮成長因子受容体)・KRAS の変異状態やマイクロサテライト不安定性を標準 H&E スライドから AUC 0.90-0.97 で予測した。プロテオゲノミクスデータからは 11 がん種 1,194 例でタンパク質機能ネットワークをマッピングした。TREE モデルは transformer-based graph representation learning で pan-cancer 8 データセット最高性能を達成し 57 の高信頼ドライバー候補を同定した (Table 1)。

検出・診断: 多施設検証済みの統合モデル: clinic-RadmC モデルは肺結節良悪性鑑別において CT radiomics・cfDNA fragmentomics・臨床データを統合し、AUC 0.923 を多施設検証で達成した (Table 1)。これにより不要な侵襲的処置を 10-35% 削減できると推計された。PATHFINDER 試験では AI 駆動の MCED (multi-cancer early detection) テストが無症候患者の多様ながんを特異度 >99% で検出し、組織起源を高精度で予測して診断ワークアップを適切に誘導した。MASAI 試験 (乳がんスクリーニング) において AI は screen-reading workload を 44% 削減しながら検出率を維持した。プロテオミクスアプローチでは 2,251 例のがん患者の血漿プロテオームから ML が複数腫瘍型を健常対照と区別するバイオマーカーパネルを同定した。

精密リスク層別化: TNM超えの統合指標: TNM ステージは腫瘍生物学を反映せず同一ステージ内でも予後が大きく異なる。高悪性度漿液性卵巣がんで WSI・CT・ゲノムを統合したマルチモーダル ML モデルが単一モダリティを全て凌駕した。14 がん種の pan-cancer 統合モデル (histology + genomics) は c-Index 0.645 を達成した。子宮内膜がんでは HECTOR モデルが WSI と臨床ステージ・分子プロファイリングを統合し c-Index 0.79-0.83 (分子プロファイリング単独超え) を実現した。

治療個別化: ICI・化学療法・標的療法: NSCLC の ICI (免疫チェックポイント阻害剤) (PD-(L)1 阻害) 応答予測では、CT (radiomics)・PD-L1 (programmed cell death 1 ligand 1) IHC (免疫組織化学)・TMB (腫瘍変異負荷) を intermediate integration した多モーダルモデルが AUC 0.80 を達成し、TMB 単独 (AUC 0.61)・PD-L1 単独 (AUC 0.73) を大幅に超えた。PDAC (膵管腺がん) の adjuvant 化学療法個別化では LASSO-random forest が転写産物シグネチャーを構築し、第 III 相試験 (n=343) で検証された: mFFX (modified FOLFIRINOX) 感受性予測例では mFFX 治療で median OS 50.0 ヶ月、非適合レジメン群では 10.6 ヶ月と劇的な差が示された (p<0.05)。CDK4/6 阻害剤耐性では NeST-VNN が乳がん細胞株ゲノムデータから KAT6A-TBL1XR1 を含む 8 つのコアアセンブリを同定し、単一遺伝子バイオマーカー (RB1 変異・CCND1 増幅) では捉えられなかった耐性メカニズムを解明した。

予後予測とサーベイランス: AI による予後モデルは大腸・乳・前立腺がんで AUC 0.70-0.94 の高精度を達成しており、「腫瘍随伴脂肪組織特徴」「老化関連核表現型」「腫瘍微小環境における免疫細胞の空間組織化」など人間専門家が知覚できない潜在的形態バイオマーカーを抽出している。PDAC の「Molecular Twin」プラットフォームは千を超えるマルチオミクス特徴 (プロテオミクス含む) を統合し最高の予後精度を達成した。COFMET フレームワーク (EHR + プロテオミクス) は 3 年がん死亡率予測で AUROC 0.842 を達成した。サーベイランス分野では、HIBRID フレームワーク (大腸がん) が H&E ディープラーニングリスクスコアと ctDNA MRD (minimal residual disease: 微小残存病変) を相乗させた。治療後の残存ctDNAが早期再発を予測する有用性は、初期非小細胞肺がん患者のコホート研究 Gale et al. AnnOncol 2022 でも示されているが、HIBRIDにおいてはMRD 陰性でも深層学習で高リスクに分類された患者が adjuvant 化学療法から明確な利益を得るという、ctDNA 単独では見落とされる重要なサブグループを同定した。

デジタルツイン: 個別化予測の究極統合: 患者のマルチオミクスデータを大コホートで学習した latent space に投影し個人固有の「深表現型」を生成、in silico drug-response simulation で最適治療戦略を探索する 3 段階フレームワーク (集団コホートでの疾患 latent space 学習→個別患者の twin 実体化→in silico シミュレーション) として構想される (Fig. 3)。LifeClock モデルは数百万の不均質 EHR を統合して全生涯にわたる健康リスクを予測しデジタルツインの中核原理を実証した。高リスク小児肝腫瘍では患者固有デジタルツインが in silico drug-response simulation で ceritinib を新規有効治療として同定し、patient-derived xenograft (PDX) 動物モデルで検証された。

XAIの二重役割: 信頼構築と生物学的発見: XAI は複雑モデルのブラックボックス性を解消しつつある。DNA メチル化に基づく脳腫瘍分類器では XAI がエンハンサー・大規模ヘテロクロマチンドメインなど機能的に関連するゲノム領域への依存を確認し、臨床採用に必要な信頼を構築した。さらに XAI は予測モデルを生物学的発見エンジンに変えうる: 前立腺がん悪性度予測に biologically informed neural network を使用した研究では、MDM4・FGFR1 という新規耐性ドライバーを同定し、in vitro で検証された。

考察/結論

AIによるマルチオミクス統合は、精密腫瘍学を「AI駆動型腫瘍学マルチオミクスループ」— 実世界データからのパターン発見→生物学的仮説生成→臨床試験検証→機構解明→臨床実装という反復的・自己強化的サイクル — へと根本的に移行させつつある (Fig. 4)。

先行研究との違い: 本レビューが提示するフレームワークは、単一モダリティ解析や従来の単純なマルチモーダルデータ融合モデルと異なり、生成AI、基盤モデル、および患者固有のデジタルツインを統合したシステムレベルの理解を提唱している。従来のマルチモーダル礼賛的なアプローチとは対照的に、本研究はモダリティ間の冗長性や高次元ノイズがモデル性能を低下させるリスク（unimodal モデルの方が優位となるケース）を明確に指摘しており、この点でこれまでの概念的レビューと大きく異なる。

新規性: 本研究で初めて、AI駆動型マルチオミクス統合が、孤立したタスクの改善を超えてがん医療全体の系統的理解を再編し、AI駆動型腫瘍学マルチオミクスループという新しいパラダイムを確立する可能性を提示した。特に、Foundation Models や Generative AI が新規生物学的仮説生成を加速し、XAI が信頼性と倫理的展開の保証機構として機能する構造は、これまでの研究では十分に強調されてこなかった新規な視点である。

臨床応用: 本知見は、がんの早期診断、精密な患者層別化、治療反応予測、薬剤耐性メカニズム解明といったがん医療のあらゆる側面に革新をもたらす臨床応用が期待される。特に、患者固有のデジタルツインは、予測的、個別化、能動的ながん医療を実現する最終目標として位置づけられており、in silico での治療シミュレーションを通じて、患者ごとに最適な治療戦略を特定できる臨床的有用性を持つ。

残された課題: 今後の検討課題（limitation）として、大規模・高品質・民族的多様性のあるマルチオミクスデータセットの取得コストと困難さ、施設間 domain shift によるモデル汎化問題、前向き臨床検証の欠如、adaptive algorithm に対応する規制経路の未整備、comprehensive profiling の高コスト、FHIR (Fast Healthcare Interoperability Resources) 準拠の interoperability 確保が挙げられている。これらの課題には PROBAST+AI などの評価フレームワーク、アルゴリズム公平性の監査、不確実性定量化（confidence score による「human-in-the-loop」安全機構）が対応策として提示されている。さらに、ゲノムおよびフラグメントミクスのランドスケープを統合したがん早期検出技術 Bruhm et al. NatRevCancer 2025 などの発展を踏まえ、実臨床におけるマルチオミクス統合の標準化が急務である。

方法

本論文はレビュー記事であるため、特定の新規実験手法は適用されない。代わりに、がん研究におけるAI駆動型マルチオミクスデータ統合の現状を体系的に合成し、新しいパラダイムを提示している。レビューの範囲は、ゲノミクス、エピゲノミクス、トランスクリプトミクス、プロテオミクス、メタボロミクスといった従来の分子層に加えて、医用画像（ラジオミクス、パソミクス）やコード化された臨床データから派生する「デジタルフェノミクス」を含む広範な「マルチオミクス」の定義を採用している。

本レビューは、AI駆動型マルチオミクスデータ統合の主要な方法論的側面を網羅している。これには、学習パラダイム（教師なし学習、自己教師あり学習、基盤モデル）、深層学習アーキテクチャ（CNN (convolutional neural network: 畳み込みニューラルネットワーク)、トランスフォーマー、GNN (graph neural network: グラフニューラルネットワーク)、生成モデル）、およびマルチオミクス融合戦略（早期統合、中間統合、後期統合）が含まれる。これらの各コンポーネントについて、その特性、利点、およびがん研究における特定の応用例が詳細に説明されている。

本レビューは、がん研究におけるAI駆動型マルチオミクスデータ統合の現状を体系的に合成するため、主要な文献データベースである PubMed、Embase、Web of Science を用いて、2000年から2025年までの関連論文を検索した。検索キーワードには、「artificial intelligence」「machine learning」「deep learning」「multi-omics」「multi-modal」「cancer」「oncology」「genomics」「proteomics」「radiomics」「digital pathology」「foundation models」「generative AI」「digital twin」「explainable AI」などを含めた。レビューの対象論文選定における inclusion/exclusion criteria (選択・除外基準) として、AIを用いたマルチオミクス統合の手法、応用、課題、将来展望に関する原著論文、レビュー論文、総説論文に限定し、単一モダリティのみを扱う研究や、検証が不十分な初期報告は除外した。論文の選定は、複数の著者による独立したスクリーニングと評価に基づき、関連性の高い論文を特定した。なお、検索および選定プロセスは PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) フローチャートのガイドラインに準拠して整理され、収集されたエビデンスの質と推奨度は GRADE (Grading of Recommendations Assessment, Development and Evaluation) システムを用いて評価・段階分けを行った。

統計的評価およびバイアスリスク評価の観点からは、予測モデルの評価ガイドラインである PROBAST+AI (Prediction model risk of bias assessment tool for Artificial Intelligence) などの標準化フレームワークの重要性について議論した。また、モデルの汎化性能を検証するための外部検証 (external validation) や、施設間のドメインシフト (domain shift) に対処するためのドメイン適応 (domain adaptation) 技術、さらにモデルの不確実性を定量化する uncertainty quantification (信頼スコアによる human-in-the-loop 安全機構) についても方法論的な整理を行った。

Research Wiki

エクスプローラー

Advancing AI for multi-omics and clinical data integration in basic and translational cancer research

背景

目的

結果

考察/結論

方法

グラフビュー

目次

バックリンク