Machine learning / AI

一行要約

Machine learning / AI は大規模な omics・画像・臨床データから pattern recognition と予測モデルを構築する計算手法群であり、肺癌領域では H&E 画像 → 分子サブタイプ / 予後予測 (Yu et al. NatCommun 2016)、cell-free DNA fragmentomics による早期検出 (Cristiano et al. Nature 2019 / Chabon et al. Nature 2020)、IO 効果予測の gene expression model (Wiesweg et al. EurJCancer 2020)、AlphaFold による標的タンパク質構造予測 (Burley et al. NEnglJMed 2021)、ゲノム生成モデル (Brixi et al. Nature 2026) 等で実装が進む。バイオマーカー開発・画像診断・創薬・cell deconvolution (Yasumizu et al. NARCancer 2024) の中核 enabling tool。

原理

学習パラダイム

  • 教師あり学習: labeled data (X, y) から予測関数 f(X)→ŷ を学習。Random forest / gradient boosting (XGBoost / LightGBM) / logistic regression / SVM は構造化データ (NGS panel / 臨床特徴量) で標準
  • 教師なし学習: clustering (k-means / hierarchical / Leiden) / dimensionality reduction (PCA / t-SNE / UMAP) でデータ構造を発見。scRNA-seq / methylome の cell type annotation・subtype 同定に必須
  • Deep learning: 多層 neural network で複雑な非線形関係を捉える。CNN (convolutional NN) は画像解析、RNN / LSTM は時系列、Transformer / attention は配列データ・multi-modal integration に適用
  • Self-supervised / pre-training: ラベルなし大規模データから汎用表現を獲得 (contrastive learning / masked autoencoder)。少数 labeled data での fine-tuning を可能にする foundation model paradigm の基盤
  • Generative model: VAE / GAN / diffusion / autoregressive transformer で新規データ生成。創薬での compound design、ゲノム配列 design (Brixi et al. Nature 2026 が DNA 〜 protein scale の生成 foundation model を実装) に応用

Foundation model paradigm

Conard et al. Cell 2026 が腫瘍学における generative model の現状と展望を包括的にレビューし、cell state simulation・perturbation prediction・multi-modal integration を中核 application として整理した。Pathology foundation model (CHIEF / UNI / Virchow 系)、protein foundation model (Burley et al. NEnglJMed 2021)、genomics foundation model (Evo2) が次々登場し、small dataset での downstream task fine-tuning が新標準となっている。

主要エビデンス (がん領域での貢献)

Digital pathology (H&E 画像 AI)

Yu et al. NatCommun 2016 は NSCLC の H&E whole-slide image から fully automated に抽出した quantitative pathology features が予後予測力を持つことを示した先駆的 work で、deep learning 以前の handcrafted feature + ML pipeline で digital pathology biomarker の feasibility を確立した。以降 CNN-based whole-slide model が EGFR / KRAS 変異予測、PD-L1 IHC 自動定量、TIL atlas (spatial digital pathology) へと展開。最近の foundation model (CHIEF / UNI / Virchow / PathChat) は WSI レベルの汎用 representation を提供し、rare cancer や少数施設データでの transfer learning が現実化。

Liquid biopsy + ML (cfDNA fragmentomics)

Cristiano et al. Nature 2019 は genome-wide cfDNA fragmentation profile (DELFI) が pan-cancer 早期検出 biomarker として機能することを ML 分類器 (gradient boosting) で実証。Chabon et al. Nature 2020 は cfDNA mutation・fragmentomics・clinical features を統合する ML model (CAPP-Seq / Lung-CLiP) で stage I NSCLC の血漿検出を可能にした landmark。Zhou et al. ProcNatlAcadSciUSA 2022 / Moser et al. TrendsGenet 2023 が fragmentomics + ML の biological grounding と方法論的 best practice を整理。Tsui et al. CancerCell 2025 が現行 cfDNA fragmentomics state-of-the-art を総説。

Cell deconvolution と methylation-based atlas

Yasumizu et al. NARCancer 2024 は DNA methylation profile から neural network で TME 細胞種組成を deconvolute する手法を確立し、bulk methylome から TME landscape と予後相関を抽出する道を拓いた。Lalchungnunga et al. BrJCancer 2026 は methylation deconvolution の signal/noise 分離で proliferation artifact を補正する重要性を示した。

IO 効果予測 ML

Wiesweg et al. EurJCancer 2020 は NSCLC の bulk gene expression context から PD-L1 と独立した IO response prediction を ML で実現し、PD-L1 単独 biomarker の限界を超える multi-feature predictor の rationale を提供。Bruno et al. BrJCancer 2023 は dynamic biomarker-OS model で ICI 開発の早期 decision support を ML / pharmacometric framework で実装。

Protein structure prediction

Burley et al. NEnglJMed 2021 (AlphaFold2 NEJM perspective) が proteome-scale 構造予測の臨床的含意を整理。AlphaFold2 / 3 は drug discovery (cryptic pocket 同定 / virtual screening)、variant pathogenicity 解釈、antibody-antigen interface design を変革し、AlphaMissense は missense variant 病原性予測の新標準として variant of uncertain significance (VUS) 解釈に使用される。

Genome / cell modeling

Brixi et al. Nature 2026 は DNA 〜 protein scale を統一的に扱う genome foundation model Evo2 を提示し、生命全 domain の配列を学習・生成する scale でのモデリングを可能にした。Conard et al. Cell 2026 が cancer biology における generative model の応用 landscape を体系化。

Brain metastasis subtyping

Sanchez-Aguilera et al. CancerCell 2023 は brain metastasis の neural circuit perturbation profile から ML で subtype を抽出し、neuro-oncology に新軸の分類学を導入。

Spatial / single-cell ML

Frangieh et al. NatCancer 2026 / Lichun et al. NatCancer 2026 が single-cell + spatial omics の ML-driven analysis (cell type annotation / niche identification / patient stratification) の臨床応用 readiness を総説。

適用領域

Digital-pathology での H&E 画像からの分子予測、scRNA-seq データの cell type annotation 自動化、multi-omics integration による patient stratification、drug response prediction (GDSC / CCLE)、clinical trial の適格性マッチング、AlphaFold による標的タンパク質構造予測に使用される。LLM の medical knowledge 応用、clinical decision support、放射線画像 AI (CT 結節検出 / 縦隔評価)、薬物動態 PK/PD modeling の dynamic biomarker integration (Lemaire et al. ClinPharmTher 2023 が QSP × IO の方向性を整理) も進行。

限界と注意点

  • 過学習 / data leakage: Validation 不十分な研究で頻発し、外部コホートで性能低下。Train/val/test split の厳密化、cross-institutional validation が必須
  • Distribution shift: Training cohort と臨床現場での患者特性 / 染色プロトコル / scanner の差で性能低下。Domain adaptation / federated learning が緩和策
  • Bias と公平性: Training data の人種・施設・年代偏在がモデルの公平性を損なう。Health equity の観点で diverse cohort 構築が課題
  • Interpretability / explainability: Black-box NN の臨床実装障壁。SHAP / Grad-CAM / attention visualization 等の post-hoc explanation で補完
  • 規制と承認: FDA / PMDA の SaMD (software as a medical device) 承認、prospective validation の必要性、locked vs adaptive algorithm の規制枠組
  • プライバシー / データ統治: Federated learning / differential privacy で患者データを移送せず学習。Cross-institution collaboration の鍵
  • Reproducibility: コード / モデル重み / 学習データの公開不足。MLOps best practice (model card / data sheet / version control) の標準化が遅れている
  • Foundation model の学習資源: 大規模 pre-training は計算コスト膨大で academia でのアクセス格差が課題

Open Questions

  • Foundation model の臨床 utility 検証: Pathology / genomics foundation model (CHIEF / UNI / Virchow / Evo2) が prospective trial で従来 biomarker を上回るか
  • Multi-modal integration の最適 architecture: H&E + NGS + radiology + clinical の統合で additive な予測 gain を得る design
  • Causal inference の AI 統合: Observational data からの治療効果推定 (doubly-robust / G-computation + ML nuisance) の臨床応用
  • AI bias と health equity: Underrepresented population での性能保証、equitable AI のベンチマーク確立
  • Regulatory science: Adaptive ML model の continual learning と承認枠組の整合性、post-market surveillance design
  • AI hallucination と臨床安全: LLM clinical decision support の hallucination リスクと safety guardrail
  • データ統治と federation: 患者データを移送せず学習する federated learning の臨床 trial level での実装可能性

重要論文 Top 10

  1. ★★★★★ Burley et al. NEnglJMed 2021 — AlphaFold2 が proteome-scale 構造予測を解いた、創薬・variant 解釈の新時代を開く paradigm-shift
  2. ★★★★★ Chabon et al. Nature 2020 — cfDNA mutation + fragmentomics + clinical features 統合 ML (Lung-CLiP) で stage I NSCLC 血漿検出を実現した landmark
  3. ★★★★ Yu et al. NatCommun 2016 — NSCLC H&E WSI から自動抽出した features の予後予測力を実証、digital pathology biomarker の先駆
  4. ★★★★ Cristiano et al. Nature 2019 — DELFI で genome-wide cfDNA fragmentation を pan-cancer 早期検出 biomarker として ML で実証
  5. ★★★★ Conard et al. Cell 2026 — Cancer 領域の generative model 応用 landscape (cell state / perturbation / multi-modal) を体系化した最新総説

関連エンティティ