Article data
General-purpose large language models outperform specialized clinical AI tools on medical benchmarks
- 著者: Krithik Vishwanath, Anton Alyakin, Mrigayu Ghosh ほか、Daniel Alexander Alber, Eric Karl Oermann (corresponding)
- Corresponding author: Krithik Vishwanath (UT Austin)、Eric Karl Oermann (NYU Langone Health)
- 雑誌: Nature Medicine (Brief Communication)
- 発行年: 2026
- Epub日: N/A
- Article種別: Brief Communication (independent benchmark evaluation study)
- PMID: 42286322
背景
大規模言語モデル LLM (large language model) を基盤とする専門特化型臨床 AI ツールが、独立した評価がほとんどないまま大規模に医療現場へ導入されつつある。OpenEvidence や UpToDate Expert AI などの商用ツールは、ドメイン特化型の学習や検索拡張生成 RAG (retrieval-augmented generation) によって汎用フロンティア LLM を上回る臨床性能を謳うが、そのアーキテクチャ・基盤モデル・学習パイプラインは非公開であり、臨床医や医療システムは独立した根拠なしにその価値と安全性を評価せざるを得ない (Vishwanath et al. NatMed 2026)。一方で、汎用フロンティア LLM は大規模な学習コーパスと広範なアライメントにより、ドメイン特化の改変なしに臨床 AI ツールに匹敵しうる可能性がある (Zhu et al. CancerCell 2022)。これまでの臨床 AI 評価は標準化ベンチマークに偏り、データ漏洩の懸念や、実臨床の医師クエリを用いた盲検評価の欠如という限界があった (Gogishvili et al. NatMed 2022)。すなわち「専門特化型臨床 AI ツールが汎用 LLM より臨床的に優れているか」を実世界クエリで独立検証した研究が十分でなく、その優劣は未解明 (knowledge gap) のまま臨床導入が先行していた。本研究はこの空白を埋めることを目的とした。
目的
専門特化型臨床 AI ツール 2 種 (OpenEvidence、UpToDate Expert AI) と汎用フロンティア LLM 3 種 (OpenAI 社の GPT-5.2 (generative pre-trained transformer)、Google Gemini 3.1 Pro Preview、Anthropic Claude Opus 4.6) を、(1) 医学知識を測る MedQA 500 問、(2) 臨床医との整合性を測る HealthBench 500 項目、(3) 実臨床環境で医師が汎用 LLM へ投げた実クエリ 100 問から構築した real clinical queries (RCQ) ベンチマークの 3 段階で定量比較し、さらに実世界対照として Google Search AI Overview を加え、12 名の米国臨床医による無作為化盲検レビューで臨床的有用性・安全性・明瞭性を評価することを目的とした。
結果
MedQA では汎用 LLM が臨床 AI ツールを上回った:MedQA 500 問 (n=500 questions) の正答率は Gemini が最高で 97.4% (95% CI 95.6%-98.5%)、次いで GPT 94.2% (91.8%-95.9%)、Claude 90.2% (87.3%-92.5%) であった (Fig 2a)。臨床ツールはこれより低く、OpenEvidence 89.6% (86.6%-92.0%)、UpToDate 88.4% (85.3%-90.9%) であった。Gemini は他の全モデルを上回り (McNemar P<1×10⁻⁴ vs OpenEvidence/UpToDate/Claude、P=0.02 vs GPT)、GPT も OpenEvidence (P=0.008)・UpToDate (P=0.0004)・Claude (P=0.04) を有意に上回った。すなわち最高位の汎用 LLM (Gemini) と最高位の臨床ツール (OpenEvidence) の間には約 7.8 ポイントの正答率差があり、ドメイン特化の優位性は MedQA では認められなかった。
HealthBench でも汎用 LLM、特に GPT が優位であった:HealthBench 500 項目 (n=500 questions、0-100 にスケール、LLM judge パネルで採点) では GPT が最高 88.0 (95% CI 85.9-90.1)、次いで Gemini 79.3 (76.6-81.9)、Claude 77.0 (74.2-79.9) で、臨床ツールは OpenEvidence 62.6 (59.3-65.9)、UpToDate 61.3 (58.0-64.6) と低く約 25 ポイントの差があった (Fig 2b)。GPT は他の全モデルを上回り (Wilcoxon P<10⁻⁹)、2 つの臨床ツール間に差はなかった (P=0.6)。テーマ別解析では GPT が 7 カテゴリすべてで首位または首位タイ、両臨床ツールは 7 カテゴリすべてで最下位または最下位タイで、6 カテゴリで GPT との差が有意であった (P≤0.004)。
実臨床クエリ RCQ で 2 つの性能ティアが明確に分離した:NYU (New York University) Langone Health の HIPAA (Health Insurance Portability and Accountability Act) 準拠 GPT インスタンスへの匿名クエリ 100 問を 6 モデルが回答し、12 名の盲検臨床医が 4 次元 (臨床的正確性・完全性・安全性/有害回避・明瞭性) を 1-4 点で評価、計 1,800 の model-question アノテーションを得た。32 件の拒否を除外した 568 応答で 6 モデルは有意に異なり (Friedman P<10⁻⁹)、フロンティア LLM が第 1 ティアを形成した (Gemini 平均総合 3.62 [95% CI 3.56-3.68]、GPT 3.54、Claude 3.52、相互に差なし)。臨床ツールと Google AI が続いた (OpenEvidence 3.24、UpToDate 3.17、Google AI Overview 3.27、相互に差なし; Fig 2c)。有意なペア比較 9 件はすべてティア間 (rank-biserial r=0.5-0.9) で、rater leniency 補正後、臨床 AI ツールは Gemini より高評価を得るオッズが 49-87% 低かった (odds ratio 0.13-0.51、すべて P<0.0001)。これは線形混合モデルの感度解析で 1-4 点スケール上 0.36-0.44 点低い水準に相当した (n=1,704 ratings、すべて P<0.0001)。Google AI Overview は全次元で OpenEvidence・UpToDate と同等以上であり、専門特化型ツールが汎用検索 AI を上回れていないことを示した。
安全性は同等だが UpToDate は拒否率が高かった:ティア構造は 4 次元すべてで保たれ、モデル差は明瞭性で最大 (Kendall W=0.292)、臨床的正確性で最小 (W=0.141) であった。OpenEvidence は明瞭性が最低 (平均 2.84) で、弱点が知識でなくコミュニケーションにあることを示した。UpToDate AI は 19% のクエリを拒否し他モデル (1-3%) より多かった (P<0.01; Fig 2e)。安全性アウトカム (有害コンテンツ Cochran Q=4.00, P=0.55、ハルシネーション Q=5.00, P=0.42) はモデル間で差がなかった (Fig 2f-g)。12 名の臨床医のランク付けは高度に一致し (Kendall W=0.651, P=2.3×10⁻⁷)、フロンティア LLM を臨床ツールより上位に置いた。
考察/結論
本研究は、専門特化型臨床 AI ツールを汎用フロンティア LLM と実臨床医クエリを用いて独立・定量比較した点で意義深い。ドメイン特化型ツールが汎用 LLM を上回ると謳ってきた先行研究やベンダー主張と異なり、本研究は MedQA・HealthBench・RCQ の 3 段階すべてで汎用 LLM が臨床 AI ツールを一貫して上回り、臨床ツールが auto-enabled Google Search AI Overview と同等にとどまることを示した。とりわけ実臨床クエリを 12 名の盲検臨床医が評価し 1,800 アノテーションを集めた RCQ ベンチマークは、データ漏洩を排した実世界評価としてこれまで報告されていない規模の独立検証を提供する新規な知見である。MedQA・HealthBench のような既存ベンチマークは学習データ漏洩の影響を受けうるのに対し、医師の実クエリに基づく RCQ はこの汚染から自由であり、評価の妥当性を高めている。臨床的意義として、これらの結果は「臨床特化」という標榜だけでは性能を保証せず、ツール導入前に独立した実世界評価が必須であることを臨床現場に強く示唆し、調達・規制判断への橋渡しとなる。安全性が全モデルで同等であった一方、UpToDate の高い拒否率や OpenEvidence の明瞭性の低さは、実装上の差が臨床有用性を左右することを示す。一方で残された課題として、臨床ツールは公開 API を持たず Web インターフェース経由で照会したため、隠れたプロンプトや出力形式の差が性能に影響しうる限界 (limitation) がある。また HealthBench は OpenAI 開発のため GPT に有利な可能性があり (本研究は LLM judge パネルで緩和)、RCQ は単一施設由来でモデルが頻繁に更新されるため、評価の一般化可能性と再現性の継続的検証が今後の検討課題である。
方法
NYU Langone 治験審査委員会承認 (IRB i23-00510) のもと、MedQA から 500 問、HealthBench から 500 単一ターンプロンプトを乱数シード (seed=62) で無作為抽出した。MedQA は exact McNemar 検定 (Holm-Bonferroni 補正) で、HealthBench は LLM judge パネル採点後に Wilcoxon 符号順位検定 (Holm-Bonferroni 補正) でモデル間を比較した。RCQ ベンチマークは NYU Langone の HIPAA 準拠 GPT インスタンスへの匿名・de-identified クエリ 100 問から構築し、6 モデル (汎用 LLM 3 種 + 臨床ツール 2 種 + Google AI Overview) が回答、12 名の臨床医評価者が各 question-model ペアにつき 3 名割当で 4 次元を 1-4 点で採点し、有害・ハルシネーションの二値フラグを付した。拒否を除外し 568 項目・1,704 評価を解析対象とし、Friedman 検定で全体差を、Wilcoxon 符号順位検定 (Holm-Bonferroni) でペア比較を行い、rater leniency 補正に線形混合モデル、二値フラグに Cochran Q とペアワイズ McNemar を用いた。観察単位は MedQA/HealthBench/拒否率で個別質問、RCQ で question-model-rater 評価とした。データセット: MedQA・HealthBench は HuggingFace 公開、RCQ は IRB 制約により非公開 (seed=62 で再現可能)。