• 著者: Zhang S, Ran A, Zhou J, Ling A, Sham K, Zhang Y, Tang Z, Nguyen TX, Yang D, Lam N, et al. (多施設共著グループ)
  • Corresponding author: Simon K. H. Szeto, Carol Y. Cheung (Department of Ophthalmology and Visual Sciences, The Chinese University of Hong Kong, Hong Kong SAR, China)
  • 雑誌: JAMA (The Journal of the American Medical Association)
  • 発行年: 2026
  • Epub日: 2026-06-15
  • Article種別: Original Investigation (Clinical RCT)
  • PMID: 42295755

背景

diabetic macular edema (DME) は就労年齢層の中等度視力喪失の主要原因であり、糖尿病患者の約7%に発生する。全世界で広く実施されている糖尿病網膜症スクリーニングはcolor fundus photography (CFP) を基盤とするが、2次元画像では黄斑の3次元的評価が困難であり、偽陽性紹介率が71〜86%という極めて高い値を示し専門眼科クリニックへの負担となっていた (Wong et al. 2017; Jyothi et al. 2009; Wharton et al. 2011)。DMEの診断基準検査であるOCT (optical coherence tomography) は3次元黄斑画像を提供しarea under the receiver operating characteristic curve (AUC) で評価されるが、その自動読影にAI (artificial intelligence) を組み合わせたシステムの診断性能は後ろ向き研究や内部検証では報告されているものの、実臨床での前向き検証やRCT (randomized controlled trial) に基づく紹介性能の評価は未解明のまま手が及ばなかった。特に、AIシステムのクリニカルパスウェイへの組み込みが偽陽性紹介を安全に削減できるか、感度を損なわずに達成できるかについての前向きエビデンスが乏しかった。

目的

眼底写真スクリーニングプログラムへのAI-OCTシステムの統合が、偽陽性DME紹介率を非劣性基準 (マージン20%) で制御しつつ診断感度を維持できるかを段階的評価により実証することを目的とした。

方法

香港特別行政区において2段階評価を実施した。第1段階として、2021年2月〜2023年8月に香港眼科病院トリアージ外来を受診した糖尿病患者603例 (1200眼) を対象に前向きサイレントモード検証を行った (対象: 18歳以上、1型または2型糖尿病)。第2段階として、2023年9月〜2025年4月に香港全域の糖尿病網膜症スクリーニングプログラム (1次〜3次医療機関含む) から紹介された疑似DME患者276例を対象に多施設非劣性RCTを実施した (登録番号: ChiCTR2400080231)。artificial intelligence optical coherence tomography (AI-OCT) システムはCirrus OCT (Carl Zeiss Meditec、6mm×6mm 3次元黄斑キューブ、512 Aスキャン/Bスキャン×128 Bスキャン) を用い、画像品質評価モデルと不確実性フラグ機構付きDME検出モデルを統合した。主要エンドポイントは偽陽性DME紹介率 (非劣性マージン20%、事前設定)、副次エンドポイントは感度・特異度・紹介率とした。群間差はカイ二乗検定および非パラメトリックブートストラップ法 (1000回) で解析し、SPSS (Statistical Package for Social Sciences) v31・R v4.1.3で統計処理し (Consolidated Standards of Reporting Trials for artificial intelligence; CONSORT-AI 準拠)、全統計は両側検定とした。

結果

前向きサイレントモード検証:AI-OCTの高感度・高特異度診断性能: 613例のうち603例 (98.4%) が組み入れ基準を満たした (平均年齢64.4歳、男性56.2%; 1型糖尿病5例 [0.83%]、2型糖尿病598例 [99.2%])。1200眼のうち86眼 (7.2%) が画像品質評価モデルにより判定不能と分類され、残る1114眼がDME検出モデルによる解析に進んだ (Fig. 2)。そのうち49眼 (4.4%) が不確実に分類された。DME検出モデルの性能は、AUC 0.95 (95%CI 0.93-0.96)、感度98.8% (95%CI 94.5%-100.0%)、特異度90.7% (95%CI 88.7%-92.4%) であった。画像品質評価モデルはAUC 0.99 (95%CI 0.98-1.00)、感度98.1% (95%CI 97.3%-98.8%)、特異度91.4% (95%CI 84.7%-97.2%) を達成した。DME検出モデルではTrue positive 77眼、False negative 1眼 (感度98.8% vs 偽陰性0.09%)、True negative 934眼、False positive 53眼であった (Fig. 2)。判定不能例の77.9%および不確実例の40.8%はDME非保有患者に相当し、RCTでのオプトメトリスト再評価導入の根拠となった。全体的なDME有病率は被験者の10.3% (62/603例) であり、参加者の糖尿病罹病期間中央値は6.5年 (四分位範囲2.0-14.0年)、高血圧合併率は71.8%であった。

多施設非劣性RCT:偽陽性紹介率の大幅削減と感度維持の達成: 318例のうち276例 (86.8%) が組み入れられ、介入群137例 (平均年齢63.4±11.5歳、男性55.5%) と対照群139例 (平均年齢63.7±10.3歳、男性53.4%) に無作為割り付けされた (欠損データなし)。両群のDME有病率は同等であった (介入群29.9%対対照群30.9%)。主要エンドポイントである偽陽性DME紹介率は24.1% vs 69.1% (介入群対対照群、絶対差 −45.0%; 95%CI −58.2%〜−31.9%; p<0.001 for noninferiority) であった (Fig. 3)。信頼区間の上限 (−31.9%) が事前設定の非劣性マージン20%を下回り非劣性基準を満たした。介入群の偽陽性率95%CIは14.6%-37.0%、対照群は61.0%-76.1%であり、探索的優越性解析においても統計学的有意差が確認された (p<0.001)。

DME紹介率は39.4% vs 100.0% (介入群対対照群、60.6%の紹介削減; 95%CI 30.7%-47.5% vs 100%-100%)。DME紹介感度は両群ともに100.0% (95%CI 100%-100%) と同等であり、介入群の非紹介患者においてDME発生例は皆無であった (Fig. 3)。特異度は86.5% vs 0.0% (介入群対対照群; 95%CI それぞれ79.3%-92.9%および0%-0%)、評価者間の一致度はCohen kappa=0.89と高値であった。試験参加を完遂した全276例において欠損データはなかった。

AI-OCTシステム設計:human-in-the-loopアプローチと実装可能性: システムは画像品質評価 (image-quality assessment)・DME検出・不確実性フラグの3機能を統合し、OCT撮影から約5分以内に標準化レポートを生成する (Fig. 1)。DME検出モデルは下限閾値 (No DME感度≥95%) と上限閾値 (Yes DME特異度≥98%) の二重確率閾値を用い、この範囲外の予測を不確実に分類した。不確実例はオプトメトリストによる再評価を促す設計とし、眼科医がAI確率スコアと眼底写真レポート情報 (視力等) を組み合わせて最終紹介判断を行うhuman-in-the-loopアプローチを採用した。介入群では54例を紹介、83例 (60.6%) を defer とした vs 対照群では139例全員 (100%) が自動的に紹介対象となった。RCT全体での参加者完遂率は100%で欠損データは認められなかった。1次〜3次医療機関にまたがる多様な現場に統合可能な設計であり、サイレントモードから実用導入への橋渡しを実現した (Fig. 1)。なお参加者のうち10%をランダムに選び、独立した眼科医による参照基準判定の再評価を実施し、Cohen kappa=0.89の高一致度を確認した。

考察

これまでのAI眼科診断研究では後ろ向き評価や内部検証に留まり、実臨床での前向きRCTによる有効性確認が不足していた。先行研究と異なり、本研究は段階的評価 (サイレントモード→多施設RCT) というフレームワークを用いて感度100%を維持しながら偽陽性紹介率を69.1%から24.1%へと45%絶対的に削減できることを初めて直接実証した点が新規な貢献である (Ke et al. NatMed 2026)。本研究で初めて、高リスクAI技術のRCTによる前向き検証が眼科スクリーニングで成功した。

臨床応用の観点から、本AI-OCTシステムは1次〜3次医療機関にわたる実臨床環境への統合設計を備え、専門眼科への紹介率を39.4%まで削減することで医療資源の最適化と患者負担軽減という臨床的有用性を示している。医療資源が限られた環境においてAI診断の臨床現場での価値は高く、本手法は他の眼科疾患スクリーニングや他臨床領域でのAI統合の実践的枠組みを提供する (Xing et al. Cell 2026)。

残された課題として、本試験はシングルOCTベンダー (Carl Zeiss Meditec) のみを対象としており他機種への汎用性が未確認である。RCTにおける紹介判断は倫理的配慮により仮想的であり実世界実装での性能は別途評価が必要である。他疾患への適用、多様な民族集団での検証、長期視力アウトカムへの影響評価が今後の検討課題として残る (limitation)。また、優越性解析は事前設定されておらず探索的解析として解釈すべきである。AI診断の医学教育における影響については別途考察が必要である (Ke et al. NatMed 2026)。