Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sequential Diagnosis(AIによる逐次診断)

Avatar for 北爪聖也 北爪聖也 PRO
September 30, 2025
3

Sequential Diagnosis(AIによる逐次診断)

マイクロソフトの「Sequential Diagnosis with Language Models」という論文は、医療分野における逐次的診断(sequential diagnosis)をAIで実現する研究です。この論文では、AIが医師の診断過程を模倣し、逐次的に診断質問や検査を選択していくことで、高精度かつ費用対効果の高い診断を可能にする手法を提案しています。

Avatar for 北爪聖也

北爪聖也 PRO

September 30, 2025
Tweet

Transcript

  1. Abstract • AIは医学知識や推論の普及に大きな可能性を持つ. • しかし,既存の医療AI評価は ➢静的な症例: 症例提示文を最初からすべて提示 ➢選択肢付きで選ぶ形式 が多い. •

    臨床においては,得られた情報に基づいて検査を選択し,最終判断がされる. • 本論文では,以下の2つを提案 ➢NEJM(ジャーナル)の304症例を逐次診断形式に変換することで, 精度に加え診断に至るコストも評価可能なSequential Diagnosis Benchmark(SDBench) ➢複数の医師を模擬する診断システムMAI Diagnostic Orchestrator(MAI-DxO) • 多様な言語モデルで評価を行い,言語モデル単体に対し高い精度・コスト削減を達成. ※NEJM: New England Journal of Medicine
  2. Sequential Diagnosis Benchmark (SDBench)(1) • データセット構築 ➢New England Journal of

    Medicine(NEJM)のCase Challenge/CPCの症例から304件. ➢一般的な病気(例:COVID-19肺炎)から稀な疾患(例:新生児低血糖を伴う奇形腫)まで 臨床的な症例に関する発表を掲載. ➢患者の「主訴・経過・検査所見・確定診断」まで詳細が記録. ➢最初は主訴のみから,段階的に開示. ※基本的に有料
  3. Sequential Diagnosis Benchmark (SDBench)(2) • 構造 ➢診断者(医師/LLM/オーケストレータ)→評価対象 1. 質問: 病歴や所見を聞く.

    2. 検査依頼: 検査・画像を注文する. 3. 診断: 最終診断を一度だけ提出する. ➢エージェント(LLM) Gatekeeper: 患者役.各ケースのフルデータを保持し, 質問や検査リクエストに応じて「必要な情報だけ」を返す. Judge: 採点官.診断者の最終判断を, 医師が作った評価ルーブリックに基づいて判定. Cost Estimator: 会計係.質問・検査・診察 を金額に換算し,累計コストを計算する. O3 不明 o4-mini
  4. MAI Diagnostic Orchestrator (MAI-DxO) • 1つのLLMが5つの医師役を演じる→チーム診断の模倣 1. Dr. Hypothesis: 可能性が高いtop-3の疾患を確率でランク付け,

    2. Dr. Test-Chooser: 各ラウンドで最大3つの検査を提案. 3. Dr. Challenger バイアスや思い込みを指摘する. 4. Dr. Stewardship コスト管理者.安価で侵襲の少ない検査を提案. 5. Dr. Checklist 品質管理.検査名の正しさや矛盾の確認. それぞれが診断プロセスに専門知識を提供. • Chain of Debate: 上記5役を内部で議論させ, 最終的な「質問/検査/診断」を決定.
  5. 結果サマリ • 人間医師 vs LLM ➢人間医師(米英21人) 診断精度: 20% 平均コスト: $2,963

    ➢LLM(単体) GPT-4o: 精度49.3% / コスト $2,745 o3: 精度78.6% / コスト $ 7,850 他のLLM(Claude, Gemini, DeepSeek, Grok, Llama)も医師を大きく上回る. LLMは既に人間医師より高精度だが,コスト効率はモデルにより大きく変わる. • O3単体 vs MAI-DxO (o3) ➢O3単体: 78.6% / コスト $7,850 → 高精度だが検査を乱発しがち. ➢MAI-DxO (複数の仮想パネルを並行稼働): 85.5% / $ 7,184 ➢MAI-DxO (予算上限モード): 81.9% / $ 4,735
  6. ボイスチャートへの利用 • データセット: 似た診断方法にするなら, NEJMのCase Challenge/CPCを参考にgpt-5で生成 • 実験側の設定 ➢Gatekeeper: 患者

    ➢Judge: 判定→スコア制(判定用ルーブリック作成) ➢Cost Estimator→不要 • 1つのLLMで複数の役割を議論させる. ➢5つの役割を利用(精度向上). • プロンプトとか具体的な作り方まだ確認できてないです...