Sequential Diagnosis(AIによる逐次診断)

論文まとめ Sequential Diagnosis with Language Models

Abstract • AIは医学知識や推論の普及に大きな可能性を持つ． • しかし，既存の医療AI評価は ➢静的な症例: 症例提示文を最初からすべて提示 ➢選択肢付きで選ぶ形式が多い． •
臨床においては，得られた情報に基づいて検査を選択し，最終判断がされる． • 本論文では，以下の2つを提案 ➢NEJM（ジャーナル）の304症例を逐次診断形式に変換することで，精度に加え診断に至るコストも評価可能なSequential Diagnosis Benchmark（SDBench） ➢複数の医師を模擬する診断システムMAI Diagnostic Orchestrator（MAI-DxO） • 多様な言語モデルで評価を行い，言語モデル単体に対し高い精度・コスト削減を達成． ※NEJM: New England Journal of Medicine

Sequential Diagnosis Benchmark (SDBench)（1） • データセット構築 ➢New England Journal of
Medicine（NEJM）のCase Challenge/CPCの症例から304件． ➢一般的な病気（例：COVID-19肺炎）から稀な疾患（例：新生児低血糖を伴う奇形腫）まで臨床的な症例に関する発表を掲載． ➢患者の「主訴・経過・検査所見・確定診断」まで詳細が記録． ➢最初は主訴のみから，段階的に開示． ※基本的に有料

Sequential Diagnosis Benchmark (SDBench)（2） • 構造 ➢診断者（医師/LLM/オーケストレータ）→評価対象 1. 質問: 病歴や所見を聞く．
2. 検査依頼: 検査・画像を注文する． 3. 診断: 最終診断を一度だけ提出する． ➢エージェント（LLM） Gatekeeper: 患者役．各ケースのフルデータを保持し，質問や検査リクエストに応じて「必要な情報だけ」を返す． Judge: 採点官．診断者の最終判断を，医師が作った評価ルーブリックに基づいて判定． Cost Estimator: 会計係．質問・検査・診察を金額に換算し，累計コストを計算する． O3 不明 o4-mini

MAI Diagnostic Orchestrator (MAI-DxO) • 1つのLLMが5つの医師役を演じる→チーム診断の模倣 1. Dr. Hypothesis: 可能性が高いtop-3の疾患を確率でランク付け，
2. Dr. Test-Chooser: 各ラウンドで最大3つの検査を提案． 3. Dr. Challenger バイアスや思い込みを指摘する． 4. Dr. Stewardship コスト管理者．安価で侵襲の少ない検査を提案． 5. Dr. Checklist 品質管理．検査名の正しさや矛盾の確認．それぞれが診断プロセスに専門知識を提供． • Chain of Debate: 上記5役を内部で議論させ，最終的な「質問/検査/診断」を決定．

結果サマリ • 人間医師 vs LLM ➢人間医師（米英21人） 診断精度: 20% 平均コスト: $2,963
➢LLM（単体） GPT-4o: 精度49.3% / コスト $2,745 o3: 精度78.6% / コスト $ 7,850 他のLLM（Claude, Gemini, DeepSeek, Grok, Llama）も医師を大きく上回る． LLMは既に人間医師より高精度だが，コスト効率はモデルにより大きく変わる． • O3単体 vs MAI-DxO (o3) ➢O3単体: 78.6% / コスト $7,850 → 高精度だが検査を乱発しがち． ➢MAI-DxO (複数の仮想パネルを並行稼働）: 85.5% / $ 7,184 ➢MAI-DxO (予算上限モード）: 81.9% / $ 4,735

ボイスチャートへの利用 • データセット: 似た診断方法にするなら， NEJMのCase Challenge/CPCを参考にgpt-5で生成 • 実験側の設定 ➢Gatekeeper: 患者
➢Judge: 判定→スコア制（判定用ルーブリック作成） ➢Cost Estimator→不要 • 1つのLLMで複数の役割を議論させる． ➢5つの役割を利用（精度向上）． • プロンプトとか具体的な作り方まだ確認できてないです．．．

Sequential Diagnosis(AIによる逐次診断)

Sequential Diagnosis(AIによる逐次診断)

北爪聖也 PRO

More Decks by 北爪聖也

Featured

Transcript

論文まとめ Sequential Diagnosis with Language Models

Abstract • AIは医学知識や推論の普及に大きな可能性を持つ． • しかし，既存の医療AI評価は ➢静的な症例: 症例提示文を最初からすべて提示 ➢選択肢付きで選ぶ形式が多い． •

Sequential Diagnosis Benchmark (SDBench)（1） • データセット構築 ➢New England Journal of

Sequential Diagnosis Benchmark (SDBench)（2） • 構造 ➢診断者（医師/LLM/オーケストレータ）→評価対象 1. 質問: 病歴や所見を聞く．

MAI Diagnostic Orchestrator (MAI-DxO) • 1つのLLMが5つの医師役を演じる→チーム診断の模倣 1. Dr. Hypothesis: 可能性が高いtop-3の疾患を確率でランク付け，

結果サマリ • 人間医師 vs LLM ➢人間医師（米英21人） 診断精度: 20% 平均コスト: $2,963

ボイスチャートへの利用 • データセット: 似た診断方法にするなら， NEJMのCase Challenge/CPCを参考にgpt-5で生成 • 実験側の設定 ➢Gatekeeper: 患者