MedQA, IgakuQA, KokushiMD-10 高(飽和) あり 飽和・汚染リスクが顕在化 2. 診断 MedXpertQA / AMIE, CRAFT-MD 低 翻訳 / 対話は無し 対話的診断の公開ベンチが限定的 3. 推論 MedAgentsBench, MedCalc-Bench 低〜中 翻訳のみ 量的・規則推論は臨床水準に未到達 4. 安全性 HealthBench, CARES, JMedEthicBench 中 あり 日本語は倫理特化のみ、総合安全性は未整 備 5. 事務・レセプ ト ICD コーディング, ELYZA UC2 低 非公開のみ 公開ベンチは英語 ICD 中心、日本語は非 公開 6. カルテ・EHR MedAlign, MedAgentBench 低 ほぼ無し 合成データ中心、日本語公開ベンチは皆無 + 統合 MEDIC, HELM, LiveMedBench — JMedBench スイート型・継続更新へ移行途上 総括:実務(事務・カルテ・対話的診断)軸は英語圏でも発展途上。日本語ではこれらの公開ベンチがほぼ無 い一方、知識・安全性は整備が進む。 “ “ 16