Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

【2025年10月~12月】 医療分野 ×LLM研究紹介

Avatar for Stardust Stardust
December 04, 2025
26

【2025年10月~12月】 医療分野 ×LLM研究紹介

Avatar for Stardust

Stardust

December 04, 2025
Tweet

Transcript

  1. 4B, 27BのモデルがHuggingface上で公開されています。 https://huggingface.co/google/medgemma-27b-it MedGemma(Google, 2025/7) 医療ドメインのVLMといえば! SigLIPという画像エンコーダを匿名化され た医療画像で事前学習。 - 胸部X線画像

    - 皮膚病学画像 - 眼科学画像 - 組織病理学画像 等。 ReXVQA[PSB2026]というベンチマークでもその 強さが検証されています! MedGemma 83.24% JanusPro-7B 66.56% Qwen2.5-VL 65.55% 医療ドメイン特 化の効果が顕 著に見られ る! https://arxiv.org/abs/2507.05201
  2. MedAgentBench(Jiang et al., NEJMAI, 2025/8) StanfordMLチームから, AgentBenchを医療用に発展させたベンチマークが公開されまし た。 https://github.com/stanfordmlgroup/MedAgentBench DockerとAPIKEYですぐ動かせそう 医療AIエージェントの評価研究!

    - Gorilla(2023)という若干古めの研究が BFCLという名で引用されているが... (?) Claudeがbest success rateで69.67%でした。 success rateが伸び悩んだ一因としては、想定した フォーマット通りの回答を出力するように制御しき れていない点が挙げられています。
  3. MedTutor(Jang et al., EMNLP2025) 医療の教育にも活用! https://aclanthology.org/2025.emnlp-demos.24.pdf vLLMを用いたRAGシステムで症例報告を教育コンテンツに RAGシステムの設計方 法としても参考になる 部分が。

    本研究はRadiologyが対象 だが, 他の領域にも転用可 能性が高い。 評価には専門の放射線科医が 参画。alignment度合いは中で あり、まだまだ専門家の存在も 重要。
  4. How far are we from Baymax?(Wang et al., 2025/5) 医療AIといえば「ベイマックス」!ということで、現状のLLM

    Agentがどこまでの性能を発 揮するのかを調べたサーベイ論文となります。 論文内に画像貼ってあるけど権利とか大丈夫なのだろうか。。。(・ー・) https://arxiv.org/pdf/2502.11211 医療LLMのサーベイ論文 まとめ方や考察など、あまり示唆などは無いかな ...と いう感じだったので調査用に。 ドメイン特化LLMでおなじみの米Hippocratic AI社 は、2024年の時点でPolarisというconstellation architectureを発表している。さすが。 https://arxiv.org/pdf/2403.13313 各個別タスクに対する試みとしては成功例が順調に 増えているが、それらを統合することによって全体の ワークフローの効率性向上が見込めるかはまた別 の話、という課題感がある。
  5. NeurIPS 2025 関連論文調査 NeurIPSをチェック! • MedChain ◦ personalization, interactivity, sequentialityに重きをおいた臨床判断の

    新たなベンチマーク • CARES ◦ 医療における安全性評価のための18000種のプロンプトを含むデータ セット • Cure-Bench ◦ Drug Decision-MakingをReasoning LLMで解くタスクの様 ◦ 学会と並走する形で、Kaggleで開催されていた ◦ こういうのに参加してみるのも面白そう