【2024年4月~7月】医療分野に特化したLLM紹介

【2024年4月~7月】医療分野に特化した LLM紹介

• Geminiベース • 25タスク, 14ベンチマークでの評価 • 数々のベンチでSoTA • マルチモーダルも5/7タスクでSoTA ◦
心電図含む • long-context reasoningの高い能力 • 実用的なタスク（【容易】要約、推薦書生成、【困難】 EHR質問応用など）の性能 Med-Gemini（Google） https://arxiv.org/pdf/2404.18416 GPT-4 90.2 Med-Gemini 91.1 Web検索を利用し自力で学習する回答に自信がない時も Web検索で情報収集 Med-Gemini-M 1.0 Gemini 1.0 Pro (600B) summarizing medical notes, creating referral letters Med-Gemini-L 1.0 Gemini 1.0 Ultra (?) advanced reasoning Med-Gemini-M 1.5 Gemini 1.5 Pro (?,128k token) Multimodal understanding long-context processing（EHR） Med-Gemini-S 1.0 Gemini 1.0 Nano (1.8B) ECG ※ Gemini 1.5 Ultraは1.56T

OpenBioLLM-70B（Samma AI Labsなど） https://huggingface.co/aaditya/Llama3-OpenBioLLM-70B • Llama3-70Bベース • モデル公開済 • オープン,
70Bでありながら、MedPaLM-2やGPT-4に遜色ないベンチマークスコア

Llama3ベースのMeditron-8B（EPFLなど） https://www.meditron.io/ https://arxiv.org/pdf/2311.16079 Llama-3の公開から１日以内に公開！ただしモデル自体や詳細は未公開。（学習手法は以前と同様と予想するのが自然か？）元々はLlama2ベースの研究だったこれらは結構few shotやpromptingを頑
張ったスコア（preprint公開済み、Nature査読中らしい） OpenAIʼs ChatMLフォーマット <|im_start|>, <|im_end|>で挟むことに注意

medX（JiviAI） https://huggingface.co/jiviai/medX_v1 GoogleとOpenAIのモデルを性能で超えたとニュースに = Open Medical-LLM Leaderboardでのランキングのこと（MedQAで正答率86%など） (2024.7.21時点) 現在はモデルへのリンク切れ

• Llama3-8Bベース, MMedCデータ(25.5B token)で継続学習 • multilingualモデル（en ,zh, ja, fr, es,
ruの６つ） • MMedBenchというmultilingual評価ベンチマークも併せて公開 MMedLlama3-8B（上海交通大学） https://github.com/MAGIC-AI4Med/MMedLM 8BモデルでGPT-4と7ポイント差に IgakuQAの正答率 61.8% は相当優秀（ただし Split して8割をtrain, 1割をvalidとし, 残り1割で評価している点に注意）

MedSwallow-70B（東大病院） https://huggingface.co/AIgroup-CVM-utokyohospital/MedSwallow-70b https://arxiv.org/pdf/2406.14882 • Swallow-Instruct-70Bベース、70Bサイズでの医療モデルは日本では初の試み • モデル公開済, 学習データ非公開 • USMLE（米国医師国家試験）の和訳データで
QLoRAチューニングを実施 • Gestalt Accuracyという甘めの評価指標で、 IgakuQA（日本医師国家試験）正答率で 50%超を達成ベースモデルでは英語モデルであるXwinのほうが性能が高かったが、日本語医療チューニングによる改善幅はSwallowが大きく逆転 promptは２種類を検討この３種類を比較

Llama3-Preferred-MedSwallow-70B（PFN） https://huggingface.co/pfnet/Llama3-Preferred-MedSwallow-70B https://tech.preferred.jp/ja/blog/llama3-preferred-medswallow-70b/ • Llama3-Swallow-70Bベース、QLoRAでの継続事前学習（？）← Instruction-tuningではなさそう • モデル公開済、学習データ非公開（2017年以前の医師国家試験の解説を含んだ PFN
独自の医療データセット） • 合計４つの禁忌選択肢を選択改善幅が大きく GPT-4を超えた！ IgakuQA(Kasai et al., 2023)で評価, text_only=Falseは除外していない. おそらくプロンプトは元実装そのままと記載があるので 3-shot. 満点：499 496 496 500 494 80%前後の正答率ベースモデルも相当スコアが良い。医療特化モデルではないはず。さらにEnglish-centricなMeta-Llama-3-70Bもそれなりに精度が高い。一方で、日本語がより得意とされている Qwen2-72BよりもMeta Llama3のほうが若干スコアが良い。個人的に知りたいこと継続事前学習+QLoRAというのは、非Instruction型のデータでnext word predictionのことか。ドメイン知識の獲得が目的だと思うが、 QLoRAで十分なのか。

【2024年4月~7月】医療分野に特化したLLM紹介

【2024年4月~7月】医療分野に特化したLLM紹介

Stardust

More Decks by Stardust

Featured

Transcript