Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【2024年4月~7月】 医療分野に特化したLLM紹介
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Stardust
July 23, 2024
110
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
【2024年4月~7月】 医療分野に特化したLLM紹介
Stardust
July 23, 2024
More Decks by Stardust
See All by Stardust
【2025年10月~12月】 医療分野 ×LLM研究紹介
stardust11
0
33
【2025年1月~3月】医療分野×LLM研究紹介
stardust11
0
29
【2024年7月~12月】医療分野 ×LLM 研究紹介
stardust11
1
24
【論文紹介】The Geometry of Numerical Reasoning Language Models Compare Numeric Properties in Linear Subspaces
stardust11
1
43
【2023年4月〜2024年3月】医療分野に特化したLLMについて
stardust11
1
46
Featured
See All Featured
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
620
How to Think Like a Performance Engineer
csswizardry
28
2.7k
Building the Perfect Custom Keyboard
takai
2
800
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
290
Test your architecture with Archunit
thirion
1
2.3k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
270
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
200
The browser strikes back
jonoalderson
0
1.3k
How to Ace a Technical Interview
jacobian
281
24k
Fireside Chat
paigeccino
42
4k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Transcript
【2024年4月~7月】 医療分野に特化した LLM紹介
• Geminiベース • 25タスク, 14ベンチマークでの評価 • 数々のベンチでSoTA • マルチモーダルも5/7タスクでSoTA ◦
心電図含む • long-context reasoningの高い能力 • 実用的なタスク(【容易】要約、推薦書生成、【困難】 EHR質問応用など)の性能 Med-Gemini(Google) https://arxiv.org/pdf/2404.18416 GPT-4 90.2 Med-Gemini 91.1 Web検索を利用し 自力で学習する 回答に自信がない時も Web検索で情報収集 Med-Gemini-M 1.0 Gemini 1.0 Pro (600B) summarizing medical notes, creating referral letters Med-Gemini-L 1.0 Gemini 1.0 Ultra (?) advanced reasoning Med-Gemini-M 1.5 Gemini 1.5 Pro (?,128k token) Multimodal understanding long-context processing(EHR) Med-Gemini-S 1.0 Gemini 1.0 Nano (1.8B) ECG ※ Gemini 1.5 Ultraは1.56T
OpenBioLLM-70B(Samma AI Labsなど) https://huggingface.co/aaditya/Llama3-OpenBioLLM-70B • Llama3-70Bベース • モデル公開済 • オープン,
70Bでありながら、MedPaLM-2やGPT-4に遜色ないベンチマークスコア
Llama3ベースのMeditron-8B(EPFLなど) https://www.meditron.io/ https://arxiv.org/pdf/2311.16079 Llama-3の公開から1日以内に公開! ただしモデル自体や詳細は未公開。 (学習手法は以前と同様と予想するのが自 然か?) 元々はLlama2ベースの研究だった これらは結構few shotやpromptingを頑
張ったスコア (preprint公開済み、Nature査読中らしい) OpenAIʼs ChatMLフォーマット <|im_start|>, <|im_end|>で挟むことに注意
medX(JiviAI) https://huggingface.co/jiviai/medX_v1 GoogleとOpenAIのモデルを性能で超えたとニュースに = Open Medical-LLM Leaderboardでのランキングのこと(MedQAで正答率86%など) (2024.7.21時点) 現在はモデルへのリンク切れ
• Llama3-8Bベース, MMedCデータ(25.5B token)で継続学習 • multilingualモデル(en ,zh, ja, fr, es,
ruの6つ) • MMedBenchというmultilingual評価ベンチマークも併せて公開 MMedLlama3-8B(上海交通大学) https://github.com/MAGIC-AI4Med/MMedLM 8BモデルでGPT-4と7ポイント差に IgakuQAの正答率 61.8% は相当優秀(ただし Split して8割をtrain, 1割をvalidとし, 残り1割で評価している 点に注意)
MedSwallow-70B(東大病院) https://huggingface.co/AIgroup-CVM-utokyohospital/MedSwallow-70b https://arxiv.org/pdf/2406.14882 • Swallow-Instruct-70Bベース、70Bサイズでの医療モデルは日本では初の試み • モデル公開済, 学習データ非公開 • USMLE(米国医師国家試験)の和訳データで
QLoRAチューニングを実施 • Gestalt Accuracyという甘めの評価指標で、 IgakuQA(日本医師国家試験)正答率で 50%超を達成 ベースモデルでは英語モデルで あるXwinのほうが性能が高かっ たが、日本語医療チューニング による改善幅はSwallowが大き く逆転 promptは2種類を検討 この3種類を比 較
Llama3-Preferred-MedSwallow-70B(PFN) https://huggingface.co/pfnet/Llama3-Preferred-MedSwallow-70B https://tech.preferred.jp/ja/blog/llama3-preferred-medswallow-70b/ • Llama3-Swallow-70Bベース、QLoRAでの継続事前学習(?)← Instruction-tuningではなさそう • モデル公開済、学習データ非公開 (2017年以前の医師国家試験の解説を含んだ PFN
独自の医療データセット) • 合計4つの禁忌選択肢を選択 改善幅が大きく GPT-4を超えた! IgakuQA(Kasai et al., 2023)で評価, text_only=Falseは除外していない. おそらくプロンプトは元実装そのままと記載があるので 3-shot. 満点:499 496 496 500 494 80%前後の正答率 ベースモデルも相当スコアが良い。医療特化モデルではないはず。 さらにEnglish-centricなMeta-Llama-3-70Bもそれなりに精度が高い。一方で、 日本語がより得意とされている Qwen2-72BよりもMeta Llama3のほうが若干スコアが良い。 個人的に知りたいこと 継続事前学習+QLoRAというのは、非Instruction型の データでnext word predictionのことか。ドメイン知識の獲 得が目的だと思うが、 QLoRAで十分なのか。