LLMに医療知識をつけるには

LLMに医療知識をつけるには Elith Inc. 下垣内隆太

自己紹介 ~ 2017 : 神戸高専電子工学科 ~ 2020 : 東大
電子情報 (EEIC) ~ 明後日 : 東大情報理工 (ICE) 株式会社 Elith Generative AI Research Engineer 2 X: @eta1ia

目次 1. 背景 2. LLM の学習方法 3. 既存 LLM に追加知識を統合する方法
4. 既存手法 5. 実施事項 6. 結果 7. 性能に関する考察 8. 今後の方針 3

背景医療 LLM の現状 • 英語や中国語のモデルは盛んに研究されている • 日本語では整理されたデータがほとんどないローカルモデルを使う理由 •
API 経由のモデルはパラメータが変更される場合がある • 患者のデータ等をネットワークに乗せたくない 4

LLM の学習の流れ大規模言語モデル (LLM) の学習には以下の3つのステップがある 1. 事前学習 2. 指示・応答による学習 (Instruction
Tuning) 3. 人間のフィードバックによる強化学習 (RLHF) 5

事前学習 • 大量の多様なテキストデータを用いる • 次の単語を予測する (Next Token Prediction) によって学習する 6

Instruction Tuning • 指示文と応答文のペアを用いる • これによって、タスクをこなす LLM が得られる 7

RLHF • 人間のフィードバックを用いる • ネガティブフィードバックを与えられる • 人間の価値観にフィットさせる 8

既存のLLMに追加知識を統合する手法継続事前学習事前学習と同様の学習を、特定ドメインのテキストで行う Instruction Tuning 指示・応答文の形で、特定ドメインの知識を追加する RAG 応答生成時にデータベース等から知識を検索し、入力に組み込む 9

海外の医療特化 LLM 10 名称 arXiv 公開日サイズベースモデル学習方法 ChatDoctor
2023年3月24日 7B LLaMA Instruction Tuning MedAlpaca 2023年4月14日 7B, 13B Alpaca 継続事前学習+Instruction Tuning PMC-LLaMA 2023年4月27日 7B, 13B LLaMA 継続事前学習+Instruction Tuning Clinical GPT 2023年6月16日 7B BLOOM Instruction Tuning BioMedGPT 2023年8月18日 10B LLaMA-2 継続事前学習 MEDITRON 2023年11月27日 7B, 70B LLaMA-2 継続事前学習 LLaMA-MedTuned 2023年12月31日 7B, 13B LLaMA-2 Instruction Tuning BioMistral 2024年2月15日 7B Mistral 継続事前学習

実施事項データ先生方に集めていただいた医療知識の文書を以下の2通りで利用 • クリーニングして、継続事前学習用データとして用いる • QA形式に変換して Instruction Tuning データとして用いる
評価 • 医学物理士試験における正答率 • 専門家の作成した選択問題100問 11 ここに Expert QA のサンプルを入れる

結果 12 ExpertQA 2021 医学* 2021 物理 2022 医学 2022
物理 base 17.0% 12.5% 7.0% 10.7% 10.5% Instruction 8% 3.6% 3.5% 8.9% 12.8% 継続事前学習 13.0% 5.4% 3.5% 8.9% 8.1% 継続事前学習+Instruction 1.0% 1.8% 0.0% 3.6% 1.2% MedTuned-13B + Instruction 19% 11.1% 10.5% 21.4% 16.3% elyza-7B モデルをベースとした各選択問題の正答率 Instruction Tuning により、破滅的忘却をしてしまうケースが多い *2021年度医学物理士試験医学領域

結果 13 ExpertQA 2021 医学 2021 物理 2022 医学 2022
物理 base 19% 26.7% 18.6% 10.7% 16.3% Instruction 18% 19.6% 12.8% 12.5% 18.6% 継続事前学習 29% 23% 22% 21% 22% 継続事前学習+Instruction 21% 26.8 16.3% 5.4% 19.8% MedTuned-13B + Instruction 26.0% 30.3% 18.6% 17.9% 15.1% プロンプトを few-shot に変更した場合の正答率全体的に継続事前学習によって正答率が向上している

性能に関する考察 • 全体的には継続事前学習のみの正答率が高い • Instruction Tuning は元モデルの言語機能を破壊してしまう場合もあり、エポック数・学習率などの調整が必要 • MedTuned
は学習データが英語だが、Instruction Tuning により日本語が使えるようになった ◦ ただし知識はあまり日本語に汎化していない 14

性能に関する考察パラメータ数 • 今回は計算資源の関係で 7B モデルを用いた • 10B, 13B などのより大きいモデルで検証が必要
プロンプト • シンプルに問題文 + 選択肢を並べた • Few-Shot (1サンプル) のみを試したデータ • 医学文書は画像が多く、テキスト量が想定の1/100以下になってしまった 15

性能に関する考察試験の解答となる事実がデータに入っているはずなのに答えられないのはなぜ? → 単一の事実について、複数の視点で記述されたテキストが必要 *1 テキストだけで実世界の関係性を学ぶのは難しい 16 1. Hatakeyama+
2023 arxiv.org/abs/2312.03360

今後の方針データ数 • さらに多くのテキストを集める • Gemma *1 などを用いてパラフレーズした文章でデータ拡張 • BLIP-2
*2 などを用いて画像をテキスト化プロンプト • Chain of Thought (CoT) 等を用いて多段推論を可能にする • RAG システムの構築マルチモーダル化 • 特に放射線分野は画像が重要 • LlaVA-Med *3 17 1. Mesnard+ 2024 arxiv.org/abs/2403.08295, 2. Li+ ICML2023, 3. Li+ NeurIPS 2023

LLMに医療知識をつけるには

LLMに医療知識をつけるには

Elith

More Decks by Elith

Featured

Transcript