Slide 1

Slide 1 text

LLMに医療知識をつけるには Elith Inc. 下垣内 隆太

Slide 2

Slide 2 text

自己紹介 ~ 2017 : 神戸高専 電子工学科 ~ 2020 : 東大 電子情報 (EEIC) ~ 明後日 : 東大 情報理工 (ICE) 株式会社 Elith Generative AI Research Engineer 2 X: @eta1ia

Slide 3

Slide 3 text

目次 1. 背景 2. LLM の学習方法 3. 既存 LLM に追加知識を統合する方法 4. 既存手法 5. 実施事項 6. 結果 7. 性能に関する考察 8. 今後の方針 3

Slide 4

Slide 4 text

背景 医療 LLM の現状 ● 英語や中国語のモデルは盛んに研究されている ● 日本語では整理されたデータがほとんどない ローカルモデルを使う理由 ● API 経由のモデルはパラメータが変更される場合がある ● 患者のデータ等をネットワークに乗せたくない 4

Slide 5

Slide 5 text

LLM の学習の流れ 大規模言語モデル (LLM) の学習には以下の3つのステップがある 1. 事前学習 2. 指示・応答による学習 (Instruction Tuning) 3. 人間のフィードバックによる強化学習 (RLHF) 5

Slide 6

Slide 6 text

事前学習 ● 大量の多様なテキストデータを用いる ● 次の単語を予測する (Next Token Prediction) によって学習する 6

Slide 7

Slide 7 text

Instruction Tuning ● 指示文と応答文のペアを用いる ● これによって、タスクをこなす LLM が得られる 7

Slide 8

Slide 8 text

RLHF ● 人間のフィードバックを用いる ● ネガティブフィードバックを与えられる ● 人間の価値観にフィットさせる 8

Slide 9

Slide 9 text

既存のLLMに追加知識を統合する手法 継続事前学習 事前学習と同様の学習を、特定ドメインのテキストで行う Instruction Tuning 指示・応答文の形で、特定ドメインの知識を追加する RAG 応答生成時にデータベース等から知識を検索し、入力に組み込む 9

Slide 10

Slide 10 text

海外の医療特化 LLM 10 名称 arXiv 公開日 サイズ ベースモデル 学習方法 ChatDoctor 2023年3月24日 7B LLaMA Instruction Tuning MedAlpaca 2023年4月14日 7B, 13B Alpaca 継続事前学習+Instruction Tuning PMC-LLaMA 2023年4月27日 7B, 13B LLaMA 継続事前学習+Instruction Tuning Clinical GPT 2023年6月16日 7B BLOOM Instruction Tuning BioMedGPT 2023年8月18日 10B LLaMA-2 継続事前学習 MEDITRON 2023年11月27日 7B, 70B LLaMA-2 継続事前学習 LLaMA-MedTuned 2023年12月31日 7B, 13B LLaMA-2 Instruction Tuning BioMistral 2024年2月15日 7B Mistral 継続事前学習

Slide 11

Slide 11 text

実施事項 データ 先生方に集めていただいた医療知識の文書を以下の2通りで利用 ● クリーニングして、継続事前学習用データとして用いる ● QA形式に変換して Instruction Tuning データとして用いる 評価 ● 医学物理士試験における正答率 ● 専門家の作成した選択問題100問 11 ここに Expert QA のサンプルを入れる

Slide 12

Slide 12 text

結果 12 ExpertQA 2021 医学* 2021 物理 2022 医学 2022 物理 base 17.0% 12.5% 7.0% 10.7% 10.5% Instruction 8% 3.6% 3.5% 8.9% 12.8% 継続事前学習 13.0% 5.4% 3.5% 8.9% 8.1% 継続事前学習+Instruction 1.0% 1.8% 0.0% 3.6% 1.2% MedTuned-13B + Instruction 19% 11.1% 10.5% 21.4% 16.3% elyza-7B モデルをベースとした各選択問題の正答率 Instruction Tuning により、破滅的忘却をしてしまうケースが多い *2021年度 医学物理士試験 医学領域

Slide 13

Slide 13 text

結果 13 ExpertQA 2021 医学 2021 物理 2022 医学 2022 物理 base 19% 26.7% 18.6% 10.7% 16.3% Instruction 18% 19.6% 12.8% 12.5% 18.6% 継続事前学習 29% 23% 22% 21% 22% 継続事前学習+Instruction 21% 26.8 16.3% 5.4% 19.8% MedTuned-13B + Instruction 26.0% 30.3% 18.6% 17.9% 15.1% プロンプトを few-shot に変更した場合の正答率 全体的に継続事前学習によって正答率が向上している

Slide 14

Slide 14 text

性能に関する考察 ● 全体的には継続事前学習のみの正答率が高い ● Instruction Tuning は元モデルの言語機能を破壊してしまう場合もあり、 エポック数・学習率などの調整が必要 ● MedTuned は学習データが英語だが、Instruction Tuning により日本語が使える ようになった ○ ただし知識はあまり日本語に汎化していない 14

Slide 15

Slide 15 text

性能に関する考察 パラメータ数 ● 今回は計算資源の関係で 7B モデルを用いた ● 10B, 13B などのより大きいモデルで検証が必要 プロンプト ● シンプルに問題文 + 選択肢を並べた ● Few-Shot (1サンプル) のみを試した データ ● 医学文書は画像が多く、テキスト量が想定の1/100以下になってしまった 15

Slide 16

Slide 16 text

性能に関する考察 試験の解答となる事実がデータに入っているはずなのに答えられないのはなぜ? → 単一の事実について、複数の視点で記述されたテキストが必要 *1 テキストだけで実世界の関係性を学ぶのは 難しい 16 1. Hatakeyama+ 2023 arxiv.org/abs/2312.03360

Slide 17

Slide 17 text

今後の方針 データ数 ● さらに多くのテキストを集める ● Gemma *1 などを用いてパラフレーズした文章でデータ拡張 ● BLIP-2 *2 などを用いて画像をテキスト化 プロンプト ● Chain of Thought (CoT) 等を用いて多段推論を可能にする ● RAG システムの構築 マルチモーダル化 ● 特に放射線分野は画像が重要 ● LlaVA-Med *3 17 1. Mesnard+ 2024 arxiv.org/abs/2403.08295, 2. Li+ ICML2023, 3. Li+ NeurIPS 2023