Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMに医療知識をつけるには

Elith
March 29, 2024
1.4k

 LLMに医療知識をつけるには

Elith

March 29, 2024
Tweet

More Decks by Elith

Transcript

  1. 自己紹介 ~ 2017 : 神戸高専 電子工学科 ~ 2020 : 東大

    電子情報 (EEIC) ~ 明後日 : 東大 情報理工 (ICE) 株式会社 Elith Generative AI Research Engineer 2 X: @eta1ia
  2. 目次 1. 背景 2. LLM の学習方法 3. 既存 LLM に追加知識を統合する方法

    4. 既存手法 5. 実施事項 6. 結果 7. 性能に関する考察 8. 今後の方針 3
  3. 背景 医療 LLM の現状 • 英語や中国語のモデルは盛んに研究されている • 日本語では整理されたデータがほとんどない ローカルモデルを使う理由 •

    API 経由のモデルはパラメータが変更される場合がある • 患者のデータ等をネットワークに乗せたくない 4
  4. 海外の医療特化 LLM 10 名称 arXiv 公開日 サイズ ベースモデル 学習方法 ChatDoctor

    2023年3月24日 7B LLaMA Instruction Tuning MedAlpaca 2023年4月14日 7B, 13B Alpaca 継続事前学習+Instruction Tuning PMC-LLaMA 2023年4月27日 7B, 13B LLaMA 継続事前学習+Instruction Tuning Clinical GPT 2023年6月16日 7B BLOOM Instruction Tuning BioMedGPT 2023年8月18日 10B LLaMA-2 継続事前学習 MEDITRON 2023年11月27日 7B, 70B LLaMA-2 継続事前学習 LLaMA-MedTuned 2023年12月31日 7B, 13B LLaMA-2 Instruction Tuning BioMistral 2024年2月15日 7B Mistral 継続事前学習
  5. 結果 12 ExpertQA 2021 医学* 2021 物理 2022 医学 2022

    物理 base 17.0% 12.5% 7.0% 10.7% 10.5% Instruction 8% 3.6% 3.5% 8.9% 12.8% 継続事前学習 13.0% 5.4% 3.5% 8.9% 8.1% 継続事前学習+Instruction 1.0% 1.8% 0.0% 3.6% 1.2% MedTuned-13B + Instruction 19% 11.1% 10.5% 21.4% 16.3% elyza-7B モデルをベースとした各選択問題の正答率 Instruction Tuning により、破滅的忘却をしてしまうケースが多い *2021年度 医学物理士試験 医学領域
  6. 結果 13 ExpertQA 2021 医学 2021 物理 2022 医学 2022

    物理 base 19% 26.7% 18.6% 10.7% 16.3% Instruction 18% 19.6% 12.8% 12.5% 18.6% 継続事前学習 29% 23% 22% 21% 22% 継続事前学習+Instruction 21% 26.8 16.3% 5.4% 19.8% MedTuned-13B + Instruction 26.0% 30.3% 18.6% 17.9% 15.1% プロンプトを few-shot に変更した場合の正答率 全体的に継続事前学習によって正答率が向上している
  7. 性能に関する考察 • 全体的には継続事前学習のみの正答率が高い • Instruction Tuning は元モデルの言語機能を破壊してしまう場合もあり、 エポック数・学習率などの調整が必要 • MedTuned

    は学習データが英語だが、Instruction Tuning により日本語が使える ようになった ◦ ただし知識はあまり日本語に汎化していない 14
  8. 性能に関する考察 パラメータ数 • 今回は計算資源の関係で 7B モデルを用いた • 10B, 13B などのより大きいモデルで検証が必要

    プロンプト • シンプルに問題文 + 選択肢を並べた • Few-Shot (1サンプル) のみを試した データ • 医学文書は画像が多く、テキスト量が想定の1/100以下になってしまった 15
  9. 今後の方針 データ数 • さらに多くのテキストを集める • Gemma *1 などを用いてパラフレーズした文章でデータ拡張 • BLIP-2

    *2 などを用いて画像をテキスト化 プロンプト • Chain of Thought (CoT) 等を用いて多段推論を可能にする • RAG システムの構築 マルチモーダル化 • 特に放射線分野は画像が重要 • LlaVA-Med *3 17 1. Mesnard+ 2024 arxiv.org/abs/2403.08295, 2. Li+ ICML2023, 3. Li+ NeurIPS 2023