Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMに医療知識をつけるには

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Elith Elith
March 29, 2024
1.7k

 LLMに医療知識をつけるには

Avatar for Elith

Elith

March 29, 2024
Tweet

More Decks by Elith

Transcript

  1. 自己紹介 ~ 2017 : 神戸高専 電子工学科 ~ 2020 : 東大

    電子情報 (EEIC) ~ 明後日 : 東大 情報理工 (ICE) 株式会社 Elith Generative AI Research Engineer 2 X: @eta1ia
  2. 目次 1. 背景 2. LLM の学習方法 3. 既存 LLM に追加知識を統合する方法

    4. 既存手法 5. 実施事項 6. 結果 7. 性能に関する考察 8. 今後の方針 3
  3. 背景 医療 LLM の現状 • 英語や中国語のモデルは盛んに研究されている • 日本語では整理されたデータがほとんどない ローカルモデルを使う理由 •

    API 経由のモデルはパラメータが変更される場合がある • 患者のデータ等をネットワークに乗せたくない 4
  4. 海外の医療特化 LLM 10 名称 arXiv 公開日 サイズ ベースモデル 学習方法 ChatDoctor

    2023年3月24日 7B LLaMA Instruction Tuning MedAlpaca 2023年4月14日 7B, 13B Alpaca 継続事前学習+Instruction Tuning PMC-LLaMA 2023年4月27日 7B, 13B LLaMA 継続事前学習+Instruction Tuning Clinical GPT 2023年6月16日 7B BLOOM Instruction Tuning BioMedGPT 2023年8月18日 10B LLaMA-2 継続事前学習 MEDITRON 2023年11月27日 7B, 70B LLaMA-2 継続事前学習 LLaMA-MedTuned 2023年12月31日 7B, 13B LLaMA-2 Instruction Tuning BioMistral 2024年2月15日 7B Mistral 継続事前学習
  5. 結果 12 ExpertQA 2021 医学* 2021 物理 2022 医学 2022

    物理 base 17.0% 12.5% 7.0% 10.7% 10.5% Instruction 8% 3.6% 3.5% 8.9% 12.8% 継続事前学習 13.0% 5.4% 3.5% 8.9% 8.1% 継続事前学習+Instruction 1.0% 1.8% 0.0% 3.6% 1.2% MedTuned-13B + Instruction 19% 11.1% 10.5% 21.4% 16.3% elyza-7B モデルをベースとした各選択問題の正答率 Instruction Tuning により、破滅的忘却をしてしまうケースが多い *2021年度 医学物理士試験 医学領域
  6. 結果 13 ExpertQA 2021 医学 2021 物理 2022 医学 2022

    物理 base 19% 26.7% 18.6% 10.7% 16.3% Instruction 18% 19.6% 12.8% 12.5% 18.6% 継続事前学習 29% 23% 22% 21% 22% 継続事前学習+Instruction 21% 26.8 16.3% 5.4% 19.8% MedTuned-13B + Instruction 26.0% 30.3% 18.6% 17.9% 15.1% プロンプトを few-shot に変更した場合の正答率 全体的に継続事前学習によって正答率が向上している
  7. 性能に関する考察 • 全体的には継続事前学習のみの正答率が高い • Instruction Tuning は元モデルの言語機能を破壊してしまう場合もあり、 エポック数・学習率などの調整が必要 • MedTuned

    は学習データが英語だが、Instruction Tuning により日本語が使える ようになった ◦ ただし知識はあまり日本語に汎化していない 14
  8. 性能に関する考察 パラメータ数 • 今回は計算資源の関係で 7B モデルを用いた • 10B, 13B などのより大きいモデルで検証が必要

    プロンプト • シンプルに問題文 + 選択肢を並べた • Few-Shot (1サンプル) のみを試した データ • 医学文書は画像が多く、テキスト量が想定の1/100以下になってしまった 15
  9. 今後の方針 データ数 • さらに多くのテキストを集める • Gemma *1 などを用いてパラフレーズした文章でデータ拡張 • BLIP-2

    *2 などを用いて画像をテキスト化 プロンプト • Chain of Thought (CoT) 等を用いて多段推論を可能にする • RAG システムの構築 マルチモーダル化 • 特に放射線分野は画像が重要 • LlaVA-Med *3 17 1. Mesnard+ 2024 arxiv.org/abs/2403.08295, 2. Li+ ICML2023, 3. Li+ NeurIPS 2023