Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本語医療LLM評価ベンチマークの構築と性能分析

Takuya Fukushima
September 03, 2024

 日本語医療LLM評価ベンチマークの構築と性能分析

2024年9月3日(火)に開催された第261回 情報処理学会 NL研の発表スライドです.
作成したLLMの日本語医療評価ベンチマークであるJMED-LLMは以下にて公開してます.
https://github.com/sociocom/JMED-LLM

Takuya Fukushima

September 03, 2024
Tweet

More Decks by Takuya Fukushima

Other Decks in Research

Transcript

  1. 3 ⽇本語の医療LLMとその評価データセット l JMedLoRA1 l 作成者:東京⼤学医学部附属病院 循環器内科 AIグループ l 評価データ:IgakuQA3,

    JJSIMQA1 l Llama3-Preferred-MedSwallow-70B2 l 作成者:株式会社Preferred Networks l 評価データ:IgakuQA これらの評価データは質問応答タスクに該当するが 医療⾔語処理においては固有表現抽出など他のタスクも重要 関連研究(1/3) [1] https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P9-4.pdf [2] https://tech.preferred.jp/ja/blog/llama3-preferred-medswallow-70b/ [3] https://github.com/jungokasai/IgakuQA ⽇本内科学会雑誌107-111巻に 記載されている5択問題 2018-2022年の国内の 医師国家試験過去問
  2. 4 英語の代表的な評価データセット Med-PaLM1,MedPrompt2,BioMistral3などの評価で使⽤ l MedQA4:医師国家試験 l MedMCQA5:医学部⼊学試験 l PubMedQA6:PubMedのアブストから作成(yes, no,

    maybeの3択) l MMLU7:マルチタスク⾔語理解ベンチマーク 関連研究(2/3) [1] https://www.nature.com/articles/s41586-023-06291-2 [2] https://arxiv.org/pdf/2311.16452 [3] https://arxiv.org/abs/2402.10373 [4] https://www.mdpi.com/2076-3417/11/14/6421 [5] https://aclanthology.org/D19-1259.pdf [6] https://proceedings.mlr.press/v174/pal22a/pal22a.pdf [7] https://openreview.net/pdf?id=d7KBjmI3GmQ
  3. 5 他にも英語では多くの 医療⾔語処理タスクが存在 l Question Answering l Entity Extraction l

    Relation Extraction l Text Classification l Natural Language Inference l Semantic Textual Similarity l Information Retrieval l Text Summarization/Generation l Text Simplification 関連研究(3/3) https://arxiv.org/pdf/2311.05112
  4. 6 既存データセットをLLM評価に適したタスクに変換し統合 l ライセンスが明確かつ⽐較的オープンなデータを利⽤ l 各データセットは100件ずつで正解ラベル分布を均衡に JMED-LLMの構成 タスク データセット 専⾨知識

    内容 ライセンス オリジナルリソース 質問応答 JMMLU-Med ★★ JMMLUにおける医療分野の知識問題 CC-BY-SA-4.0 JMMLU 固有表現 抽出 MRNER-disease ★★ 医療⽂書から患者に実際に認められた症状を抽出 CC-BY-4.0 NTCIR-16 Real-MedNLP Corpus MRNER-medicine ★★★ 医療⽂書から医薬品に関する情報を抽出 CC-BY-4.0 NTCIR-16 Real-MedNLP Corpus NRNER ★★★ 看護記録から症状および医薬品に関する情報を抽出 CC-BY-NC-SA-4.0 NursingRecord NERdataset ⽂書分類 CRADE ★★★★ 症例報告における有害事象の可能性を分類 CC-BY-4.0 NTCIR-16 Real-MedNLP Corpus RRTNM ★★★★ 肺がん患者の読影レポートからがんの進⾏度を予測 CC-BY-4.0 NTCIR-17 MedNLP-SC Corpus SMDIS ★ 模擬Tweetから病気や症状の有無を分類 CC-BY-4.0 NTCIR-13 MedWeb Corpus ⽂類似度 JCSTS ★★ 症例報告における2⽂の意味的類似度を予測 CC-BY-NC-SA-4.0 Japanese-Clinical-STS
  5. 7 JMMLUから医療分野の問題のみ l JMMLU マルチタスク⾔語理解ベンチマークMMLUの⽇本語版 l 利⽤した分野(20件ずつ) 専⾨医学,医学遺伝学,臨床知識,解剖学,⼤学医学 質問応答: JMMLU-Med

    Tag: professional_medicine Question: 65歳の⼥性が失語症と右半⾝⿇痺のため⼊院した。その後、尿失禁を発症した。尿路感染症の 所⾒はなく、排尿障害の既往歴もない。最も可能性の⾼い診断は次のうちどれか? Option A: ⾃律神経因性膀胱 Option B: 運動⿇痺性膀胱 Option C: 反射神経因性膀胱 Option D: ⾮抑制性神経因性膀胱 Answer: D Medical
  6. 8 医療⽂書から病名または医薬品情報を抽出 l 抽出対象の固有表現(tag) l d: 患者に実際に認められた病変や症状 l m-key: 薬品名

    l m-val: 処⽅量など薬品に関わる値 l 医療⽂書 症例報告,肺がん患者の読影レポート,模擬看護記録 固有表現抽出: MRNER(disease, medicine), NRNER Tag: d Question: 以下の読影レポートにおいて、患者に実際に認められた病変や症状の存在を⽰す異常などの所 ⾒を表す表現は? 「<読影レポート(紙⾯の都合上省略) >」 Answer: ['肺癌', '多発肺内転移', '⾻硬化性変化', '多発⾻転移', '結節'] Medical Reports disease medicine Named Entity Recognition Nursing Records
  7. 9 症例報告における有害事象の可能性を分類 l 有害事象 医薬品の投与に伴って発⽣する好ましくない病気や症状 l タスクの種類(tag) l disease: 病名や症状が有害事象である可能性を分類

    l medicine: 薬品が有害事象を引き起こしている可能性を分類 ⽂書分類: CRADE Tag: disease Question: 以下の症例報告において、「類上⽪細胞結節」がADE(有害事象)である可能性は? 「<症例報告(紙⾯の都合上省略)>」 Option A: 無関係(ADEでない) Option B: ADEの可能性は低い Option C: おそらくADEである Option D: 確実にADEである Answer: A Case Reports Adverse Drug Event
  8. 10 肺がん患者の読影レポートからTNM分類を予測 l TNM分類 がんの進⾏度合いを決定するために広く⽤いられている分類⽅法 l タスクの種類(tag) T(がんの⼤きさと浸潤),N(リンパ節転移),M(遠隔転移) ⽂書分類: RRTNM

    Tag: N Question:以下の読影レポートには所属リンパ節転移がありますか? 「 <読影レポート(紙⾯の都合上省略) > 」 Option A: 所属リンパ節転移なし Option B: 同側の気管⽀周囲かつ/または同側肺⾨, 肺内リンパ節への転移で原発腫瘍の直接浸潤を含める Option C: 同側縦隔かつ/または気管分岐下リンパ節への転移 Option D: 対側縦隔, 対側肺⾨, 同側あるいは対側の前斜⾓筋, 鎖⾻上窩リンパ節への転移 Answer: A Radiology Reports Tumor, Nodes, Metastasis
  9. 11 模擬Tweetから病気や症状の有無を分類 l 1⽇以内に本⼈または周囲の⼈間に症状があったか l 症状の種類(tag) インフルエンザ,下痢,花粉症,咳・たん, 頭痛,熱,⿐⽔・⿐詰まり,⾵邪 ⽂書分類: SMDIS

    Tag: influenza Question: SNSで以下の投稿をした本⼈または周囲の⼈間は、1⽇以内にインフルエンザでしたか? 「インフルから回復したら部活復帰しますね。」 Option A: インフルエンザである Option B: インフルエンザでない Answer: A Social Media disease
  10. 12 症例報告における2⽂の意味的類似度を予測 連続値ではなく多肢選択式(順序変数)による類似度 ⽂類似度: JCSTS Question:以下の2つの⽂の意味の類似度は? S1: 下顎左右に智⻭が認められ,左右ともに⽔平に埋伏している S2: 上顎右側下顎左右に智⻭が認められ,下顎の智⻭は左右ともに⽔平に埋伏している

    Option A: ⼆つの⽂は完全に同等で、意味が同じである。 < 例(省略)> Option B: ⼆つの⽂はほぼ同等だが、いくつかの重要ではない詳細が異なる。 < 例(省略)> Option C: ⼆つの⽂は⼤まかに同等だが、いくつかの重要な情報が異なっていたり⽋けている。 < 例(省略)> Option D: ⼆つの⽂は同等ではないが、いくつかの詳細を共有している。 < 例(省略)> Option E: ⼆つの⽂は同等ではないが、同じトピックに関している。 < 例(省略)> Option F: ⼆つの⽂は完全に似ていない。 < 例(省略)> Answer: C Japanese Clinical Sentence Semantic Textual Similarity
  11. 13 出⼒形式によって異なる評価指標 l 多肢選択式タスク(質問応答,⽂書分類,⽂類似度) l Accuracy(省略) 正解ラベルの分布が均衡であるため,シンプルな評価指標として l Cohenʼs kappa

    選択肢数が異なるタスクを⽐較可能とするため,偶然の⼀致を考慮した評価指標として (選択肢が順序変数であるCRADEとJCSTSは線形重み付き) l 固有表現抽出 l 部分⼀致でのF1 例)「肝腫瘍」が正解の時,「肝腫瘍」,「腫瘍」,「転移性肝腫瘍」の全てが正解 l 完全⼀致でのF1(省略) 例)「肝腫瘍」が正解の時,「肝腫瘍」のみが正解 評価⽅法(1/2)
  12. 14 GPT-4oと代表的な軽量LLM(10B以下)を評価 l 評価スクリプトもGitHubにて公開してます l システムプロンプト l 多肢選択式タスク 与えられた医学に関する質問と選択肢から、最も適切な回答を選択してください。なお、 回答には選択肢のアルファベット(例:A)のみを含め、他には何も含めないことを厳

    守してください。 l 固有表現抽出 与えられた医学に関する質問から、最も適切な回答をしてください。なお、回答には Pythonのリスト形式(例:['回答1', '回答2'])のみを含め、他には何も含めないことを厳 守してください。 評価⽅法(2/2)
  13. 15 全タスクにおいてGPT-4oが最も優れている 軽量LLMの中ではGemma-2-9Bが特に優秀な結果に タスクによってはGPT-4o-miniより性能が良い軽量LLMも 評価結果(1/7):多肢選択式タスク ࣭໰Ԡ౴ จॻ෼ྨ จྨࣅ౓ .PEFM +..-6.FE

    $3"%& 335/. 4.%*4 +$454 ฏۉ HQUP       HQUPNJOJ       HFNNBCJU       -MBNB&-:;"+1#       .FUB-MBNB#*OTUSVDU       .FUB-MBNB#*OTUSVDU       -MBNB4XBMMPX#*OTUSVDUW       2XFO#*OTUSVDU       HFNNBCJU       MMBNBZPVLPCJOTUSVDU      
  14. 16 全体的にGPT-4o (+mini)の性能が⾼い GPT-4o (+mini)は特に医学遺伝学で満点に近い成績 軽量LLMは全体的に臨床知識において最も良い結果 評価結果(2/7) :JMMLU-Med(医療知識問題) .PEFM ઐ໳ҩֶ

    ҩֶҨ఻ֶ ྟচ஌ࣝ ղ๤ֶ େֶҩֶ ૯߹ HQUP       HQUPNJOJ       HFNNBCJU       -MBNB&-:;"+1#       .FUB-MBNB#*OTUSVDU       .FUB-MBNB#*OTUSVDU       -MBNB4XBMMPX#*OTUSVDUW       2XFO#*OTUSVDU       HFNNBCJU       MMBNBZPVLPCJOTUSVDU      
  15. 17 軽量LLMでもGPT-4o-mini以上の成績を記録 LLMによって性能差が激しくほとんど解けていないLLMも 学習が難しいことや貴重な学習データが存在する可能性 評価結果(3/7) :CRADE(有害事象) .PEFM ༀ඼ ࣬ױ ૯߹

    HQUP    HQUPNJOJ    HFNNBCJU    -MBNB&-:;"+1#    .FUB-MBNB#*OTUSVDU    .FUB-MBNB#*OTUSVDU    -MBNB4XBMMPX#*OTUSVDUW    2XFO#*OTUSVDU    HFNNBCJU    MMBNBZPVLPCJOTUSVDU   
  16. 18 軽量LLMではリンパ節転移だけ解ける場合がある 必要な医学知識が⾼度だがGPT-4oが優れた成績 GPT-4oは読影レポートのデータを⼗分に学習している可能性 評価結果(4/7) :RRTNM(癌の進⾏度) .PEFM ؞ͷ޿͕Γ ϦϯύઅసҠ ԕִసҠ

    ૯߹ HQUP     HQUPNJOJ     HFNNBCJU     -MBNB&-:;"+1#     .FUB-MBNB#*OTUSVDU     .FUB-MBNB#*OTUSVDU     -MBNB4XBMMPX#*OTUSVDUW     2XFO#*OTUSVDU     HFNNBCJU     MMBNBZPVLPCJOTUSVDU    
  17. 19 簡単なタスクである割にあまり解けてない 軽量LLMでもGPT-4oとそこまで性能に差はない ほとんどのデータは簡単だが⼀部のデータが難しい可能性 評価結果(5/7) :SMDIS(症例の有無) .PEFM ΠϯϑϧΤϯβ Լཀྵ Ֆค঱

    ֏ɾͨΜ ಄௧ ೤ ඓਫɾ ඓ٧·Γ ෩अ ૯߹ HQUP          HQUPNJOJ          HFNNBCJU          -MBNB&-:;"+1#          .FUB-MBNB#*OTUSVDU          .FUB-MBNB#*OTUSVDU          -MBNB4XBMMPX#*OTUSVDUW          2XFO#*OTUSVDU          HFNNBCJU          MMBNBZPVLPCJOTUSVDU         
  18. 20 GPT-4oなど⼀部のLLM以外はほぼ解けていない 他のタスクで性能が⾼いGemma-2-9Bでも性能が低い 軽量LLMで代替することがかなり難しいタスクである可能性 評価結果(6/7) :JCSTS(⽂類似度) .PEFM ૯߹ HQUP 

    HQUPNJOJ  HFNNBCJU  -MBNB&-:;"+1#  .FUB-MBNB#*OTUSVDU  .FUB-MBNB#*OTUSVDU  -MBNB4XBMMPX#*OTUSVDUW  2XFO#*OTUSVDU  HFNNBCJU  MMBNBZPVLPCJOTUSVDU 
  19. 21 GPT-4oより軽量LLMが優れている 最も軽量なGemma-2-2Bでもかなり優秀な成績 抽出だけなら⽂脈情報があまり重要でないから?(要検証) 評価結果(7/7) :固有表現抽出 .PEFM .3/&3EJTFBTF .3/&3NFEJDJOF /3/&3

    ฏۉ HQUP     HQUPNJOJ     HFNNBCJU     -MBNB&-:;"+1#     .FUB-MBNB#*OTUSVDU     .FUB-MBNB#*OTUSVDU     -MBNB4XBMMPX#*OTUSVDUW     2XFO#*OTUSVDU     HFNNBCJU     MMBNBZPVLPCJOTUSVDU    
  20. 22 応⽤タスクほど軽量LLMの活躍が期待できる l ⼤規模LLM(GPT-4oなど)でしか解けない l 専⾨的な医学知識に関する問題(JMMLU-Med) l 専⾨的な医学知識を含む⽂の意味的類似度(JCSTS) l 症例報告から有害事象の可能性を分類(CRADE)

    l 軽量LLM(10B以下程度)でも解ける可能性 (個⼈情報を含む⽂書を扱う際はこっちで解けると嬉しい) l 読影レポートから癌の進⾏度を予測(RRTNM) l 医療⽂書から疾患名や薬品情報の固有表現抽出(MRNER,NRNER) l 個⼈の発⾔から症状の有無を予測(SMDIS) まとめ 専⾨的な医学知識が 特に要求される? (知識寄り?) 与えられたテキスト情報と ⼀般知識でも解きやすい? (応⽤寄り?)