2
⽇本語医療⾔語処理で適切なLLMを選択可能に
本研究室において複数の医療⾔語処理研究があるが,
次々と新しいLLMが登場する中で適切なLLMの判断が困難
l LLMの⽇本語医療能⼒を評価するデータセットの不⾜
l 医療評価が⾏われてないLLMを利⽤することも多い
l 医療データの機密性からGPT4oなどAPI経由のLLMを利⽤できない
l 病院内や研究室内でローカルLLMを利⽤する場合は,
計算資源の都合から量⼦化などして利⽤することが多い
(LLMによって量⼦化による性能低下がバラバラ)
⽬的
Slide 3
Slide 3 text
3
⽇本語の医療LLMと評価⽅法
l JMedLoRA1
l 作成者:東京⼤学医学部附属病院 循環器内科 AIグループ
l 評価データ:IgakuQA, JJSIMQA
l Llama3-Preferred-MedSwallow-70B2
l 作成者:株式会社Preferred Networks
l 評価データ:IgakuQA
関連研究
[1] https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P9-4.pdf
[2] https://tech.preferred.jp/ja/blog/llama3-preferred-medswallow-70b/
Slide 4
Slide 4 text
4
評価データセットの内容
l IgakuQA1
l 2018-2022年の国内の医師国家試験過去問
l 問題点
メディックメディア社の過去問解説本を転載した⿊よりのグレーなデータ(ライセンス
明記なし)
=> 問題視されており,クリーンなデータを作成する取り組みが⾏われている
(東京⼤学医学部附属病院 放射線科 画像情報処理・解析研究室)
l JJSIMQA2
l ⽇本内科学会雑誌107-111巻に記載されている5択問題
関連研究
[1] https://github.com/jungokasai/IgakuQA
[2] https://huggingface.co/datasets/AIgroup-CVM-utokyohospital/JJSIMQA
Slide 5
Slide 5 text
5
英語の代表的な評価データセット
l Med-PaLM1,MedPrompt2,BioMistral3
MedQA, MedMCQA, PubMedQA, MMLU(医療分野)
l 内容
l MedQA4:医師国家試験
l MedMCQA5:医学部⼊学試験
l PubMedQA6:PubMedのアブストから作成(yes, no, maybeの3択)
l MMLU7:マルチタスク⾔語理解ベンチマーク
関連研究
[1] https://www.nature.com/articles/s41586-023-06291-2
[2] https://arxiv.org/pdf/2311.16452
[3] https://arxiv.org/abs/2402.10373
[4] https://www.mdpi.com/2076-3417/11/14/6421
[5] https://aclanthology.org/D19-1259.pdf
[6] https://proceedings.mlr.press/v174/pal22a/pal22a.pdf
[7] https://openreview.net/pdf?id=d7KBjmI3GmQ
Slide 6
Slide 6 text
6
他にも英語では多くの医療⾔語処理タスクが存在
l Question Answering(前ページのタスクは全てこれ)
l Entity Extraction
l Relation Extraction
l Text Classification
l Natural Language Inference
l Semantic Textual Similarity
l Information Retrieval
l Text Summarization/Generation
l Text Simplification
関連研究
https://arxiv.org/pdf/2311.05112
Slide 7
Slide 7 text
7
⽇本語の医療⾔語処理タスク
本研究室では継続的にシェアードタスク(MedNLP)を開催
(他にも多数の医療データセットを作成し公開1)
l すぐに再配布可能なデータを使⽤
l NTCIR-13 MedWeb2
l NTCIR-16 Real-MedNLP3
l NTCIR-17 MedNLP-SC (RR Subtask)4
l NursingRecord NERdataset5
l Japanese-Clinical-STS6
使⽤データ
[1] https://sociocom.naist.jp/resources-software/
[2] https://research.nii.ac.jp/ntcir/workshop/OnlineProceedings13/pdf/ntcir/01-NTCIR13-OV-MEDWEB-WakamiyaS.pdf
[3] https://research.nii.ac.jp/ntcir/workshop/OnlineProceedings16/pdf/ntcir/01-NTCIR16-OV-MEDNLP-YadaS.pdf
[4] https://research.nii.ac.jp/ntcir/workshop/OnlineProceedings17/pdf/ntcir/02-NTCIR17-OV-MEDNLP-NakamuraY.pdf
[5] https://www.jstage.jst.go.jp/article/pjsai/JSAI2022/0/JSAI2022_1J4OS13a01/_pdf/-char/ja
[6] https://www.thieme-connect.com/products/ejournals/html/10.1055/s-0041-1731390
Slide 8
Slide 8 text
8
Japanese Medical Evaluation Dataset for Large Language Models
l 各Datasetは100件ずつ
(全件のデータも公開)
l 形式はtag, question,
option, answerを含むcsv
l 正解ラベル分布は均衡に
l ライセンスは元データに従う
データセットの概要(JMED-LLM)
https://github.com/sociocom/JMED-LLM
Slide 9
Slide 9 text
9
薬品・症状から薬物有害事象 (ADE) の可能性を分類
l Medicine (52件)
症例報告において薬品が
ADEを引き起こしている可能性
l Disease (48件)
症例報告において病名が
ADEである可能性
タスク1: CRADE (Case Report Adverse Drug Event)
Slide 10
Slide 10 text
10
読影レポートから癌のTNMステージング分類
l T: Tumor(15件)
原発腫瘍があるか
l N: Nodes(40件)
所属リンパ節転移があるか
l M: Metastasis(45件)
遠隔転移があるか
タスク2: RRTNM (Radiology Report Tumor Nodes Metastasis)
Slide 11
Slide 11 text
11
模擬Tweetから病気や症状があるか分類
SNSの投稿⽂から
本⼈または周囲の⼈間に
1⽇以内に病気や症状があったか
l インフルエンザ(13件)
l 下痢(13件)
l 花粉症(13件)
l 咳・たん(13件)
l 頭痛(12件)
l 熱(12件)
l ⿐⽔・⿐づまり(12件)
l ⾵邪(12件)
タスク3: SMDIS (Social Media Disease)
Slide 12
Slide 12 text
12
JMMLUのタスクのうち医療ドメイン
l 専⾨医学(20件)
l 医学遺伝学(20件)
l 臨床知識(20件)
l 解剖学(20件)
l ⼤学医学(20件)
タスク4: JMMLU-Med
Slide 13
Slide 13 text
13
医療⽂書から症状や薬品に関する情報を抽出
l 対象医療⽂書
l 読影レポート
l 症例報告
l 模擬看護記録
l タスク
l MRNER (disease, medicine)
l Disease: 患者に認められた症状
l Medicine: 薬品、薬品に関わる値
l NRNER
タスク5, 6, 7(固有表現抽出)
Slide 14
Slide 14 text
14
固有表現抽出タスクの内訳
l MRNER
l 5: MRNER-disease (Medical Report Positive Disease Recognition)
症例報告(50件),読影レポート(50件)
l 6: MRNER-medicine (Medical Report Medicine Recognition)
症例報告のみ(読影レポートに該当エンティティが存在しないため)
l m-key(薬品名):66件
l m-val(薬品に関わる値):34件
l 7: NRNER (Nursing Report Named Entity Recognition)
模擬看護記録のみ(ライセンス異なるためMRNERと別タスクに)
l d(患者に認められた症状):50件
l m-key(薬品名):25件
l m-val(薬品に関わる値):25件
タスク5, 6, 7(固有表現抽出)
18
データセットの拡充と周辺環境の整備
今後もデータセットを継続的に追加予定
l 現状で追加が検討されているタスク例
l 疾患名からICD10コード(疾患の分類コード)を⽣成
l クリーンな医師国家試験の過去問データセット
l LLM応答の医療安全性評価(医療,法律,倫理など様々な観点)
l 医療⽂書(症例報告,読影レポート,看護記録など)における関係抽出
l その他
評価スクリプト整備,各タスクのプロンプト⾒直し,
引⽤論⽂の公開(YANSとNL研で発表予定)など
今後の展望