Slide 1

Slide 1 text

【2024年7月~12月】 医療分野×LLM 研究紹介

Slide 2

Slide 2 text

個別論文紹介

Slide 3

Slide 3 text

Open (Clinical) LLMs are Sensitive to Instruction Phrasings (BioNLP2024) タスク:clinical classification and information extraction tasks on clinical notes (from EHR) 結論: ① プロンプトに対してロバストではない ② 医療特化モデルのパフォーマンスが概して Generalなモデルより悪かった ③ プロンプトの変更が出力の Fairnessに影響してし まう https://aclanthology.org/2024.bionlp-1.5/

Slide 4

Slide 4 text

Prompting Large Language Models for Zero-Shot Clinical Prediction with Structured Longitudinal Electronic Health Record Data https://arxiv.org/pdf/2402.01713 研究の問い ● RQ1 (Data-Level) What constitutes an effective EHR data prompt for LLMs? ● RQ2 (Task-Level) Are LLMs capable of diverse clinical prediction tasks with various time spans? ● RQ3 (Model-Level) What are the zero-shot performance differences of various LLMs in handling EHR data, and can they outperform traditional machine learning models in few-shot settings?

Slide 5

Slide 5 text

Humans Continue to Outperform Large Language Models in Complex Clinical Decision-Making: A Study with Medical Calculators https://arxiv.org/pdf/2411.05897 ・1009の医療Q&Aで評価. ・GPT-4oが最高スコアで正答率 71.5~76.9%. 対して人間は正答率 73.5~85.0%. ・Llama3-70Bも悪くない. ↑間違え方としてはComprehensionやCalculatorに関する知識の欠如 が目立つ. GPT-4oの間違え方を注意深く観察すると、時間を意識しないといけな い部分でのミスが目立つ. (例)「一度 SOFAスコアを得た患者に対しては , 追加のSOFAスコアは不要だ」など

Slide 6

Slide 6 text

ClinicBench (EMNLP2024 ) ・17の豊富で包括的なベンチマーク ・Factuality, Completeness, Preference, Safety   ・・・医療特化LLMの傾向としては⤴⤵⤵⤴ ・Open-ended, long document, new drug understandingなど深い タスクで性能悪化. 実用には不十分. https://aclanthology.org/2024.emnlp-main.759.pdf 1. 商業LLM: 商業のクローズドソースLLM、特にGPT-4は、すべてのタスクとデータセットにおいて既存のオープンソースの公開 LLMを上回る性能を発揮します。 2. 最先端技術 (SOTA): LLMは、選択肢が与えられた試験形式のQAタスクにおいて優れたパフォーマンスを達成し、人間の専門家と競い合い、以前のタスク特化型 SOTA手法を大幅に上回ります。しかし、LLMはオープンエンドの意思決定、生成、理解においてはあまり良い性能を発揮しません。 3. 医療LLM: 医療データでLLMをファインチューニングすることで、医療データの推論能力や理解力が向上しますが、要約能力が低下する可能性があります。ドメイン 固有のファインチューニングや少数ショットプロンプトがこの制限を解決するための潜在的な方法となる可能性があります。 4. 臨床タスク: 現在のLLMは複雑な臨床タスクに対処する際に効果が薄く、性能が大きく低下することが示されています。それにもかかわらず、商業LLMは公開LLM と比較して若干の低下にとどまります。医療LLMは、一般的なLLMに比べて臨床タスクに適応する能力が高いです。 5. few-shot学習: few-shot学習は推論と生成のパフォーマンスを向上させます(1ショットまたは3ショット学習が最良の推論パフォーマンスを達成し、ショット数が増え ることで生成パフォーマンスが一貫して向上します)が、LLMの理解パフォーマンスには悪影響を及ぼします。 6. 臨床での有用性: 医療LLMは一般的なLLMよりも事実に基づいた安全な回答を生成しますが、完全でユーザーが好む回答を生成する能力は低くなります。ある程 度の幻覚(誤情報の生成)は、まれな病気の診断などにおいて、より広範な診断提案を提供することで臨床医にとって有益となる場合があります。 7. 指示ファインチューニング (IFT): 異なる種類のIFTデータは異なる側面で改善をもたらします。より多様なIFTデータを使用することで、医療LLMの性能が向上し、 IFTデータの多様性の向上が、訓練データ量の増加と同じくらい重要であることが強調されます。 メッセージ( ChatGPTで和訳) !? 新しい視点 あぁ... ↑ここの議論もう少し欲し い気持ち。

Slide 7

Slide 7 text

STLLaVA-Med https://arxiv.org/pdf/2406.19973 ↑より強い VLMでDPOのプロセスを監視 . スコアリングさせてどちらが良いかを伝える . ←LLaVA-Medは高性能だが、 学習データの準備がとても大変。 データ数を圧倒的に減らした上で、 MedVQAベンチマークでより高いスコア を達成!

Slide 8

Slide 8 text

Do Large Language Models have Shared Weaknesses in Medical Question Answering? (NeurIPS AIM-FM 2024) https://openreview.net/pdf?id=ZjQ04tsRQl Medical Jurification(MJ, 医療判例タスク)

Slide 9

Slide 9 text

医療デジタルツイン

Slide 10

Slide 10 text

Med-Real2Sim https://arxiv.org/abs/2403.00177 Non-Invasive Medical Digital Twins using Physics-Informed Self-Supervised Learning Notations: Physics-based モデル M : Θ→X x : 状態 θ : パラメータ, 生理的過程を表現する i : 患者のID M(θ_i): 患者 i の「デジタルツイン」 ■Foward Process(シミュレーション) x = M(θ) Mは, fθ(x) = 0 という有限個の微分方程式からなるシステムに基づいて駆動すると仮定する。 ■Interventional Process(介入)M*(θ) : Θ × U → X  ・・・因果推論のSCMに対応 ■Non-Invasive measurement(非侵襲な観測) y = K(x) - 状態xは(侵襲すれば)直接観測できるかもしれないが, ここでは心電図計測など非侵襲のみが許 されているとし、状態xが間接的に反映されたyを観測するという設定にする。

Slide 11

Slide 11 text

まとめると、 デジタルツインM 非侵襲 K θ —------------------------------→ 状態 x —--------------------------→ 観測 y —--------------------------------------------------------------------→ θ と y の関係 F xは観測できないので yから推定したい {yi,θi}という学習データは入手できない 部分的に得た{yi,xi}からKを学習する方針

Slide 12

Slide 12 text

Non-invasive Data acquisition(非侵襲で得られるデータがあるとする) (例) 超音波→血液ポンプ効率 マンモ→乳腺の濃度 【問題の定式化】 学習データ {y_i, g(y_i)} , i = 1, 2, … ,n が与えられた時に、 新しい患者n+1 に対して、 観測 y_{n+1} のみを用いて、 デジタルツイン M(θ_{n+1})を特定すること。

Slide 13

Slide 13 text

その他

Slide 14

Slide 14 text

テキスト - Retrieval-Augmented Generation for Large Language Models in Radiology: Another Leap Forward in Board Examination Performance - Comparative diagnostic accuracy of GPT-4o and LLaMA 3-70b: Proprietary vs. open-source large language models in radiology (Clinical Imaging) - Best Practices for Large Language Models in Radiology Vision(レントゲン画像)も - Tanno et al. (Nature Medicine, 2024) - Rad-Phi3 - BenchX (NeurIPS 2024) - provide 9 MedVLP baselines - VLScore (NeurIPS 2024) - 医療的な観点を加味した評価スコア . ただのテキスト類似性では不十分であることを指摘 . - Multi-modal large language models in radiology: principles, applications, and potential (Abdominial Radiology) - radiologistの業務の多くをサポートすることが可能 . 一方で3D medical imagingにはまだ課題. - MAIRA-Seg - LLM-RG4 - Radiology Report Generation via Multi-objective Preference Optimization 総説・警鐘 Radiologyが熱い オープンソースのデータが豊富なためか?

Slide 15

Slide 15 text

HC-LLM (Liu et al., 2024 ) https://arxiv.org/pdf/2412.11070

Slide 16

Slide 16 text

ReXrank (Zhang et al., 2024 ) コード https://github.com/rajpurk arlab/ReXrank データセット - CheXpert plus - MIMIC CXR - IU X-ray https://arxiv.org/pdf/2411.15122?

Slide 17

Slide 17 text

CLinicalAgent (ACM-BCB, 2024 ) https://arxiv.org/pdf/2404.14777 ↑たしかに GPT-4よりは改善していそうだが従来手法に負けることもある

Slide 18

Slide 18 text

Zero-Shot ATC Coding (Chen et al., 2024.12 ) https://arxiv.org/pdf/2412.07743? レベル 1: 主な解剖学的/薬理学的グループ レベル 2: 薬理学的/治療的サブグループ レベル 3: 化学的/薬理学的/治療的サブグループ レベル 4: より詳細な化学的/薬理学的/治療的サブグループ レベル 5: 化学物質 を表す7桁のコード. (おそらく)初となるATC CodingをLLMで自動化する試み. ATC Codingとは (例) Metformin(A10BA02)の場合 With Name Setting(ATC Codeだけでなくgeneric name[上図参照] も選択肢で与えられる設定)での正答率 現在の大規模言語モデル( LLMs)は、製品名とその一般名との間の文字列類似性 に大きく依存しており、これは今後の改善の余地があることを示唆 大きな差