【2024年7月~12月】医療分野 ×LLM 研究紹介

【2024年7月~12月】医療分野×LLM　研究紹介

個別論文紹介

Open (Clinical) LLMs are Sensitive to Instruction Phrasings （BioNLP2024）タスク：clinical
classification and information extraction tasks on clinical notes (from EHR) 結論： ①　プロンプトに対してロバストではない ②　医療特化モデルのパフォーマンスが概して Generalなモデルより悪かった ③　プロンプトの変更が出力の Fairnessに影響してしまう https://aclanthology.org/2024.bionlp-1.5/

Prompting Large Language Models for Zero-Shot Clinical Prediction with Structured
Longitudinal Electronic Health Record Data https://arxiv.org/pdf/2402.01713 研究の問い • RQ1 (Data-Level) What constitutes an effective EHR data prompt for LLMs? • RQ2 (Task-Level) Are LLMs capable of diverse clinical prediction tasks with various time spans? • RQ3 (Model-Level) What are the zero-shot performance differences of various LLMs in handling EHR data, and can they outperform traditional machine learning models in few-shot settings?

Humans Continue to Outperform Large Language Models in Complex Clinical
Decision-Making: A Study with Medical Calculators https://arxiv.org/pdf/2411.05897 ・1009の医療Q&Aで評価. ・GPT-4oが最高スコアで正答率 71.5~76.9%. 対して人間は正答率 73.5~85.0%. ・Llama3-70Bも悪くない. ↑間違え方としてはComprehensionやCalculatorに関する知識の欠如が目立つ. GPT-4oの間違え方を注意深く観察すると、時間を意識しないといけない部分でのミスが目立つ. （例）「一度 SOFAスコアを得た患者に対しては , 追加のSOFAスコアは不要だ」など

ClinicBench （EMNLP2024 ）・17の豊富で包括的なベンチマーク・Factuality, Completeness, Preference, Safety 　　・・・医療特化LLMの傾向としては⤴⤵⤵⤴ ・Open-ended,
long document, new drug understandingなど深いタスクで性能悪化. 実用には不十分. https://aclanthology.org/2024.emnlp-main.759.pdf 1. 商業LLM: 商業のクローズドソースLLM、特にGPT-4は、すべてのタスクとデータセットにおいて既存のオープンソースの公開 LLMを上回る性能を発揮します。 2. 最先端技術 (SOTA): LLMは、選択肢が与えられた試験形式のQAタスクにおいて優れたパフォーマンスを達成し、人間の専門家と競い合い、以前のタスク特化型 SOTA手法を大幅に上回ります。しかし、LLMはオープンエンドの意思決定、生成、理解においてはあまり良い性能を発揮しません。 3. 医療LLM: 医療データでLLMをファインチューニングすることで、医療データの推論能力や理解力が向上しますが、要約能力が低下する可能性があります。ドメイン固有のファインチューニングや少数ショットプロンプトがこの制限を解決するための潜在的な方法となる可能性があります。 4. 臨床タスク: 現在のLLMは複雑な臨床タスクに対処する際に効果が薄く、性能が大きく低下することが示されています。それにもかかわらず、商業LLMは公開LLM と比較して若干の低下にとどまります。医療LLMは、一般的なLLMに比べて臨床タスクに適応する能力が高いです。 5. few-shot学習: few-shot学習は推論と生成のパフォーマンスを向上させます（1ショットまたは3ショット学習が最良の推論パフォーマンスを達成し、ショット数が増えることで生成パフォーマンスが一貫して向上します）が、LLMの理解パフォーマンスには悪影響を及ぼします。 6. 臨床での有用性: 医療LLMは一般的なLLMよりも事実に基づいた安全な回答を生成しますが、完全でユーザーが好む回答を生成する能力は低くなります。ある程度の幻覚（誤情報の生成）は、まれな病気の診断などにおいて、より広範な診断提案を提供することで臨床医にとって有益となる場合があります。 7. 指示ファインチューニング (IFT): 異なる種類のIFTデータは異なる側面で改善をもたらします。より多様なIFTデータを使用することで、医療LLMの性能が向上し、 IFTデータの多様性の向上が、訓練データ量の増加と同じくらい重要であることが強調されます。メッセージ（ ChatGPTで和訳） !? 新しい視点あぁ... ↑ここの議論もう少し欲しい気持ち。

STLLaVA-Med https://arxiv.org/pdf/2406.19973 ↑より強い VLMでDPOのプロセスを監視 . スコアリングさせてどちらが良いかを伝える . ←LLaVA-Medは高性能だが、学習データの準備がとても大変。データ数を圧倒的に減らした上で、
MedVQAベンチマークでより高いスコアを達成！

Do Large Language Models have Shared Weaknesses in Medical Question
Answering? (NeurIPS AIM-FM 2024) https://openreview.net/pdf?id=ZjQ04tsRQl Medical Jurification（MJ, 医療判例タスク）

医療デジタルツイン

Med-Real2Sim https://arxiv.org/abs/2403.00177 Non-Invasive Medical Digital Twins using Physics-Informed Self-Supervised Learning
Notations: Physics-based モデル M : Θ→X x : 状態 θ : パラメータ, 生理的過程を表現する i : 患者のID M(θ_i): 患者 i の「デジタルツイン」 ▪Foward Process（シミュレーション）　x = M(θ) Mは, fθ(x) = 0 という有限個の微分方程式からなるシステムに基づいて駆動すると仮定する。 ▪Interventional Process（介入）M*(θ) : Θ × U → X 　・・・因果推論のSCMに対応 ▪Non-Invasive measurement（非侵襲な観測）　y = K(x) - 状態xは(侵襲すれば)直接観測できるかもしれないが, ここでは心電図計測など非侵襲のみが許されているとし、状態xが間接的に反映されたyを観測するという設定にする。

まとめると、デジタルツインM 非侵襲 K θ —------------------------------→ 状態 x —--------------------------→ 観測
y —--------------------------------------------------------------------→ θ と y の関係　F xは観測できないので yから推定したい {yi,θi}という学習データは入手できない部分的に得た{yi,xi}からKを学習する方針

Non-invasive Data acquisition（非侵襲で得られるデータがあるとする）（例）超音波→血液ポンプ効率マンモ→乳腺の濃度【問題の定式化】学習データ {y_i, g(y_i)}
, i = 1, 2, … ,n　が与えられた時に、新しい患者n+1 に対して、観測 y_{n+1} のみを用いて、デジタルツイン M(θ_{n+1})を特定すること。

その他

テキスト - Retrieval-Augmented Generation for Large Language Models in Radiology:
Another Leap Forward in Board Examination Performance - Comparative diagnostic accuracy of GPT-4o and LLaMA 3-70b: Proprietary vs. open-source large language models in radiology (Clinical Imaging) - Best Practices for Large Language Models in Radiology Vision（レントゲン画像）も - Tanno et al. (Nature Medicine, 2024) - Rad-Phi3 - BenchX (NeurIPS 2024) - provide 9 MedVLP baselines - VLScore (NeurIPS 2024) - 医療的な観点を加味した評価スコア . ただのテキスト類似性では不十分であることを指摘 . - Multi-modal large language models in radiology: principles, applications, and potential (Abdominial Radiology) - radiologistの業務の多くをサポートすることが可能 . 一方で3D medical imagingにはまだ課題. - MAIRA-Seg - LLM-RG4 - Radiology Report Generation via Multi-objective Preference Optimization 総説・警鐘 Radiologyが熱いオープンソースのデータが豊富なためか？

HC-LLM （Liu et al., 2024 ） https://arxiv.org/pdf/2412.11070

ReXrank （Zhang et al., 2024 ）コード https://github.com/rajpurk arlab/ReXrank データセット
- CheXpert plus - MIMIC CXR - IU X-ray https://arxiv.org/pdf/2411.15122?

CLinicalAgent （ACM-BCB, 2024 ） https://arxiv.org/pdf/2404.14777 ↑たしかに GPT-4よりは改善していそうだが従来手法に負けることもある

Zero-Shot ATC Coding （Chen et al., 2024.12 ） https://arxiv.org/pdf/2412.07743? レベル
1: 主な解剖学的/薬理学的グループレベル 2: 薬理学的/治療的サブグループレベル 3: 化学的/薬理学的/治療的サブグループレベル 4: より詳細な化学的/薬理学的/治療的サブグループレベル 5: 化学物質を表す７桁のコード. (おそらく)初となるATC CodingをLLMで自動化する試み. ATC Codingとは (例) Metformin(A10BA02)の場合 With Name Setting（ATC Codeだけでなくgeneric name[上図参照] も選択肢で与えられる設定）での正答率現在の大規模言語モデル（ LLMs）は、製品名とその一般名との間の文字列類似性に大きく依存しており、これは今後の改善の余地があることを示唆大きな差

【2024年7月~12月】医療分野 ×LLM 研究紹介

【2024年7月~12月】医療分野 ×LLM 研究紹介

Stardust

More Decks by Stardust

Featured

Transcript