Slide 6
Slide 6 text
ClinicBench (EMNLP2024 )
・17の豊富で包括的なベンチマーク
・Factuality, Completeness, Preference, Safety
・・・医療特化LLMの傾向としては⤴⤵⤵⤴
・Open-ended, long document, new drug understandingなど深い
タスクで性能悪化. 実用には不十分.
https://aclanthology.org/2024.emnlp-main.759.pdf
1. 商業LLM: 商業のクローズドソースLLM、特にGPT-4は、すべてのタスクとデータセットにおいて既存のオープンソースの公開 LLMを上回る性能を発揮します。
2. 最先端技術 (SOTA): LLMは、選択肢が与えられた試験形式のQAタスクにおいて優れたパフォーマンスを達成し、人間の専門家と競い合い、以前のタスク特化型
SOTA手法を大幅に上回ります。しかし、LLMはオープンエンドの意思決定、生成、理解においてはあまり良い性能を発揮しません。
3. 医療LLM: 医療データでLLMをファインチューニングすることで、医療データの推論能力や理解力が向上しますが、要約能力が低下する可能性があります。ドメイン
固有のファインチューニングや少数ショットプロンプトがこの制限を解決するための潜在的な方法となる可能性があります。
4. 臨床タスク: 現在のLLMは複雑な臨床タスクに対処する際に効果が薄く、性能が大きく低下することが示されています。それにもかかわらず、商業LLMは公開LLM
と比較して若干の低下にとどまります。医療LLMは、一般的なLLMに比べて臨床タスクに適応する能力が高いです。
5. few-shot学習: few-shot学習は推論と生成のパフォーマンスを向上させます(1ショットまたは3ショット学習が最良の推論パフォーマンスを達成し、ショット数が増え
ることで生成パフォーマンスが一貫して向上します)が、LLMの理解パフォーマンスには悪影響を及ぼします。
6. 臨床での有用性: 医療LLMは一般的なLLMよりも事実に基づいた安全な回答を生成しますが、完全でユーザーが好む回答を生成する能力は低くなります。ある程
度の幻覚(誤情報の生成)は、まれな病気の診断などにおいて、より広範な診断提案を提供することで臨床医にとって有益となる場合があります。
7. 指示ファインチューニング (IFT): 異なる種類のIFTデータは異なる側面で改善をもたらします。より多様なIFTデータを使用することで、医療LLMの性能が向上し、
IFTデータの多様性の向上が、訓練データ量の増加と同じくらい重要であることが強調されます。
メッセージ( ChatGPTで和訳)
!?
新しい視点
あぁ...
↑ここの議論もう少し欲し
い気持ち。