なぜ今「評価」なのか
身近に広がる生成
AI
生成
AI の弱点
Finetune は可能
: LoRA
Finetune で独自ドメインの知識を与えようとすると逆効果
RAG
評価の必要性
Slide 6
Slide 6 text
身近に広がる生成
AI
Apple Intelligence
Web アプリだけじゃない
チャットだけじゃない
Intent を通じて
OS やアプ
リと緊密に連携する
Apple Intelligence Preview - Apple https://www.apple.com/apple-
intelligence/
Slide 7
Slide 7 text
生成
AI の弱点
常識には強い
特定分野の専門知識が求め
られると弱い
Slide 8
Slide 8 text
基盤モデルの
Finetune: LoRA
生成
AI 以前の常識に従えば、業界特
化な知識は
finetune で与える
基盤モデルを
finetune し特化モデル
を作成することは技術的に可能
LoRA はストレージコストを低減
Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint
arXiv:2106.09685 (2021). https://arxiv.org/abs/2106.09685
Slide 9
Slide 9 text
Finetune で独自ドメインの知識を与
えるのは困難
元のモデルが知識として持たないデ
ータセットを構築し、ファインチュ
ーニングで意図的にそのような知識
を獲得させようと訓練
知らない知識を与えれば与えるほど
ハルシネーションを引き起こしやす
くなるという結果
Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage
Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904
Slide 10
Slide 10 text
Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024).
https://arxiv.org/abs/2405.05904
Slide 11
Slide 11 text
RAG (Retrieval-Augmented
Generation)
検索と
LLM の合せ技
現実解になっている
検索を効率良く行うことが
実用上重要
Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge
Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024).
https://arxiv.org/abs/2405.05904
チームによる評価の注意点
複数人が同じデータに対し
て評価をこない、多数決を
行うことはあまり効率的で
はない
複雑なタスクの場合、クラ
ウドサービスでアノテーシ
ョンする方法はかなり厳し
い
Margaret A. Webb, June P. Tangney "Too Good to Be True: Bots and Bad
Data From Mechanical Turk" Perspectives on Psychological Science (2022)
https://journals.sagepub.com/doi/10.1177/17456916221120027