Slide 18
Slide 18 text
©2024 Databricks Inc. — All rights reserved 18
LLMの評価方法
データセット
公開ベンチマーク
(GLUE, ANLI, ..)
自作データセット
生成データセット
プロダクションログ
オンライン評価(A/Bテスト)
人手での評価
ヒューリスティック
(ROUGE, JGLUE, …)
18
評価指標
LLM-as-a-Judge
● ユーザーのニーズを反映した
分布のデータが得られる
● フィードバックをアノテーション代
わりに
● 最低限世の中に出せるという
保証は必要