Slide 10
Slide 10 text
10
©2024 Loglass Inc.
オフライン評価とオンライン評価
● オフライン評価だけでは限界がある
○ 究極ユーザーが見た出力が全て。網羅性は大事だが事前に全て想定しきれない
● オンライン評価・代替指標を組み合わせる
● 代替指標
○ 回答精度を直接評価しない。影響を与えると考えられるビジネス指標・
KPIを参照
● e.g.) Github Copillot
i. Acceptance Rate (生成したコードの受け入れ率)
ii. Retension Rate (生成したコードをどの程度で編集するか
)
オフライン評価
事前にデータセットを用いて出力を評価
オンライン評価
ユーザーの実利用を元にしたFBや分析