Slide 8
Slide 8 text
評価指標: 単語数指標と主観的指標 8
GEO タスク向けの評価指標を提案
単語数指標
=
文書 𝑐𝑖
が引用された文の単語数
生成結果の単語数
お気持ち: 生成結果で文書 𝑐𝑖
が
何度も引用されていれば文書 𝑐𝑖
は
生成結果に影響を与えたはず
お気持ち: 生成結果で文書 𝑐𝑖
が
先頭で引用されていれば文書 𝑐𝑖
は
生成結果に影響を与えたはず
主観的指標
次の 7 種類の指標を LLM-as-a-Judge(G-Eval)で 5 段階で判定
Relevance, Influence, Uniqueness, Subjective Position, Subjective Count, Follow Up, Diversity
例: Influence だと「引用された文書が生成結果にどの程度影響を与えたか?」を LLM で評価
1. Word:
2. Position-adjusted:
(GPT-3.5)