Slide 8
Slide 8 text
提案手法 : Contrastive Decoding
8
n 目的 : 誤った論拠を減らす
n 手段 : 回答が正解の時だけ有効なトークンを生成
p: プロンプト
q:
a*: gold answer (正答)
a’: a perturbed answer
A: 選択肢
!!
= argmax log * !!
+, -, .∗, !#!
.
!!
= argmax log * !!
+, -, .∗, !#!
+ 1 !!
.∗ .
1 !!
.∗ = log $ !!
+, -, 2, .∗, !#!
$ !!
+, -, 2, .%, !#!
.
正解の時に生成されるトークンから正解ではなくても
生成されるトークンを割り引く。流暢性を確保する
ためにGreedy Decodingの生成確率を考慮