手段 : 回答が正解の時だけ有効なトークンを生成 p: プロンプト q: <question> a*: gold answer (正答) a’: a perturbed answer A: 選択肢 !! = argmax log * !! +, -, .∗, !#! . !! = argmax log * !! +, -, .∗, !#! + 1 !! .∗ . 1 !! .∗ = log $ !! +, -, 2, .∗, !#! $ !! +, -, 2, .%, !#! . 正解の時に生成されるトークンから正解ではなくても 生成されるトークンを割り引く。流暢性を確保する ためにGreedy Decodingの生成確率を考慮