K Log Probabilities • Softmaxをかける前に足すbiasベクトルを指定できる ▪ 考え方 • Top K個の情報が得られるなら、 K個ごとの大きなbiasを足して推論するのを繰り返せば、すべての 情報が得られる ▪ 例えば、Top 5の場合 • logitsではなくて、logprobが出力されるので、Bを引くだけでは復元できない ▪ ▪ 対応法:差分計算 • Top Tokenがわかれば、毎回Top TokenとK - 1個の位置に大きなbiasを足して、差分を 計算できる。Softmaxはadditive shiftsに不変なのでOK。 • 極端なケース ▪ Top-1しか見れなくて、かつ biasの範囲を厳しく制限する ▪ biasがあり・なしの2回のクエリー結果を比較することで、差分を計算することが可能 ▪ 実験的には数値的に不安定 • OpenAIに攻撃を共有したのち、 logit-biasを考慮したlogprobsの出力を中止した 9