Slide 15
Slide 15 text
正則化の重み𝛽𝛽に関する考察: 𝜃𝜃∗ = argmin𝜃𝜃
𝐿𝐿𝐷𝐷
𝜃𝜃 + 𝛽𝛽 ⋅ 𝑅𝑅 𝜃𝜃
14
Wei et al. (2021)
英語のEuroParlデータで、β ∈ {−0.01, 0, 0.01, 0.03, 0.05, 0.07, 0.09}と変えながら、パー
プレキシティと言語モデルが単語を予測するときの情報量(surprisal)の分散を計測
βを大きくすることで、情報量の分散は低下していく(← 期待通り)
0.01 ≤ β ≤ 0.05あたりでパープレキシティが最小(βは小さ過ぎも大き過ぎもダメ)
𝛽𝛽 = 0および𝛽𝛽 = 0.07のパープレキシティは同程度であったが、情報量の分散に10%以
上の開きがあるため、UID仮説を一つの言語モデルだけで検証するのは不十分か
(UIDにペナルティ)
(UIDを使わない)
UID正則化を使わない言語モデル
と、𝛽𝛽 = 0.07としてUID正則化を
適用した言語モデルのパープレキ
シティが同程度だったが、情報量
の分散は10%以上異なる。ゆえに、
最尤推定で求めた言語モデル間で、
情報量の分散にばらつきがある可
能性があり、一つの言語モデルだ
けでUID仮説を検証するのは不十
分だった可能性がある。