Slide 26
Slide 26 text
4.3 出⼒層の⾼速化
• NLPにおける応⽤タスクの多くは分類問題
• 語彙集合からの単語の選択
• 損失関数はクロスエントロピーを⽤いることが多い
• 多クラスロジスティック回帰
𝑝 𝑦(
|𝑋 = softmax 𝑓 𝑥, 𝑦(
|𝜃 =
exp 𝑓 𝑥, 𝑦(
|𝜃
∑exp 𝑓 𝑥, 8
𝑦(
|𝜃
• 確率モデルとして考えると、この尤度を最⼤化するパラメータθ(ニューラルネットのパ
ラメータ)を求めるということ(最尤推定)
• 分⺟は語彙数分の計算が必要
• NLP(特に⽣成系)では語彙が莫⼤になることが多くここの計算が重たい
• 本節では、計算を⾼速化するためのアプローチを解説
• 近似計算(少数のサンプルだけを使って計算):重点サンプリング
• 確率モデルを別の形に変形: NCE、負例サンプリング、ブラックアウト
• ソフトマックス関数を⼩さなソフトマックス関数の積でおきかえる:階層的ソフトマックス