Slide 8
Slide 8 text
N-gram ⾔語モデル
• 単語の⽣起確率が直前 N-1 単語に依存するモデル
• 算出法︓訓練データ(コーパス)中の出現頻度をカウント
• I have a が100回出現したうち,90回は続く単語が dream だった
→ I have a の後に dream が出現する確率は 90%
• ⽋点1︓単語間の類似性を考慮できない
• I と You や He は似た振る舞いだが完全に異なる単語扱い
• ⽋点2︓N が⼤きいと訓練データから⼗分な統計量が得られない
• 与えられた 20-gram に⼀致する系列が訓練データにない → ⽣成確率 0︖
• ニューラル⾔語モデルはこれらの⽋点を克服可能
8
• %@.=4 05
– P(I have a dream) > P(a have I dream)
– &(4971649>05
• #!$C+perplexity
– 8A=':',D+-B
– 32 "!'< → ;#!$
– /,),?
<*
3
tD?G(,
}O\
§
¯¡+RNNtD
}9@+cª
x+V*SY§1x!$9@6·S
§¬+L t(!&+1! 6x
RU~+(!&x
Encoder-Decoder6a$Pm¶°ib'wi
RNN Encoder-Decoder,~tD?G
P(I have a dream) > P(a have I dream) > P(fuga spam hoge)
:
• j+RNNtD?G*);HBG)9@6}
• ¯¡+D?G+k6!cª6r"3('z¥
P(I have a dream)
= P(I)P(have | I)P(a | I have)P(dream | I have a)
I have a dream
I have a dream
P(I)
P(have | I) P(a | I have) P(dream | I have a)
}
9@
RNNt
D?G
gdream
= σ(Wg
e’dream
+bg
)
P(dream | I have a)
hdream
Softmax(s’dream
)
sdream
=(Whdream
+b)
gdream
sdream
}9@+x
s’dream
?=<>@P
¹IyN§ +
PennTreebank
Wikitext-2
Model
PennTreebank*
LSTM (Zaremba+, 2014)
Variational LSTM (Gal+, 20
Variational RHN (Zilly+ 201
Variational RHN + WT
Variational RH * 5
Variational RHN * 10
Pointer Sentinel LSTM (Me
Neural Architecture Search
Wikitext-2*3
LSTM (Zaremba+ 2014)
Variational LSTM (Gal+ 20
Variational LSTM + cache
Variational RHN + WT + ca
Pointer Sentinel LSTM (Me
1-gram 2-gram 3-gram 4-gram