Slide 16
Slide 16 text
/30
TagLM [Peters+, 2017]
• 2 層の双方向の言語モデルを用いて単語特徴を獲得
• 1 Billion Benchmark [Chelba+, 2014] で学習した言語モデルを利用
• 順方向: 既存の学習済みモデル [Jozefowicz+, 2016]
• LSTM hidden_dim: 8192 (!!), Linear projection: 1024
• 逆方向: 著者らが学習
• LSTM hidden_dim: 2048, Linear projection: 512
16
図は論文より抜粋