A Latent Variable Recurrent Neural Networkfor Discourse Relation Language Models文献紹介2019/10/21長岡技術科学大学自然言語処理研究室 吉澤 亜斗武
View Slide
Abstract・単語のシーケンスや隣接する文の潜在的な談話関係をモデル化する潜在変数RNN(LVRNN)を提案・談話関係を潜在変数で表し,タスクに応じて予測または周辺化することが可能・談話関係の分類,対話行為の分類,談話における言語モデルのタスクで先行研究よりも優れていることを示した.2
1. Introduction・ニューラルモデルは確率的グラフィカルモデルと比べ,柔軟性がない.・先行研究では,きれいに複数の言語を扱うモデルを扱えている.・確率的グラフィカルモデルは層が多すぎるとtrainが困難・RNN言語モデルと談話関係を表す潜在変数モデルを組み合わせたハイブリッドモデルを提案3
1. Introduction・また,提案モデルはVAE を必要とするRNNの複雑なモデルでなく,実装及びトレーニングが簡単である.・提案モデルでは浅い談話関係に焦点を当てており,談話全体の内容を補足していない.・先行研究より談話関係分類,対話行為分類においては有効・提案モデルは当時のSotAよりも優れている.4
2. Background5RNNLMtoken in a sentence by ,∈ 1 … and = , ∈ 1…
2. Background6RNNLMの欠点の一つは文間の情報を伝搬できない.Document Context Language Model (DCLM)−1:前の文の最後の隠れ状態
3.1 Discourse Relation Language Models7浅い談話関係をもつ潜在変数 を導入
3.1 Discourse Relation Language Models8潜在変数 はコンテキスト情報のベクトルの要約
3.2 Inference9談話関係は少数なので推論が簡単に
3.3 Learning10Joint likelihood objective : 言語モデルと談話関係予測のタスクConditional objective:談話関係予測のタスク
4.1 Data11・Penn Discourse Treebank (PDTB)annotated on a corpus of Wall Street Journal acticles・ Switchboard dialogue act corpus (SWDA)annotated on a collections of phone conversations両方とも談話関係と対話関係の注釈が含まれている.
4.2 Implementation12詳細は論文で・単層LSTM・初期化:ランダム(ただし, は別途設定)・学習:AdaGrad 初期学習率λ=0.1,ドロップアウトτ=0.5・ハイパーパラメータ:次元数などはグリッドサーチ
5.1 Implicit discourse relation prediction on the PDTB13両方の提案手法が既存の手法よりも優れた結果に.二項検定の結果も良い
5.2 Dialogue Act tagging14精度が既存のものよりもよく,二項検定も良い結果に(F1非公開)
5.3 Discourse-aware language modeling15
5.3 Discourse-aware language modeling16・ベースラインに談話関連情報を追加することで,談話関係の曖昧さを解消がおき,優れた結果になった.・トレーニングに談話注釈が必要なため大規模なデータセットに対応した言語モデリングではない.・談話関係は周辺化しているので,もっと良いトレーニング方法があるのではと考察
7 Conclusion17・隣接するシーケンス間の浅い談話の関係に関する確率的ニューラルモデルを提案・確率的表現を維持しながら識別訓練されたベクトル表現を学習・2つの談話関係検出タスクでStoAよりも優れており,言語モデルとしても適用できることがわかった.・モデルのスケールアップが今後の課題