2019/03/05 長岡技術科学大学 自然言語処理研究室 学部4年 守谷 歩
二値符号予測と誤り訂正を用いたニューラル翻訳モデル2019/03/05長岡技術科学大学 自然言語処理研究室学部4年 守谷 歩1
View Slide
文献⚫「二値符号予測と誤り訂正を用いたニューラル翻訳モデル」⚫小田 悠介, Philip Arthur, Graham Neubig, 吉野 幸一郎, 中村 哲⚫二値符号予測と誤り訂正を用いたニューラル翻訳モデル, 自然言語処理, 2018, 25 巻, 2 号, p. 167-199, 公開日 2018/06/15, OnlineISSN 2185-8314, Print ISSN 1340-7619, https://doi.org/10.5715/jnlp.25.167, https://www.jstage.jst.go.jp/article/jnlp/25/2/25_167/_article/-char/ja, 抄録:2
概要⚫近年の機械翻訳ではエンコーダ、デコーダ、注釈機構からなるニューラル翻訳モデルが研究されている。⚫既存の方法で表現力の高いニューラル翻訳モデルの出力層ではソフトマックス演算を行っており、これは、語彙に含まれる全単語のスコアを隠れ層の一次結合として計算するため、計算量が語彙サイズに比例するため軽量化したい。⚫また、単純に二値符号のみを用いる方法だと翻訳精度が従来の手法と比べて大幅に低下してしまう。3
概要⚫従来の方法でも以下の4つの観点が計算量を軽量化するために需要だと考えられる。⚫翻訳精度⚫空間効率(使用メモリ量)⚫時間効率(実行速度)⚫並列計算との親和性⚫軽量化をするために従来のソフトマックスモデルを部分的に導入し、高頻度語と低頻度語を分離し、学習させる手法を提案。また、二値符号の頑健性を向上させるため、誤り訂正符号、畳み込み符号による冗長化を施す。4
単純なソフトマックスモデルの定式化⚫語彙サイズV、同じ数の次元の連続空間ℝ⚫単語ID ∈ { ∈ ℕ|1 ≤ ≤ }に対応する次元を1、それ以外の次元を0とする単位ベクトル() ∈ ℝを単語の表現とみなす⚫部分空間ℝ = ∈ ℝ ∧ ∀. 0 ≤ < 1 ∧ σ=1 = 1⚫損失関数の計算, = , = − + log =1 = σ=1 = ℎℎ + 5
二値符号を用いた単語の表現手法6
二値符号を用いた単語の表現手法⚫単語に対応するビット列 = b1w , b2w , … , bBw V = 0,1 B⚫各ビットが1となる確率 ℎ = 1ℎ , 2ℎ , … , ℎ ∈ 0,1 ⚫ロジスティック回帰モデル ℎ = ℎℎ + , =11 + exp(−)⚫確率q(h)における各ビットごとの確率の積Pr ℎ = ෑ=1 ℎ + 1 − 1 − ℎ7
二値符号モデルの損失関数、計算量⚫損失関数損失関数の満たすべき条件, ቊ=∈ =≥∈ℎ損失関数は、先行研究より二乗誤差を用いるほうが精度が向上, = =1B− 2⚫計算量 8
ソフトマックスと二値符号予測の混合モデル⚫生成確率Pr ℎ = ቊ, < ∗ , ℎ ℎ =exp σ=1 exp , = ℎℎ + , ℎ = ෑ=1(+ 1 − 1 − )⚫損失関数 = ൝ , < + , ℎ = , , = , 9
誤り訂正符号の適用⚫単純な二値符号予測モデル、混合モデルは二値符号自体の頑健性を考慮していないため、ビット誤りを許さない形となっている。⚫ビット列に対して、何らかの冗長性を導入する10
実験設定⚫コーパスはASPECとBTECを使用⚫英語のトークン化にはMoses、日本語のトークン化にはKyTeaを使用した。⚫ニューラルネットワークの構築にはDyNetを使用した。⚫すべてのモデルは1つのGPUを用いて学習した。また、実行時間を検証するためにGPU上とCPU上の両方で行った。⚫翻訳モデルのエンコーダには双方向RNN、注意機構及びデコーダはConcat Global Attention モデルを使用した。また、RNNには入力、忘却、出力ゲートを含む1層のLSTMを使用した。⚫ニューラルネットワークの学習にはAdam最適化機を使用し、そのハイパーパラメータは = 0.001, 1=0.9, 2= 0.999, = 10−8⚫モデルの評価にはBLUEを使用11
実験結果 BLEUと計算速度12
実験結果 学習の推移13
翻訳精度への影響14
単語出現頻度と推定精度の関係15
今後への展開⚫翻訳モデルにより適した単語のビット列への割り当て手法⚫ニューラル翻訳モデルの学習により適した形の誤り訂正手法の開発⚫入力装側の単語ベクトルも二値符号に制約し、モデルのパラメータを削った場合の翻訳精度は同様に達成できるのか⚫翻訳モデルの内部状態やパラメータが獲得した表現に関する調査16