ニューラルネット4

ニューラルネット 2019/03/07 長岡技術科学大学自然言語処理研究室学部4年守谷歩 RNN,LSTM,seq2seq,Attention,Pointer Net, Transformer

RNN 復習 ⚫RNNはニューラルネットを繰り返していく方法 ⚫今までのニューラルネットと違い、同じレイヤに対してデータを送り続ける ⚫時間という観点で見るととある時刻におけるRNNのレイヤではひとつ前のレイヤからの出力を以下のように得る ℎ = tanh(ℎ−1
ℎ + + ) RNN RNN RNN RNN xt x1 x2 xt ・・・

勾配消失 ⚫RNNでは物事の推論を行うにあたって長い記憶をすることが苦手 ⚫勾配がレイヤを通るたびに弱くなり、ほとんど情報を持たなくなってしまう勾配消失か勾配が大きくなりすぎる勾配爆発が起こる。 ⚫原因として、逆伝搬時に微分が行われ、tanhノードを通った場合、その微分は1以下となり、勾配がどんどん小さくなっていく。 = tanh , =
1 − 2 ⚫またRNNを時間として考えた時の行列の積の計算では、毎回同じ重みが使われており、勾配がどんどん大きくなっていく。

LSTM ⚫勾配消失の対策として、LSTMがある ⚫LSTMには記憶セルｃが、レイヤ内でデータの受け渡しをし、隠れ状態ｈのみを次のレイヤに出力する。 ⚫LSTMではoutputゲート、inputゲート、forgetゲートそして、状態を記憶する処理によって勾配消失を防いでいる。

LSTMクラスの実装 ⚫各処理を定式化すると以下のようになる。 ⚫Forgetゲート: = ( + ℎ−1 ℎ + )
⚫Inputゲート:i = ( + ℎ−1 ℎ + ) ⚫Outputゲート:o = ( + ℎ−1 ℎ + ) ⚫記憶セルの更新:g = ℎ( + ℎ−1 ℎ + ) ⚫記憶セルc: = ⨀−1 + ⨀ ⚫出力:ht = ⨀tanh( )

seq2seq ⚫ニューラルネットを使った言語モデルでは、ある単語が与えられた場合、その単語の次の文字に対しての確率分布を出力していた。 ⚫seq2seqはEncoder-Decoderモデルと呼ばれ、2つのモジュールが存在する。 ⚫Encoderでは入力されたデータ任意の長さの固定長ベクトルに変換する。 Decoderでは固定長にしたベクトルに対してLSTM言語モデルを当てはめて出力させる。 ⚫また、入力分を反転させて学習させる手法（Reverse)やエンコーダの情報をデコーダの複数レイヤに与える(Peeky)といった手法で精度を向上さ
せることができる。

Seq2seq問題点 ⚫Seq2seqはその手法として、入力文をエンコーダから、デコーダに固定長のベクトルとして送り、出力の生成を行っていた。しかし、入力文が大きい場合でも、固定長のベクトルにしないといけないといった点で、表現力の限界が来る。 ⚫また、入力文に大きな差があった場合、出力される文の精度があまり高くない。

Attention概要 ⚫Attentionとは、次の隠れ層hを予測する場合に、過去のtつの隠れ層を参照して過去のどの点を重要視するかの重みを見る手法である。 ⚫具体的な方法としては、Decoderの隠れ層のベクトルhtとEncoder の全時刻の隠れ層のベクトルhsのスコア計算を行い、時刻tにおいてどの入力単語に注視をするかを決める手法である。

Pointer Network概要,CopyNet概要 ⚫Pointer Networkとは、Encoderで入力を読み、DecoderでAttentionを使いどの入力を選択するかを決定する。 ⚫Attentionによって得られる入力単語の分布を出力単語の分布としてみてあげることによって分布の次元を可変とすることができる。 ⚫CopyNetはseq2seqモデルとPointer Networkの機構を組み合わせたモデル
⚫Decoderでの出力の際にモデルの保持している辞書の分布と入力からの単語を選択する分布によって単語の選ばれる確率を計算している。

Transformer ⚫Self Attentionといった考え方を用いる ⚫Self Attentionでは、一つの時系列データを対象として、各要素がほかの要素に対してどのような関連性があるかを見るものである。 ⚫今までのAttentionでは異なる2つの時系列のデータを入力して処理していたが、Self Attentionでは、2つの入力に対し
てひとつの時系列データを入力する。 ⚫学習速度や翻訳での精度などの向上がみられた

参考資料 ⚫ゼロから作る Deep Learning ⚫ゼロから作る Deep Learning2 自然言語処理編 ⚫強化学習と深層学習 <<C言語によるシミュレーション>>
⚫[機械学習]パラメータの重みの初期値:https://qiita.com/m-hayashi/items/02065a2e2ec3e2269e0b ⚫ChainerとRNNと機械翻訳:https://qiita.com/odashi_t/items/a1be7c4964fbea6a116e ⚫[機械学習]Google翻訳（みたいなもの）を自作してみた。:https://qiita.com/R- Yoshi/items/9a809c0a03e02874fabb ⚫Xavierの初期値 Heの初期値の考察:http://murayama.hatenablog.com/entry/2017/11/25/231609 ⚫Dual Learning for Machine Translation ⚫Seq2Seq+Attentionのその先へ:https://qiita.com/ymym3412/items/c84e6254de89c9952c55 ⚫Attention Is All You Need

ニューラルネット4

ニューラルネット4

Ayumu

More Decks by Ayumu

Other Decks in Technology

Featured

Transcript

ニューラルネット 2019/03/07 長岡技術科学大学自然言語処理研究室学部4年守谷歩 RNN,LSTM,seq2seq,Attention,Pointer Net, Transformer

LSTMクラスの実装 ⚫各処理を定式化すると以下のようになる。 ⚫Forgetゲート: = ( + ℎ−1 ℎ + )

参考資料 ⚫ゼロから作る Deep Learning ⚫ゼロから作る Deep Learning2 自然言語処理編 ⚫強化学習と深層学習 <<C言語によるシミュレーション>>