深層学習を用いた自然言語処理③

深層学習を用いた自然言語処理(3) seq2seqを用いた言語モデルによる文章生成鈴木脩右 2019/1/24 長岡技術科学大学自然言語処理研究室 1

目次言語モデル seq2seq おわりに 2

言語モデル

言語モデルとは • 単語の並びに対して確率を与える • 自然な単語の並びかを確率で評価例）「You say goodbye」→　高確率　　「You
say good die」→　低確率 • 様々なアプリケーションに応用可能例）機械翻訳，対話システム • 確率分布により文章生成が可能 3

数式による表現 w1 , · · · , wm という順序で単語が出現する確率 (同時確率)
は次式で表される P(wt |w1 , · · · , wm ) = m t=1 P(wt |w1 , · · · , wt−1 ) 4

評価方法モデルの予測性能を perplexity(確率の逆数) で評価 L = − 1 N n
t tnk log ynk perplexity = eL tnk :onehot ベクトルの正解ラベル， ynk :確率分布，L:損失関数 5

seq2seq

seq2seq(sequence to sequence)とは • 時系列データを別の時系列データに変換するモデル • Encoder-Decoder モデルとも呼ばれる •
2 つの RNN モデルを利用する 6

RNN(Recurrent Neaural Network)とは • ループする経路を持っている • 一つ前の出力データが入力される • ht =
tanh(ht−1 Wh + xt Wx + b) Figure 1: RNN モデル 7

RNN言語モデル Figure 2: RNN 言語モデル 8

RNNによる文章生成 Figure 3: 文章生成の流れ 9

Encoder-Decoderモデル • Encoder-文章を固定長のベクトルに変換する • Decoder-固定長のベクトルを受け取り，文章生成 Figure 4: Encoder-Decoder モデル 10

seq2seqの改良 • Encoder で固定長のベクトルに変換するため，長文に対応できない →　単語ベクトルを行列にまとめて Decoder に渡す • Decoder
はまとまった行列を受け取れない →　対応関係にある単語の情報を抜き出す (Attention) • 行列と，単語の重要度の重み付き和で Attention を実現 →　単語の重要度は，固定長ベクトルと行列の類似度によって算出される 11

おわりに

まとめ • 言語モデルは，単語の羅列を確率として解釈する • seq2seq は時系列データを別の時系列データに変換する • RNN はループする経路を持っている •
Encoder は文章をベクトルに変換する • Decoder はベクトルを受け取り，文章生成する • Attention という手法で，seq2seq を改良できる 12

参考文献 [1] 藤康毅. ゼロから作る Deep Learning ②. オライリー・ジャパン,2018. [2]
高知宏. 自然言語処理と深層学習. オーム社,2017. 13

深層学習を用いた自然言語処理③

深層学習を用いた自然言語処理③

shu_suzuki

More Decks by shu_suzuki

Other Decks in Technology

Featured

Transcript

深層学習を用いた自然言語処理(3) seq2seqを用いた言語モデルによる文章生成鈴木脩右 2019/1/24 長岡技術科学大学自然言語処理研究室 1

目次言語モデル seq2seq おわりに 2

言語モデル

言語モデルとは • 単語の並びに対して確率を与える • 自然な単語の並びかを確率で評価例）「You say goodbye」→　高確率　　「You

数式による表現 w1 , · · · , wm という順序で単語が出現する確率 (同時確率)

評価方法モデルの予測性能を perplexity(確率の逆数) で評価 L = − 1 N n

seq2seq

seq2seq(sequence to sequence)とは • 時系列データを別の時系列データに変換するモデル • Encoder-Decoder モデルとも呼ばれる •

RNN(Recurrent Neaural Network)とは • ループする経路を持っている • 一つ前の出力データが入力される • ht =

RNN言語モデル Figure 2: RNN 言語モデル 8

RNNによる文章生成 Figure 3: 文章生成の流れ 9

Encoder-Decoderモデル • Encoder-文章を固定長のベクトルに変換する • Decoder-固定長のベクトルを受け取り，文章生成 Figure 4: Encoder-Decoder モデル 10

seq2seqの改良 • Encoder で固定長のベクトルに変換するため，長文に対応できない →　単語ベクトルを行列にまとめて Decoder に渡す • Decoder

おわりに

まとめ • 言語モデルは，単語の羅列を確率として解釈する • seq2seq は時系列データを別の時系列データに変換する • RNN はループする経路を持っている •

参考文献 [1] 藤康毅. ゼロから作る Deep Learning ②. オライリー・ジャパン,2018. [2]