0309-nlpaperchallenge-nlp5

深層学習による自然言語処理第5章応用筑波大学情報学群 B3 石原慧人

自己紹介 • 群馬高専→筑波大情報科学類 • 自然言語処理グループ (http://www.nlp.mibel.cs.tsukuba.ac.jp) • twitter: @nizhny_

概要本章では、これまで取り上げられてきた深層学習モデルの自然言語処理における応用、特に「機械翻訳」「文書要約」「対話」「質問応答」の4つの分野について解説していく

目次 • 機械翻訳 • 文書要約 • 対話 • 質問応答

機械翻訳とはコンピューターを用いて人手を介さず自動的にある言語の文章を別の言語の文章に翻訳する方法を総称して、機械翻訳という →　とくにニューラルネットによる機械翻訳をニューラル翻訳(Neural Machine Translation;NMT)という

「統計」翻訳と「ニューラル」翻訳ルールベース翻訳、用例ベース翻訳、統計翻訳(Statistical Machine Translation; SMT)と推移してきたが2015年前後からNMT が主流となっている SMT Seq2Seq attention Transformer
2017 2014 GoogleNMT 2016

WMT16 独英ニュース翻訳ランキング http://www.statmt.org/wmt16/pdf/W16-2301.pdf https://ec.europa.eu/info/sites/info/files/tef2016_haddow_en.pdf

典型的なモデル構成 (2017年1月時点での)論文中のベースラインとしてよく使われているツール • GroundHog(RNNSearch)→モントリオール大学からリリース、メンテナンス終了済み • OpenNMT→ハーバード大学からリリース、本書ではこちらについて取り上げている

OpenNMT http://opennmt.net • 学習データを用意するだけでニューラルネットのモデリングが可能なツール • 最近では類似ツールとしてGoogleが tensor2tensor(https://github.com/tensorflow/tensor2tensor) を公開している

NMTのタスク構成翻訳前の文書を入力として、翻訳後の文書を解答としてモデルの学習を行うだけ二層の双方向LSTMでの事例が紹介されているが、3,4章の内容とあまり変わらないので割愛

入出力の処理単位に対する改良 • 扱える語彙数と計算量はトレードオフ • 選択肢が増えるため必ずしも語彙数と性能は比例しない • そもそも未知語を完全になくすことは不可能 →未知語と判定したものを後処理で「UnkRep」などのトークンに置き換えることが一般的

未知語に対する改良そもそも文章の区切り方を単語単位から変えることによる解決も試みられている • 文字単位→ほぼ未知語をなくすことが可能 • バイト対符号化(Byte Pair Encoding; BPE)→出現頻度の大き
い文字をペアにしていく、単語と文字の中間

文字単位メリット • (特に英語は)文字種が限定されるため未知語が発生しにくい • 分かち書きに特殊な処理が必要ない • 誤字脱字に頑健デメリット •
粒度が小さいので学習に時間がかかる https://www.slideshare.net/tdualdir/devsumi-107931922

BPE 出現頻度に応じてペアを作っていくことで、高頻度語は単語単位で利用し、低頻度語は文字単位で利用する手法文字単位と単語単位の中間的手法、ライブラリとしては Sentencepieceが登場している →これら三種類のうち実際どれが優れているかはまだ決着がついていない

被覆に対する改良 • 同じ単語を繰り返し生成してしまう過剰生成問題 • 元の分の必要な語を無視してしまう不足生成問題多个机场都被迫关闭了 → many airports were
close to close これらを解決するため「被覆(coverage)」という概念を導入 http://www.aclweb.org/anthology/P16-1008

被覆とはこれらの問題はモデルが翻訳済みの情報を持たないために引き起こされる →入力単語長と同じサイズのゼロベクトルを用意する。そして最終的に全て1になるまで翻訳済みの単語に対応する要素を1にしていくことで原文全体を過不足なく翻訳できる

ニューラルネットにおける被覆 NMTにおいて被覆を直接モデリングするのは困難であるため、被覆ベクトルを注意機構に組み込むパラメータとして定義する被覆導入前: e i,j =v a Ttanh(W a
t i-1 +U a h j ) 被覆導入後: e i,j =v a Ttanh(W a t i-1 +U a h j +V a C i-1,j ) ※V a は重み、C i-1,j が被覆ベクトル,

被覆のモデル構造 ※Φ j =N・σ(U f h j )で定義される関数、Nはハイパーパラメータ

現在のSOTA(WMT16独英翻訳) https://paperswithcode.com/task/machine-translation

文章要約とは与えられた文章から、要点を抽出したより短い文書を生成する方法を文書要約という同一言語内で完結するため機械翻訳より難易度が低そうに感じるかもしれないが、NMTはモデルが言語依存の要因をほぼ吸収してしまう為必ずしもそうではない

訓練データ獲得に対する課題機械翻訳では基本的に入出力はどちらも一文だが、要約の場合はほとんどの場合複数文である。そのため文書要約においては機械翻訳よりもかなり多くのデータ量が必要となる。

タスク定義の曖昧さの課題 (例) • 見出しの生成→1文程度の短い文書 • 概要の生成→複数文である程度の長さの文書このように用途に応じて同じ文書要約でも正解が変化してしまう

短文生成タスク/見出し生成タスクニュース記事の一文目を与えて見出しを生成するタスクは「見出し生成タスク」と呼ばれ、文書要約の中でも以下のような理由から比較的簡単でありよく取り組まれている • 新聞記事から容易に大規模なデータが得られる • 一文から一文を生成するタスクであるため機械翻訳と構造があまり変わらない

典型的なモデル構成順伝搬型ニューラル言語モデルと注意機構を組み合わせたモデルがベンチマークとしてよく利用されている論文中ではAttention Based Summarization(ABS)と名付けられ、入力文をX,出力文を Yとして以下の式に従ってモデル化している P abs (Y|X)=∏j+1P
abs (y j |X,Y [j-C, j-1] )…(5.1) P abs (y j |X,Y [j-C, j-1] )=softmax(o j )・y j …(5.2) o j =nnlm(Y [j-C, j-1] )+enc(X,Y [j-C, j-1] )…(5.3) https://aclweb.org/anthology/D/D15/D15-1044.pdf

nnlmの概要実質的には順伝搬型ニューラル言語モデルであるので詳細な計算式は本書の式(3.11)を参照このブロックは論文中の右の図における青線で囲った部分に相当する

encの概要青線で囲った部分は入出力間の注意確率を計算する最後に入力の各単語の周辺Q単語の埋め込みベクトルの平均ベクトルと注意確率から各単語のスコアを計算する

拡張 ABSではRNNが採用されていないがこれはABS登場時(2015年)にはまだRNNの効力がはっきりわかっていなかったことが原因 ABSの半年後にはRNNを用いた拡張が提案され効果が出ている

要約率に関する改良見出し生成タスクにおいてもどの程度の長さまで要約すべきかという課題は発生する LSTMへの入力に残り文字数を与えることで狙った文字数に出力を制御する方法が提案されている http://www.phontron.com/paper/kikuchi16emnlp. pdf

意味表現の利用による改良式(5.3)を以下のように拡張することで文書の主語や目的語といった意味情報を利用することで性能の向上が確認されている o j =nnlm(Y [j-C, j-1] )+enc(X,Y [j-C,
j-1] )+encAMR(A,Y [j-C, j-1] )…(5.5) encAMR(A,Y [j-C, j-1] )=O”As j …(5.6) s j =softmax(ATSy’ c )…(5.7) Aは論文中で提案されている意味表現に対する符号化器から得られる

コピー機構による改良文書要約以外にも応用可能な技術として、入力側の単語をそのまま出力に利用するコピー機構がある入力文の単語をそのまま利用することで未知語についても性能の向上が期待できる https://arxiv.org/pdf/1603.06393.pdf

現在のSOTA(GigaWord) https://paperswithcode.com/task/text-summarization

対話システムとは人とコンピュータが会話することを目的としたシステムを対話システムというニューラルネットの登場で「言語の認識」「対話の状態管理」などのサブシステムを介さずシステム全体を直接学習可能に

典型的なモデル構成これまでの対話の文脈を入力とし、そこに続く応答を出力とする。文脈をC、応答をRとしたときCに対するRの条件付き確率P(R|C)をモデル化している https://arxiv.org/abs/1506.05869

改良以下のような要素をモデルに組み込むことで性能の向上が確認されている • 話者交代 • 話者ID • 話者別状態ベクトル

応答の長さに関する課題「はい」「ありがとう」などの短い応答は多くの文脈で許容される短い応答ばかりが出力されるのはあまり望ましくない →単純にスコアだけで単語を選択するのではなく、サンプリングや相互情報量などを用いたほうが多様性のある応答が期待できる

実際の運用における課題 • 一度見当違いの応答を生成してしまうと、その後の応答でそれを文脈として読み取ってしまう • 複数人会話では話相手の明示が必要で難易度が上がる

自動評価に関する課題 (例)「旅行に行きませんか？」 • 「はい、行きたい場所があります」 • 「いいえ、天気が悪いので映画を見に行きましょう」 →意味は真逆だがどちらも解答としては適切このように対話システムは機械翻訳のような自動評価が困難であり、評価方法そのものも研究対象としうる

応答選択タスク応答生成を直接行わず、与えられた応答候補から正しい応答を選択する「応答選択タスク」による評価も提案されている与えられた文脈に対する応答候補それぞれをモデルによりスコア付けすることで、再現率などにより自動評価が容易に可能である https://arxiv.org/abs/1506.08909

現在のSOTA(Ubuntu Dialogue) https://paperswithcode.com/task/dialogue-generation

質問応答とは自然言語で与えられた質問に対して、自然言語で回答を行うタスクを質問応答(Question Answering; QA)という質問の種類に応じて「事実型質問応答」「非事実型質問応答」「クローズドメイン質問応答」「オープンドメイン質問応答」「画像質問応答」と様々に分類される

質問応答の流れ質問解析→文書検索→回答抽出→回答選択の順に処理を分解して実行される検索部分は情報検索技術を応用することが多く、深層学習が利用されるのは主に回答選択部分である

回答選択タスク質問文qが与えられ、N個の回答候補{a1,...,aN}それぞれについて回答としてのスコアを算出するタスクを回答選択タスクという、対話システムにおける応答選択タスクとほぼ等価である質問文と回答候補それぞれについてCNNなどでベクトル化し、それらの類似度関数を最適化することでモデルを作成する

損失関数質問文ベクトルをv(q)、正例回答文ベクトルをv(a+)、負例をv(a-)、マージンをmとする f(v(q), v(a+))<m+f(v(q), v(a-))を満たす負例を用いてモデルの学習における損失関数を max(0, m-f(v(q), v(a+))+f(v(q),
v(a-)))･･･(5.10) と定義する

評価方法 • 平均適合率の平均･･･全候補の適合率の平均の文章ごとの平均 • 平均逆順位･･･正解候補中の最も高い順位の逆数順位 1 2 3
4 5 6 正解 ✕ ◦ ✕ ✕ ◦ ✕ 適合率 0/1 1/2 1/3 1/4 2/5 2/6 逆順位 1/1 1/2 1/3 1/4 1/5 1/6

end-to-end 他の分野と同じように部分問題のみならずend-to-endで質問応答全体を単一のモデルで解決しようとする研究もある。この場合質問に応答するために必要な知識源の獲得もニューラルネットが行うため記憶ネットワークなどが利用される bAbIタスクなどではend-to-endの質問応答のためにテキスト、質問文、応答がデータセットとして提供される

現在のSOTA(SQuAD2.0) https://paperswithcode.com/task/question-answering

0309-nlpaperchallenge-nlp5

0309-nlpaperchallenge-nlp5

nizhny

More Decks by nizhny

Other Decks in Technology

Featured

Transcript

深層学習による自然言語処理第5章応用筑波大学情報学群 B3 石原慧人

自己紹介 • 群馬高専→筑波大情報科学類 • 自然言語処理グループ (http://www.nlp.mibel.cs.tsukuba.ac.jp) • twitter: @nizhny_

概要本章では、これまで取り上げられてきた深層学習モデルの自然言語処理における応用、特に「機械翻訳」「文書要約」「対話」「質問応答」の4つの分野について解説していく

目次 • 機械翻訳 • 文書要約 • 対話 • 質問応答

「統計」翻訳と「ニューラル」翻訳ルールベース翻訳、用例ベース翻訳、統計翻訳(Statistical Machine Translation; SMT)と推移してきたが2015年前後からNMT が主流となっている SMT Seq2Seq attention Transformer

WMT16 独英ニュース翻訳ランキング http://www.statmt.org/wmt16/pdf/W16-2301.pdf https://ec.europa.eu/info/sites/info/files/tef2016_haddow_en.pdf

OpenNMT http://opennmt.net • 学習データを用意するだけでニューラルネットのモデリングが可能なツール • 最近では類似ツールとしてGoogleが tensor2tensor(https://github.com/tensorflow/tensor2tensor) を公開している

NMTのタスク構成翻訳前の文書を入力として、翻訳後の文書を解答としてモデルの学習を行うだけ二層の双方向LSTMでの事例が紹介されているが、3,4章の内容とあまり変わらないので割愛

未知語に対する改良そもそも文章の区切り方を単語単位から変えることによる解決も試みられている • 文字単位→ほぼ未知語をなくすことが可能 • バイト対符号化(Byte Pair Encoding; BPE)→出現頻度の大き

文字単位メリット • (特に英語は)文字種が限定されるため未知語が発生しにくい • 分かち書きに特殊な処理が必要ない • 誤字脱字に頑健デメリット •

被覆に対する改良 • 同じ単語を繰り返し生成してしまう過剰生成問題 • 元の分の必要な語を無視してしまう不足生成問題多个机场都被迫关闭了 → many airports were

ニューラルネットにおける被覆 NMTにおいて被覆を直接モデリングするのは困難であるため、被覆ベクトルを注意機構に組み込むパラメータとして定義する被覆導入前: e i,j =v a Ttanh(W a

被覆のモデル構造 ※Φ j =N・σ(U f h j )で定義される関数、Nはハイパーパラメータ

現在のSOTA(WMT16独英翻訳) https://paperswithcode.com/task/machine-translation

目次 • 機械翻訳 • 文書要約 • 対話 • 質問応答

訓練データ獲得に対する課題機械翻訳では基本的に入出力はどちらも一文だが、要約の場合はほとんどの場合複数文である。そのため文書要約においては機械翻訳よりもかなり多くのデータ量が必要となる。

タスク定義の曖昧さの課題 (例) • 見出しの生成→1文程度の短い文書 • 概要の生成→複数文である程度の長さの文書このように用途に応じて同じ文書要約でも正解が変化してしまう

nnlmの概要実質的には順伝搬型ニューラル言語モデルであるので詳細な計算式は本書の式(3.11)を参照このブロックは論文中の右の図における青線で囲った部分に相当する

encの概要青線で囲った部分は入出力間の注意確率を計算する最後に入力の各単語の周辺Q単語の埋め込みベクトルの平均ベクトルと注意確率から各単語のスコアを計算する

拡張 ABSではRNNが採用されていないがこれはABS登場時(2015年)にはまだRNNの効力がはっきりわかっていなかったことが原因 ABSの半年後にはRNNを用いた拡張が提案され効果が出ている

意味表現の利用による改良式(5.3)を以下のように拡張することで文書の主語や目的語といった意味情報を利用することで性能の向上が確認されている o j =nnlm(Y [j-C, j-1] )+enc(X,Y [j-C,

現在のSOTA(GigaWord) https://paperswithcode.com/task/text-summarization

目次 • 機械翻訳 • 文書要約 • 対話 • 質問応答

対話システムとは人とコンピュータが会話することを目的としたシステムを対話システムというニューラルネットの登場で「言語の認識」「対話の状態管理」などのサブシステムを介さずシステム全体を直接学習可能に

典型的なモデル構成これまでの対話の文脈を入力とし、そこに続く応答を出力とする。文脈をC、応答をRとしたときCに対するRの条件付き確率P(R|C)をモデル化している https://arxiv.org/abs/1506.05869

改良以下のような要素をモデルに組み込むことで性能の向上が確認されている • 話者交代 • 話者ID • 話者別状態ベクトル

実際の運用における課題 • 一度見当違いの応答を生成してしまうと、その後の応答でそれを文脈として読み取ってしまう • 複数人会話では話相手の明示が必要で難易度が上がる

現在のSOTA(Ubuntu Dialogue) https://paperswithcode.com/task/dialogue-generation

目次 • 機械翻訳 • 文書要約 • 対話 • 質問応答

質問応答の流れ質問解析→文書検索→回答抽出→回答選択の順に処理を分解して実行される検索部分は情報検索技術を応用することが多く、深層学習が利用されるのは主に回答選択部分である

損失関数質問文ベクトルをv(q)、正例回答文ベクトルをv(a+)、負例をv(a-)、マージンをmとする f(v(q), v(a+))<m+f(v(q), v(a-))を満たす負例を用いてモデルの学習における損失関数を max(0, m-f(v(q), v(a+))+f(v(q),

評価方法 • 平均適合率の平均･･･全候補の適合率の平均の文章ごとの平均 • 平均逆順位･･･正解候補中の最も高い順位の逆数順位 1 2 3

現在のSOTA(SQuAD2.0) https://paperswithcode.com/task/question-answering