Slide 1

Slide 1 text

Copyright@2019 NTT corp. All Rights Reserved. 機械読解の現状と展望 ⽇本電信電話株式会社 NTTメディアインテリジェンス研究所 ⻄⽥ 京介 ⾔語処理学会第25回年次⼤会(NLP2019)チュートリアル 2019年3⽉12⽇

Slide 2

Slide 2 text

⾃⼰紹介︓⻄⽥京介 2 • 2009年NTT⼊社。現在、NTTメディアインテリジェンス 研究所(@横須賀) 主任研究員(特別研究員) • 2年前から機械読解の研究を開始、モデリングに興味 • 機械読解のコンペ(公開データセット)に積極的に参加中 主な取組(★はチームメンバの成果) リーダーボード有り ・MS MARCO Q&A Task: 現在1位 ・MS MARCO Q&A+NLG Task: 現在1位 ★HotpotQA Distractor Setting: 現在1位 ★HotpotQA FullWiki Setting: 現在4位(最⾼1位) ★QuAC: 現在1位 リーダーボード無し ・SQuAD-Open (full Wikipedia): 投稿時1位

Slide 3

Slide 3 text

⽬次 • 機械読解とは何か – 注⽬の理由、流⾏の経緯 • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか • データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 本チュートリアルでは、代表的なデータセットや モデルの解説と最新の研究成果の紹介を⾏い、 これまでの研究の到達点と今後の展望について議論します。 3

Slide 4

Slide 4 text

機械読解とは • (Machine) Reading Comprehension • テキストを知識源とした⾃然⾔語理解に基づく質問応答 【⼊⼒︓質問】あんしん保険 の弁護⼠費⽤特約はどのよう な場合に対象外になります か︖ 【出⼒︓応答】事故の相⼿が 不明である場合など、相⼿の ⽅に法律上の損害賠償請求を ⾏うことができない時 【⼊⼒︓テキスト】 あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保険契約者が怪我などをされ たり、⾃らが所有する⾃動⾞・家屋などの財物を壊されたりすることによって、相⼿の ⽅に法律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、弁護⼠などへの法律 相談・書類作成費⽤などを保険⾦としてお⽀払いする特約です。ただし、保険⾦のお⽀ 払い対象となる費⽤に関しては、当社の同意を得た上で⽀出された費⽤に限ります。ま た、事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことが できない時は、本特約は対象外となりますのでご注意ください。 あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保険契約者が怪我などをされ たり、⾃らが所有する⾃動⾞・家屋などの財物を壊されたりすることによって、相⼿の ⽅に法律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、弁護⼠などへの法律 相談・書類作成費⽤などを保険⾦としてお⽀払いする特約です。ただし、保険⾦のお⽀ 払い対象となる費⽤に関しては、当社の同意を得た上で⽀出された費⽤に限ります。ま た、事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことが できない時は、本特約は対象外となりますのでご注意ください。 4

Slide 5

Slide 5 text

• 機械読解は本格的に流⾏してからまだ3年程度だが、 急速に発展している分野 学術的に⼤きな注⽬ https://scholar.google.com/citations?user=QcOG6sgAAAAJ&hl=en https://scholar.google.com/citations?user=zYze5fIAAAAJ&hl=en 最も有名なデータ セットSQuAD 最も有名なベース ラインモデルBiDAF 2016/06初出で 被引⽤数653件 (2019/02/15) 2016/11初出で 被引⽤数433件 5

Slide 6

Slide 6 text

⾃然⾔語理解タスクとしての注⽬ • 機械読解は⾃然⾔語理解を必要とするタスク • 機械読解の研究において得られた知⾒、テクニック、モデ ル、データセットは他のタスクにおいても有⽤であるし、 その逆もまた同じ è 多くの研究者にとって「関連研究」と成り得る分野 ⾔語モデル 読解 含意 換⾔ 要約 翻訳 対話 6 ⾃然⾔語理解

Slide 7

Slide 7 text

企業からも⼤きな注⽬ • 多くの企業研究所が「データセット作成・公開」から参画 • 読解モデルの研究開発に取り組む企業はさらに多数 7

Slide 8

Slide 8 text

機械読解の活躍が期待されるシーンの代表例︓ Web検索 8 L スニペットを読んでも 答えが書いていない (マッチしたキーワード しか強調されない) What city did Super Bowl 50 take place in?

Slide 9

Slide 9 text

機械読解の活躍が期待されるシーンの代表例︓ Web検索 9 Answer: Santa Clara J 機械読解で 答えをピンポイントに提⽰ J エビデンスをスニ ペットとして表⽰ What city did Super Bowl 50 take place in?

Slide 10

Slide 10 text

機械読解の活躍が期待されるシーンの代表例︓ スマートスピーカー 10 https://softwareengineeringdaily.com/2018/05/18/alexa-voice- design-with-paul-cutsinger/ What was the final score of Super Bowl 50? Broncos beat Panthers 24-10 in Super Bowl 50. Knowledge Base

Slide 11

Slide 11 text

機械読解の活躍が期待されるシーンの代表例︓ チャットボット 11 • あ http://tcci.ccf.org.cn/summit/2017/dlinfo/003.pdf J 商品ページの仕様や レビューを基に回答

Slide 12

Slide 12 text

データセット数の増加 0 5 10 15 20 2013 2014 2015 2016 2017 2018 2019 データセット数 発表年 (個⼈的な調査; 2019/02/15) • 様々な着眼点のデータセットが⼤量に作成されている • データセットの構築により機械読解分野は急発展 12

Slide 13

Slide 13 text

SQuAD 1.1 [Rajupurkar+, EMNLP16] • Stanford⼤が2016/06にリリースした、 現在のところ最も代表的なデータセット ⼊⼒︓テキスト ⼊⼒︓質問 出⼒︓回答 https://aclweb.org/anthology/D16-1264 13

Slide 14

Slide 14 text

SQuAD 1.1 [Rajupurkar+, EMNLP16] • リリース直後から、コミュニティにて⼤きな注⽬を集めた – 特に、⼈⼿で作成された⼤規模データであったことが理由 ⼊⼒︓テキスト ⼊⼒︓質問 出⼒︓回答 Wikipediaの段落(平均140単語) 無料で公開 クラウドソーシングで作成した 100,000件以上の質問・回答ペア テキスト中の任意の 範囲を抽出して回答 14

Slide 15

Slide 15 text

SQuAD 1.1 [Rajupurkar+, EMNLP16] • リリース直後から、コミュニティにて⼤きな注⽬を集めた リーダーボードを 設置して、現在の SOTAをリアルタイム に確認可能に https://blogs.msdn.microsoft.com/stevengu/2017/10/02/business-ai-tops-the-squad-leader-board/ 15

Slide 16

Slide 16 text

• リリース直後から急速に成⻑。本会議前に⾮DNNのベー スラインから30%精度向上,発表1年後には⼈間に迫る リリース後の最⾼精度の変化 40 50 60 70 80 90 100 6/1/2016 7/1/2016 8/1/2016 9/1/2016 10/1/2016 11/1/2016 12/1/2016 1/1/2017 2/1/2017 3/1/2017 4/1/2017 5/1/2017 6/1/2017 7/1/2017 8/1/2017 9/1/2017 10/1/2017 Machine (EM) Machine (F1) Human (EM) Human (F1) ⼈間:EM(完全⼀致) ⼈間:F1(部分⼀致) ⾮DNN F1 51.0% DNN 70.7% EMNLPʼ16で発表 arXivで発表 (個⼈的な調査) 16

Slide 17

Slide 17 text

2018年1⽉︓「⼈間超え」 • Alibaba[1]とMicrosoft[2]が同時期に⼈間の完全⼀致のス コアを超え、メディアで報じられる https://wired.jp/2018/02/08/ai-beat-humans-at-reading/ https://forbesjapan.com/articles/detail/19346 https://www.cnn.co.jp/tech/35113360.html [1] Wei Wang, Chen Wu, Ming Yan: Multi-Granularity Hierarchical Attention Fusion Networks for Reading Comprehension and Question Answering. ACL (1) 2018: 1705-1714 [2] Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang, Ming Zhou: Gated Self-Matching Networks for Reading Comprehension and Question Answering. ACL (1) 2017: 189-198 17

Slide 18

Slide 18 text

2018年10⽉︓ BERTの衝撃 • BERTが登場。読解に特化したニューラルネット構造を持 たずに、⼈間のスコアを部分⼀致でも⼤きく超える 完全⼀致 部分⼀致 ⼈間のスコア BERTのスコア Jacob Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR abs/1810.04805 (2018) https://rajpurkar.github.io/SQuAD-explorer/ 18

Slide 19

Slide 19 text

⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか – どのように作られたのか – 読解にはどのような能⼒が必要なのか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか • 最新のデータセットと研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 著者らの分析 その後の研究 での分析 19

Slide 20

Slide 20 text

Copyright@2019 NTT corp. All Rights Reserved. SQuAD: 100,000+ Questions for Machine Comprehension of Text Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang Stanford Univ. EMNLP 2016 (arXiv: 2016/06) https://arxiv.org/abs/1606.05250 (2019/02/15)

Slide 21

Slide 21 text

SQuAD 1.1 [Rajupurkar+, EMNLP16] • テキストに関する質問に、回答範囲を抽出して答える ⼊⼒︓段落 (コンテキスト、パッセージ) ⼊⼒︓質問 出⼒︓回答 Wikipediaの段落 (平均140単語) クラウドソーシングで作成した 100,000件以上の質問・回答ペア テキスト中の任意の範囲で 回答(選択肢は無し) 21

Slide 22

Slide 22 text

段落の収集⽅法 • 英語Wikipediaを収集対象とする 1. Project Nayuki ( https://www.nayuki.io/ )の内部 PageRankを⽤いて上位10,000記事を収集 2. ランダムに536記事をサンプリング – 画像・表は削除 – 500⽂字未満の段落を削除 3. 最終的に23,215段落(43段落/記事)を収集 記事タイトル の⼀部 22

Slide 23

Slide 23 text

質問・応答ペアの作成 • Amazon Mechanical Turk をバックエンドとするDaemo ( https://www.daemo.org/home )プロジェクトを利⽤ 1. クラウドワーカを選定 – 過去に1,000タスク以上実施、97%以上の承認率、アメリカ・カ ナダ在住のワーカ 2. ワーカに1記事中の複数段落をまとめてアサイン – 各段落に4分を費やし、最⼤5件のQAペア作成を要求 – 記事完了に要した時間に対して、9ドル/時 を⽀払い • 例えば43段落の記事だと、3時間弱程度のタスク 23

Slide 24

Slide 24 text

インタフェース/教⽰ 記事中の段落数 4分使って出来る限り 5問作ってください 段落のテキスト (リンクなどは削除) コピペせず⾃分の⾔葉で 質問を作ってください。 難しい質問を推奨します。 回答は段落中の範囲をハイ ライトして選択ください 24

Slide 25

Slide 25 text

追加の回答収集 • 評価⽤(Dev/Test)⽤に、各記事ごとに、質問作成者と は別のワーカを最低2⼈アサイン • 質問と段落を提⽰し、2分以内に5質問への回答を要求 – 例えば43段落の記事だと、1.5時間弱程度のタスク – 単純に割ると1問あたり24秒 – 報酬は 9ドル/時 で同じ • 1⼈以上が「回答できない」と判断した質問が2.6% 25

Slide 26

Slide 26 text

統計情報 • Trianing (80%) / Dev (10%) / Test (10%)に分割 質問は11単語程度 (基本的に⽂形式) 1段落あたり140単語 =5⽂程度 回答は3単語程度と短い Kyosuke Nishida, Itsumi Saito, Atsushi Otsuka, Hisako Asano, Junji Tomita: Retrieve-and-Read: Multi-task Learning of Information Retrieval and Reading Comprehension. CIKM 2018: 647-656 ※単語数はStanford CoreNLP tokenizerで トークナイズしてカウント 26

Slide 27

Slide 27 text

回答タイプ • 回答をStanford CoreNLPで機械的に分析 • 8割以上はエンティティ・短いフレーズ 約20%が数値・⽇付 約32%が固有名詞 約32%が⼀般名詞 約16%がその他 27

Slide 28

Slide 28 text

回答にはどのような能⼒が必要か (著者らの分析) 1. 語彙のバリエーションの理解 類義語の理解 called / referred 世界知識が必要 The European … Unionが "governing bodies"であると いう理解 下線部分は クラウドワーカが 正解としたもの 28 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析 (各データは1つ以上のカテゴリに属する)

Slide 29

Slide 29 text

回答にはどのような能⼒が必要か (著者らの分析) 2. 構⽂のバリエーションの理解 – 質問⽂を平叙⽂に⾔い換えたときに、係り受け構造が回答を含む ⽂と異なるもの Currentの使われ⽅に差異 下線部分は クラウドワーカが 正解としたもの 29 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析 (各データは1つ以上のカテゴリに属する)

Slide 30

Slide 30 text

回答にはどのような能⼒が必要か (著者らの分析) 3. 複数の⽂にまたがる推論 – 照応や複数⽂の⾼レベルの理解が必要なもの 照応が必要 "They"は"The V&A … galleries"であるという理解 下線部分は クラウドワーカが 正解としたもの 30 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析 (各データは1つ以上のカテゴリに属する)

Slide 31

Slide 31 text

回答にはどのような能⼒が必要か (著者らの分析) 4. (回答できないもの) – ワーカの回答に同意できなかったり、⼀意に回答が定まらないも の 「刑事罰の⽬的は︖」に対して 「無能⼒化(incapacitation)」⾃体が 回答となるのはおかしい 下線部分は クラウドワーカが 正解としたもの 31 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析 (各データは1つ以上のカテゴリに属する)

Slide 32

Slide 32 text

評価⽅法と結果 • ⼩⽂字化、句読点削除、冠詞削除して、完全⼀致(EM) と部分⼀致(F1)を評価 • F1は空⽩⽂字でトークナイズして単語レベルで計算 質問の曖昧さ(約6%)、 時間制限(120秒/5問)、 集中⼒の⽋如(1タスクで 1.5時間程度)が要因︖ エンティティ は好成績 それ以外は やや落ちる 回答タイプ ごとに分類 32

Slide 33

Slide 33 text

この章のまとめ • SQuAD 1.1(2016/06発表)はリリース直後から⼤きな 注⽬を集め、発表から1年半程度で⼈間のスコアに匹敵す るに⾄った • データはクラウドソーシングにて作られ、回答はテキスト 中の任意の範囲で与えられる • 主に語彙や構⽂のバリエーションの理解が重要と主張 è 後に、回答の難しさや必要なスキルについて多数の研究報告あり • タスク設定上、⼈間でもミスをするようになっている – テスト時は120秒/5問で回答、1.5時間程度連続 33

Slide 34

Slide 34 text

テキストを読んで質問にお答えください。 答えはテキスト中から1つの範囲を抽出してください。 読解⼒テスト 34 Q. 2019年の⼲⽀は︖ ⻄暦2019年は平成31年です。 平成31年の⼲⽀は「亥年」です。 テキスト 例題)

Slide 35

Slide 35 text

読解⼒テスト 35 Q.社会脳科学では近年何が重要視されている︖ 意思決定に関わる脳機能の解明が進み,ヒトの社会⾏動を対象とする社 会脳科学という研究分野が盛んになっている.この分野は疾患など多く の社会問題とも関連する.従来,⾼度に発達したヒトの社会⾏動におい て,背外側前頭前野や帯状回といった前頭葉の熟慮的な認知システムの 重要性が強調されてきた.しかし近年になり,扁桃体や線条体といった 直観的な情動システムの重要性が認識されている.本講演ではこれらの 知⾒の意味するところを概観した後,今後益々重要になると考えられる ソーシャルネットワークサービス(SNS)の社会脳科学について紹介する. 脳科学における⾃然⾔語処理技術の使われ⽅,脳科学と⾃然⾔語処理の 相互交流の可能性などについて議論したい. NTTが作成した読解モデルの回答(所要時間︓1秒未満)︓ 扁桃体や線条体といった直観的な情動システムの重要性

Slide 36

Slide 36 text

⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか • データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 36

Slide 37

Slide 37 text

Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介 BiDAF (2016/11発表)、QANet (2018/04発表)、 BERT (2018/10)について SQuAD 1.1 leaderboard (2019/2/15)

Slide 38

Slide 38 text

Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介(1) Bidirectional Attention Flow for Machine Comprehension Minjoon Seo1 Aniruddha Kembhavi2 Ali Farhadi1,2 Hannaneh Hajishirzi2 1 Univ. Washington 2 Allen Institute for Artificial Intelligence ICLR 2017 (arXiv: 2016/11) https://arxiv.org/abs/1611.01603 (2019/02/15)

Slide 39

Slide 39 text

概要 • タスク︓ – 機械読解。コンテキスト(段落あるいはパッセージとも呼ぶ)に 関する質問に対して、回答範囲の始点、終点を予測する。 • 提案︓ – Bi-Directional Attention Flow(BiDAF)モデルの提案。 • 特徴︓ – 質問→コンテキスト、コンテキスト→質問のように、双⽅向にア テンションを⾏う。 • 評価︓ – SQuAD1.1 で当時最⾼(2017/2/22) • 完全⼀致︓73.7%(⼈間︓82.2%, 前1位: 71.6%) • 部分⼀致︓81.5%(⼈間︓91.2%, 前1位: 80.4%) • 1位防衛期間: 20⽇程度 シンプルな構成、ソース公開で主流へ 39

Slide 40

Slide 40 text

アーキテクチャの全体図 ⼊⼒ 出⼒ コンテキスト 質問 回答始点 回答終点 1. 単語 埋込み 3. アテン ション 2. ⽂脈 埋込み 4. モデ リング 5. 出⼒ 40

Slide 41

Slide 41 text

1. 単語埋め込み層 ⼊⼒︓コンテキスト(T単語)、質問(J単語) 処理︓2つのレベルで埋め込む 1. 単語埋め込み – 事前学習した100次元のGloVe を利⽤ 2. ⽂字列埋め込み (OOVの解決に有効) – 1次元のCNN(カーネルサイズ5)を利⽤ 出⼒︓各埋込を結合→Highway Network – コンテキスト表現 ∈ !×# – 質問表現 ∈ !×$ “comprehension” GloVe 100次元 CNN 100次元 “comprehension” Max-pooling concat highway 200次元ベクトル 200次元 41

Slide 42

Slide 42 text

2. ⽂脈埋め込み層 ⼊⼒ 出⼒ コンテキスト 質問 回答始点 回答終点 2. ⽂脈 埋込み 42

Slide 43

Slide 43 text

⼊⼒︓ – コンテキスト(T単語)表現 ∈ !×# – 質問(J単語)表現 ∈ !×$ 処理︓ – 質問・コンテキストの単語系列をそれぞれ双⽅向LSTMで符号化 出⼒︓ – コンテキスト表現 ∈ %!×#、質問表現 ∈ %!×$ 2. ⽂脈埋め込み層 単語埋め込み(d=200次元) 双⽅向の状態ベクトル(2d=400次元) 順⽅向LSTM (初期値0) 逆⽅向LSTM (初期値0) 43

Slide 44

Slide 44 text

3. アテンション層 ⼊⼒ 出⼒ コンテキスト 質問 回答始点 回答終点 3. アテン ション 44

Slide 45

Slide 45 text

⼊⼒︓ – コンテキスト(T単語) ∈ %!×#、質問(J単語) ∈ %!×$ 処理︓ 1. コンテキスト・質問の各単語のマッチングを取って類似度⾏列 ∈ #×$を求める 3. アテンション層(1/4; マッチング) 学習パラメータ コンテキスト 質問 45

Slide 46

Slide 46 text

⼊⼒︓ – コンテキスト(T単語) ∈ %!×#、質問(J単語) ∈ %!×$ – 類似度⾏列 ∈ #×$ 処理︓Context2Query 1. 類似度⾏列 ∈ #×$を列⽅向にsoftmax 2. コンテキストの各単語(t)毎に、質問の単語系列をアテンション プーリング ( ∈ %!×# 3. アテンション層(2/4; ⽂章→質問) コンテキスト 質問 1. 2. 直感的には、コンテキストの各単語ごとに、 質問の中で関連する単語を強調する操作 46

Slide 47

Slide 47 text

⼊⼒︓ – コンテキスト(T単語) ∈ %!×#、質問(J単語) ∈ %!×$ – 類似度⾏列 ∈ #×$ 処理︓Query2Context 1. ∈ #×$を列⽅向に最⼤値取得→⾏⽅向に正規化 2. コンテキストの単語系列をアテンションプーリング + ℎ ∈ %! 3. コンテキストの単語数分タイリング ( ∈ %!×# 3. アテンション層(3/4; 質問→⽂章) コンテキスト 質問 1. 2. 3. T単語分に複製 直感的には、質問のいずれかの単語に 強く関連するコンテキスト単語を強調する操作 47

Slide 48

Slide 48 text

⼊⼒︓ – (アテンション前の)コンテキスト表現 ∈ × – 双⽅向アテンションの出⼒ ( ∈ ×、( ∈ × 処理︓ 1. 3表現を各コンテキスト単語ごとに連結して ∈ )!×#を出⼒ 3. アテンション層(4/4; 最終出⼒) アテンション前の表現H も含めることが重要 48

Slide 49

Slide 49 text

4. モデリング層 ⼊⼒ 出⼒ コンテキスト 質問 回答始点 回答終点 4. モデ リング 49

Slide 50

Slide 50 text

⼊⼒︓ – 質問に基づいたコンテキスト表現 ∈ )!×# 処理︓ – 2層の双⽅向LSTMで符号化 出⼒︓ – 質問に基づいたコンテキスト表現 ∈ %!×# 4. モデリング層 この状態で、回答範囲の始点が計算可能な状態 50

Slide 51

Slide 51 text

5. 出⼒層 ⼊⼒ 出⼒ コンテキスト 質問 回答始点 回答終点 5. 出⼒ 51

Slide 52

Slide 52 text

⼊⼒︓ – 質問に基づいたコンテキスト表現 • アテンション層の出⼒ ∈ !"×$ • モデリング層の出⼒ ∈ %"×$ 処理︓ 1. G, Mに基づき、各単語位置毎に線形変換して正規化 出⼒︓ – 始点の確率分布 * ∈ # 5. 出⼒層(1/2; 始点) Super Bowl 50 was an American football game to determine … コンテキスト 52

Slide 53

Slide 53 text

⼊⼒︓ – 質問に基づいたコンテキスト表現 • アテンション層の出⼒ ∈ !"×$ • モデリング層の出⼒ ∈ %"×$ 処理 1. 回答の始点を条件とするイメージでMにさらにLSTMを作⽤させて 終点⽤のモデリングをし ! ∈ !"×$ を得る 2. G, Mに基づき、各単語位置毎に線形変換して正規化 出⼒︓ – 終点の確率分布 ! ∈ $ 5. 出⼒層(2/2; 終点) Super Bowl 50 was an American football game to determine … コンテキスト M 始点p1 終点p2 M2 G 53

Slide 54

Slide 54 text

学習とテスト • 学習︓損失関数は始点と終点の正解位置%, &を⽤いて負 の対数尤度により最適化 • テスト︓' %( &が最⼤となる(k,l)の範囲(k≦l)を選択 Super Bowl 50 was an American football game to determine … 回答範囲として抽出 54

Slide 55

Slide 55 text

実験︓SQuADスコアに関する評価 • ⾮NNに⽐べて単体モデルで26〜27%精度向上。 • 12モデルのアンサンブルによりさらに4〜5%精度向上。 EM: 回答範囲の完全⼀致、F1: 部分⼀致 55

Slide 56

Slide 56 text

質問とコンテキストのマッチング アテンション類似度⾏列Sの可視化 • 質問内容に応じて関連するコンテキスト単語を注視 • 局所的にパターンマッチング→⼤域的に⾒て選択 コンテキスト 質問 質問の各単語に強く反応 したコンテキスト単語 Whereè場所関連のコ ンテキスト単語に注視 ʻSuper Bowl 50ʼの出現 箇所を繰り返し注視 正解の回答範囲に対応する箇所︓ 56

Slide 57

Slide 57 text

BiDAFのまとめ • 質問、コンテキストをそれぞれエンコーディングし て双⽅向アテンションにより単語レベルでマッチン グを取る • モデリング・出⼒層にて、 – クエリタイプと回答範囲の局所的なパターンマッチング – ⼤域的なsaliency を獲得し回答範囲の始点・終点を決定するイメージ • 精度の良さ、モデルのシンプルさ、およびコード公 開によりベースラインモデルとして定着した 57

Slide 58

Slide 58 text

Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介(2) QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension Adams Wei Yu1, David Dohan2, Minh-Thang Luong2, Rui Zhao2, Kai Chen2, Mohammad Norouzi2, Quoc V. Le2 1 Carnegie Mellon University 2 Google Brain ICLR 2018 (arXiv: 2018/04) https://arxiv.org/abs/1804.09541 (2019/2/15)

Slide 59

Slide 59 text

概要 • タスク︓ – 機械読解。コンテキスト(段落あるいはパッセージとも呼ぶ)に 関する質問に対して、回答範囲の始点、終点を予測する。 • 提案︓ – 新モデルQANetの提案 – Data augmentation⼿法の提案 • 特徴︓ – RNNをconvolutionとself-attentionに置き換え130層超の構成 – 翻訳モデルを活⽤して英→仏→英でデータを増加 • 評価︓ – SQuAD1.1 で当時最⾼(2018/3/19)、完全⼀致で⼈間超え • 完全⼀致︓83.9%(⼈間︓82.2%, 前1位: 82.5%) • 部分⼀致︓89.7%(⼈間︓91.2%, 前1位: 89.3%) • 1位の防衛期間: 4ヶ⽉程度 59

Slide 60

Slide 60 text

アーキテクチャの全体図 ⼊⼒ 出⼒ コンテキスト 質問 回答始点 回答終点 1. 単語 埋込み 2.⽂脈 埋込み 3. アテ ンション 4. モデ リング 5. 出⼒ • 構造はBiDAFと同じ • ⽂脈埋め込み、モデ リング層で使う LSTMを変更 60

Slide 61

Slide 61 text

QANet: local conv+global self-att Self-attention ⼤域的な関係性 を捉える Convolution ⽂中の局所的な 関係性を捉える FFN モデルの表現能 ⼒を⾼める Position- embedding 各単語の"位置" を符号化 • LSTMの代わりに 右図のエンコーダ ブロックを利⽤ • Transformer[1]のブ ロックにconvolution を追加した構成 [1] Ashish Vaswani et al. : Attention is All you Need. NIPS 2017: 6000-6010 61

Slide 62

Slide 62 text

特徴1) Self-attention • 2018年前半にSQuADのEM指標で⼈間スコアを越えてき た3⼿法は"Self-attention"機構を共通点として持つ – QANet(Google; 2018/03にリーダーボード投稿) – SRQA (Alibaba; 2018/01にリーダーボード投稿) [1] – R-NET (Microsoft; 2018/01にリーダーボード投稿) [2] コンテキスト 質問 コンテキスト コンテキスト 通常のアテンション(マッチング) セルフアテンションのイメージ [1] Wei Wang, Chen Wu, Ming Yan: Multi-Granularity Hierarchical Attention Fusion Networks for Reading Comprehension and Question Answering. ACL (1) 2018: 1705-1714 [2] Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang, Ming Zhou: Gated Self-Matching Networks for Reading Comprehension and Question Answering. ACL (1) 2017: 189-198 62

Slide 63

Slide 63 text

なぜSelf-attentionか • 単語系列の⽂脈の理解は主にLSTMで⾏われてきたが、⻑ 期依存性の理解には限界があった • 離れた単語の関係性も直接考慮できる(しかも省メモリで 計算可)セルフアテンションは性能向上に⼤きく寄与した ※翻訳のTransformerと読解のR-NETは同時期(2017/05-06頃)に self-attentionを導⼊ コンテキスト コンテキスト LSTM セルフアテンション コンテキスト 遠く離れた 単語の関係性 を捕まえにくい 遠く離れた 単語も直接 関係を考慮 63

Slide 64

Slide 64 text

特徴2) 逆翻訳によるデータ拡張 • データ不⾜が課題 è 翻訳モデルで学習データを増やす – オリジナル︓「英→仏→英」︓「英→独→英」を3:1:1で混合 64

Slide 65

Slide 65 text

少し脱線︓最近の逆翻訳 • 機械翻訳も逆翻訳で⼤きな改善 [1] (2018/08) • 知⾒︓MAP推定(ビーム・貪欲探索)の綺麗なデータ拡張 よりも、サンプリングやノイズを追加した⽅が有益 è QANetも25候補からサンプリングしているので、 ⽔増しデータは結構ノイズが含まれているのでは︖ [1] Sergey Edunov et al.: Understanding Back-Translation at Scale. EMNLP 2018: 489-500 こちら の⽅が 有益 65

Slide 66

Slide 66 text

さらに脱線︓最近の含意認識 http://aclweb.org/anthology/P17-1152 http://arxiv.org/abs/1901.02609 Qian Chen, Xiaodan Zhu, Zhen-Hua Ling, Si Wei, Hui Jiang, Diana Inkpen: Enhanced LSTM for Natural Language Inference. ACL (1) 2017: 1657-1668 Qian Chen, Wen Wang: Sequential Attention-based Network for Noetic End-to-End Response Selection. CoRR abs/1901.02609 (2019) 1. 単語 埋込み 2.⽂脈 埋込み 3. アテ ンション 4. モデ リング 5. 出⼒ • 現在のベースライン的な⼿法であるESIM [Chen+,ACL17] も、基本的な構造はBiDAFと似ている 前提 仮説 含意/⽭盾(/中⽴) 66

Slide 67

Slide 67 text

QANetのまとめ • BiDAFと基本的に同じ構造 – BiDAFは⽂ペアマッチングの構成として汎⽤的で優秀 • LSTMをTransformer-likeなブロックに変更、self- attentionが効果あり。 – ⻑期依存の⽂脈の理解が改善された。 • 逆翻訳によるData augmentationの有効性を⽰す – 追加されたデータはかなり汚いはず。ノイズデータから学習する ことで⾃然⾔語の理解度が上がったとみるか、パターンマッチン グのバリエーションが豊かになったとみるか︖ 67

Slide 68

Slide 68 text

Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介(3) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova Google AI Language arXiv 2018/10 https://arxiv.org/abs/1810.04805 (2019/2/15) (2019/3/9)

Slide 69

Slide 69 text

概要 • タスク︓ – 単⽂・⽂ペア⼊⼒の⾮⽣成系タスク全般 • 提案︓ – Bidirectional Encoder Representations from Transformers (BERT)モデルの提案。 • 特徴︓ – 双⽅向Transformer⾔語モデルを⼤規模コーパスで事前学習 • マスク単語予測と、次⽂章判定 – タスク適応は、出⼒層をタスク毎に1層のみ追加してfine-tuningする • 評価︓ – 11タスクでSOTA︓含意、⾔い換え、⽂の分類など – SQuAD1.1 でも最⾼精度(2018/10/5)、両指標で⼤きく⼈間越え • 完全⼀致︓87.4%(⼈間︓82.2%, 前1位: 85.4%) • 部分⼀致︓93.2%(⼈間︓91.2%, 前1位: 91.2%) 69

Slide 70

Slide 70 text

BERTとは • 双⽅向Transformerブロックを24層重ねた⾔語モデル • 読解に特化した構造を持たない Transformer(Trm) ブロック 70

Slide 71

Slide 71 text

⾔語モデルの事前学習 • 機械読解をはじめ応⽤タスクの学習データは数⼗万件程度 と多くないので、アノテーション不要の⼤規模コーパスか ら学習したモデルを転移することが流⾏ – OpenAI GPT [1] (2018/06に発表) – ELMo [2] (2018/02に発表) [1] Alec Radford et al.: Improving language understanding with unsupervised learning. Technical report, OpenAI, 2018. [2] Matthew E. Peters et al. : Deep Contextualized Word Representations. NAACL-HLT 2018: 2227-2237 71

Slide 72

Slide 72 text

⾔語モデルの事前学習 • ⾔語モデルはleft-to-rightあるいはright-to-leftの次単語 を予測するモデルとするのが普通であった left-to-right Transformer left-to-right & right-to-left LSTMs (! |"! ) これまでの単語系列から次単語を予測 72

Slide 73

Slide 73 text

BERTの特徴(1) 単語のマスク • 単⽅向よりも双⽅向でモデリングした⽅が性能が良くなる と期待して、⾔語モデルを⽳埋めで学習する My [MASK] is hairy My dog is hairy ⼊⼒の⼀部をマスク マスク前の⽂章を予測 BERT 73

Slide 74

Slide 74 text

BERTの特徴(1) 単語のマスク • マスク⽂章はランダムに作成 My dog is hairy My [MASK] is hairy 15%の単語をマスク対象として選択 80%は そのまま [MASK] apple dog 10%は ランダム置換 10%は 元に戻す 74

Slide 75

Slide 75 text

BERTの特徴(2) 次⽂章予測 • NLPのタスクは2つの⽂の関係性理解が多い • 隣接する⽂/ランダムな2⽂をセパレータで繋げて、隣接す る⽂か否かの判定を⽳埋め予測と同時に学習 [CLS] my dog is cute [SEP] he likes play [MASK] [SEP] 2⽂⽬ 1⽂⽬ IsNext my dog is cute [SEP] he likes play piano [SEP] 分類 ⽳埋め BERT 75

Slide 76

Slide 76 text

BERTの特徴(3) fine-tuning • 出⼒層を1層追加してfine-tuningするのみで各タスクに適応 • 機械読解の場合︓モデルに始点⽤の全結合層+softmax、終点⽤の全 結合層+softmaxを追加して、回答範囲の始点・終点を予測する • ⼊⼒は質問とコンテキスト(段落)を繋げて⼊⼒ 76

Slide 77

Slide 77 text

事前学習の設定 • Book Corpus (8億ワード)[1] + 英語Wikipedia(25億 ワード)を利⽤ – ⽂レベルでシャッフルされているコーパスは良くない • セパレータで区切る2⼊⼒は、より⻑い⽂脈の理解のため それぞれ2⽂以上から構成させても良い • 語彙はワードピース[2] 30,000種としてOOVを無くす • ⼊⼒⻑は最⼤512トークン(理解可能なテキスト⻑さに限 りがある) • 16 Cloud TPUs で4⽇間(≒100時間) – 32 Cloud TPU v2 Pod: $24.0 USD / 時 [3] [1] Yukun Zhu et al. : Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. ICCV 2015: 19-27 [2] Yonghui Wu et al. : Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. CoRR abs/1609.08144 (2016) [3] https://cloud.google.com/tpu/docs/pricing 77

Slide 78

Slide 78 text

SQuAD1.1の評価結果 • BASE: 12層、各層768次元(パラメータ数1.1億) • LARGE: 24層、各層1024次元(パラメータ数3.4億) • アンサンブル: 7モデル • TriviaQA: 抽出型の読解データセット[1] [1] Mandar Joshi et al. : TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension. ACL (1) 2017: 1601-1611 78

Slide 79

Slide 79 text

BERTの他タスクでの評価 • GLUE [1] – ⽂ペア、単⽂⼊⼒の⾔語理解タスク9種。 – 含意、⾔い換え、⽂類似性、分類。 • CoNLL 2003 NER [2] – 固有表現抽出 • SWAG [3] – 次⽂予測 [1] Alex Wang et al.: GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. BlackboxNLP@EMNLP 2018: 353-355 [2] Erik F. Tjong Kim Sang, Fien De Meulder: Introduction to the CoNLL-2003 Shared Task: Language- Independent Named Entity Recognition. CoNLL 2003: 142-147 [3] Rowan Zellers et al.: SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference. EMNLP 2018: 93-104 79

Slide 80

Slide 80 text

BERTのまとめ • 双⽅向Transformer.⼤規模コーパスから⽳埋めと次⽂予 測でpre-trainingする • Pre-trainモデルをfine-tuningして機械読解に適応 – 読解に特化した複雑な構造は持たない – Pre-train時の学習データにQとAの関係性は無い • 様々な⾃然⾔語理解タスクでSOTA – QA、含意、⾔い換え、固有表現抽出など – Fine-tuningでなく、ELMoの⽤にfeatureとして利⽤しても有効 80

Slide 81

Slide 81 text

⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか – ⾃分で確かめる⽅法 – 分析論⽂の紹介 • データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 81

Slide 82

Slide 82 text

モデルの挙動が確認できる • SQuADのサイトでは幾つかのモデルの回答が⾒られる • BERT (ensemble)の例︓ どういう問題でミスをし ているか調べられる https://rajpurkar.github.io/SQuAD-explorer/explore/1.1/dev/ 82

Slide 83

Slide 83 text

モデルの挙動が確認できる • SQuADのサイトのデモは問題を変更できないが、 AllenNLPのデモ(BiDAF)では変更可能 https://demo.allennlp.org/machine-comprehension/ 好きなテキスト・ 質問で試せる 読解結果 83

Slide 84

Slide 84 text

質問の僅かな違いが 読解エラーになる例 Q. Who was the co-MVP of Super Bowl XII? Q. Who was the MVP of Super Bowl XII? co-MVPをMVPに するだけで間違った https://demo.allennlp.org/machine-comprehension/ 84

Slide 85

Slide 85 text

敵対的な⽂の追加 [Jia+,EMNLP17] • SQuADに本質的には無関係な⽂を1つ挿⼊するだけで、BiDAFのアン サンブルモデルの精度が80%→34.2%まで落下(AddSentデータ) 追加した⽂ 追加⽂により予測が 変わってしまう Robin Jia, Percy Liang: Adversarial Examples for Evaluating Reading Comprehension Systems. EMNLP 2017: 2021-2031 https://www.aclweb.org/anthology/D17-1215 85

Slide 86

Slide 86 text

敵対的な⽂の追加 [Jia+,EMNLP17] 敵対的な⽂の作り⽅ • ステップ1: 質問を変化 – 名詞や形容詞:WordNetの反 義語を⽤いて置換 – 固有名詞や数︓GloVe空間で 近い単語に置換 • ステップ2: 回答も変化 – 同じタイプ(POSやNERにつ いて)の物に置換 • ステップ3: 平叙⽂化 – 変化させた質問と回答を使っ た平叙⽂に変換 • ステップ4: 修正 – クラウドワーカによる確認/ 修正 86

Slide 87

Slide 87 text

敵対的な⽂の追加 (2) [Mudrakarta+,ACL18] • 質問単語に含まれる重要な単語(モデルの予測に寄与する単語)を 使った敵対的サンプルはモデルをより上⼿く騙せる ⾊付=重 要単語 ※ 論⽂では他のタスクについても分析 Pramod Kaushik Mudrakarta, Ankur Taly, Mukund Sundararajan, Kedar Dhamdhere: Did the Model Understand the Question? ACL (1) 2018: 1896-1906 http://aclweb.org/anthology/P18-1176 単語置換でア タック成功 Jia+,EMNLP17 87

Slide 88

Slide 88 text

簡単な質問の存在 [Sugawara+,EMNLP18] • 質問⽂の最初の1〜2単語で回答できたり、質問と最も類似した⽂の中 に回答がある“簡単”なデータが多い • SQuADの場合、"難しい"に分類されたデータは15.7% 回答は必ず存在する前提& 「いつ」に対する回答候補が 他にないのでWhenだけでも 回答できてしまう 質問に最も類似した⽂(s1)に 回答が含まれている http://aclweb.org/anthology/D18-1453 Saku Sugawara, Kentaro Inui, Satoshi Sekine, Akiko Aizawa: What Makes Reading Comprehension Questions Easier? EMNLP 2018: 4208-4219 88

Slide 89

Slide 89 text

読解に必要なスキルとは︖ [Sugawara+, EMNLP18,ACL17,AAAI17] ※ 論⽂では他のデータセットも調査 • Saku Sugawara, Kentaro Inui, Satoshi Sekine, Akiko Aizawa: What Makes Reading Comprehension Questions Easier? EMNLP 2018: 4208-4219 • Saku Sugawara, Hikaru Yokono, Akiko Aizawa: Prerequisite Skills for Reading Comprehension: Multi-Perspective Analysis of MCTest Datasets and Systems. AAAI 2017: 3089-3096 • Saku Sugawara, Yusuke Kido, Hikaru Yokono, Akiko Aizawa: Evaluation Metrics for Machine Reading Comprehension: Prerequisite Skills and Readability. ACL (1) 2017: 806-817 • Sewon Min, Victor Zhong, Richard Socher, Caiming Xiong: Efficient and Robust Question Answering from Minimal Context over Documents. ACL (1) 2018: 1725-1735 簡単な問題は単語マッチだけで解ける。 常識や世界知識を必要とする問題は難しい。 数学や論理的な推論を必要する質問は SQuADにはほとんど含まれていない。 SQuADの多くは1つの⽂の情報だけで解ける。 複数⽂の場合も共参照の推論が中⼼。 ⽂選択モデル→読解が⾼性能[Min+,ACL18] 89

Slide 90

Slide 90 text

• 質問⽂から重要度の低い単語 を⽋落させていくと、出⼒を 変えずに2〜3単語まで削れる • 削った質問⽂は、⼈間にとっ ては理解できない • 削った質問⽂で正しく回答し てしまうことを抑制すること が学習に良い影響を与える 質問⽂を⽋落させた場合の分析 [Feng+, EMNLP18] ※論⽂では他のデータセットも調査 Shi Feng et al.: Pathologies of Neural Models Make Interpretation Difficult. EMNLP 2018: 3719-3728 http://aclweb.org/anthology/D18-1407 平均11.5単語 →2.3単語まで 出⼒を変えずに 削れた 90

Slide 91

Slide 91 text

⽇本語読解の実例 [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤ NLP19の招待 講演の概要 正解(「近年」や「認識」が ⼿掛かりとして強⼒) 91

Slide 92

Slide 92 text

⽇本語読解の実例 [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤ 正解(多少の揺れは対応可 能) NLP19の招待 講演の概要 近年→最近 認識→重要視 92

Slide 93

Slide 93 text

⽇本語読解の実例 [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤ NLP19の招待 講演の概要 「最近」を削除 正解︖(従来と近年の 話を両⽅カバー) 93

Slide 94

Slide 94 text

⽇本語読解の実例 [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤ 追加 失敗 先程は成功した質問 94

Slide 95

Slide 95 text

この章のまとめ • 分析の結果、SQuADには「深い」⾃然⾔語理解を必要と しない問題が⼀定の割合で含まれている – クエリタイプで回答候補がかなり絞られる • 現状のニューラル読解モデルも「浅い」パターンマッチン グ的な読解が多い – ⼈間には⾒られないミスも散⾒される • データ・モデルの双⽅で改善が必要 – BERTで⼤きな改善︓読解における詳細な分析はこれから – データセットの発展も⽬覚ましい︓学習できる範囲が拡⼤中 95

Slide 96

Slide 96 text

⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか • データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 96

Slide 97

Slide 97 text

データセットの歴史 • 2016年(SQuAD)以降、急速に増加中 – 2015以前: ⼩規模なデータ – 2015〜︓⼤規模なデータ(⾃動作成) – 2016〜︓⼤規模なデータ(⼈⼿作成) – 2017〜︓より実践的な問題設定へ 0 5 10 15 20 2013 2014 2015 2016 2017 2018 2019 データセット数 発表年 (個⼈的な調査; 2019/03/09) 97

Slide 98

Slide 98 text

読解データセット(英語) MCTest (2013/10) CNN/DM (2015/06) CBT (2015/11) SQuAD 1.1 (2016/06) NewsQA (2016/11) MovieQA (2015/12) RecipeQA (2018/09) DuoRC (2018/04) ProPara (2018/05) MultiRC (2018/06) QuAC (2018/08) CoQA (2018/08) HotpotQA (2018/09) SQuAD 2.0 (2018/06) マルチモーダル Who-did-What (2016/08) QA4MRE (2011-13) LAMBDA (2016/06) 複数テキスト 1テキスト, ⼈⼿作成, 範囲抽出 浅いパターンマッチングから より深い推論へ 対話的 MS MARCO 2.1 (2018/10) 範囲抽出 からの脱却 1テキスト, ⾃動⽣成 MCScript (2018/03) 2016 2017 2018 CliCR (2018/03) ARC (2018/03) OpenBookQA (2018/09) ⼤規模知識 / 専⾨知識 東ロボ (2018/11) Spoken SQuAD (2018/04) 2019 Natural Questions (2019/01) emrQA (2018/09) QuaRel (2018/11) TQA (2017/07) Qangaroo (WikiHop,MedHop) (2017/10) SearchQA (2017/04) TriviaQA (2017/05) Quasar (2017/07) MS MARCO 1.0 (2016/11) RACE (2017/04) NarrativeQA (2017/12) SQuAD full (2017/04) CLOTH (2017/11) AddSent (2017/07) Multiparty Dialogue (2018/06) ShARC (2018/08) TextWorldsQA (2018/08) DREAM (2019/02) (RC)2 (2019/02) 〜2015 98 DROP (2019/03)

Slide 99

Slide 99 text

• 4択問題 • 質問もパッセージも⼈⼿作 成だが、データ数が少ない (660テキスト×4質問) – パッセージは⼩学⽣向 けの作り話としてクラ ウドソーシングで作成 • 2018/10の⼿法で 80-82%程度の正解率[2] [1] Matthew Richardson et al.: MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text. EMNLP 2013: 193-203 [2] Kai Sun et al. : Improving Machine Reading Comprehension with General Reading Strategies. CoRR abs/1810.13441 (2018) http://aclweb.org/anthology/D13-1020 MCTest [Richardson(Microsoft)+, EMNLP13] (2019/2/15) 99

Slide 100

Slide 100 text

CNN/Daily Mail Reading [Hermann (DeepMind)+, NIPS15] • ニュース⾒出しの⽳埋め問題(本⽂を読んで正しいエンティティを⾒ つける) • エンティティは匿名化されるので世界知識は使えない http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend Karl Moritz Hermann et al. : Teaching Machines to Read and Comprehend. NIPS 2015: 1693-1701 (2019/2/15) 100

Slide 101

Slide 101 text

Children Book Test (CBT) [Hill (Facebook)+, ICLR16] …………………………. …………………………. • 20個の連続した⽂を⾒て、次の⽂に出てくる単語の⽳埋め問題を解く • エンティティ以外にも動詞や共通名詞が対象 • 近年は⾔語モデルの評価セットとして使われるケースあり[1][2] https://arxiv.org/pdf/1511.02301.pdf Felix Hill et al.: The Goldilocks Principle: Reading Children's Books with Explicit Memory Representations. ICLR 2016 [1] Zihang Dai et al. : Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. CoRR abs/1901.02860 (2019) [2] Alex Radford et al.: Language Models are Unsupervised Multitask Learners, OpenAI Tech. Report, 2019. (2019/2/15) 101

Slide 102

Slide 102 text

読解の⽅向性 SQuAD (⼀問⼀答、⼀段落、回答=範囲、回答有) è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現(≠範囲)で回答できるか︖ • より「深い」推論に基づいて回答できるか︖ • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 102

Slide 103

Slide 103 text

1件ではなく複数のテキストから読解できるか︖ TriviaQA [Joshi(Washington)+, ACL17] • 質問︓トリビア・クイズのWebサイトから収集 – SQuADと異なり、先に質問・回答がある。質問が複雑 • コンテキスト︓Wikipedia, Webから収集した複数⽂書 – 回答⽂字列が含まれてるものだけ利⽤=正しいコンテキストかは保証され ない • 回答タイプ︓抽出 http://aclweb.org/anthology/P17-1147 Mandar Joshi et al. : TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension. ACL (1) 2017: 1601- 1611 (2019/02/15) 103

Slide 104

Slide 104 text

⼤規模なテキスト集合から読解できるか︖ SQuAD full Wikipedia [Chen (Facebook) +,ACL17] • 質問︓SQuADと同じ • コンテキスト︓Wikipedia500万記事に拡張 – システムは最初に適切なコンテキストを検索しなければならない • 回答タイプ︓抽出 http://www.aclweb.org/anthology/P17-1171 Danqi Chen et al. : Reading Wikipedia to Answer Open-Domain Questions. ACL (1) 2017: 1870-1879 (2019/02/15) 104

Slide 105

Slide 105 text

⼤規模なテキスト集合から読解に必要な段落を絞り込めるか︖ MS MARCO Passage Re-ranking (2018/11) • 質問︓Bingのクエリログ • コンテキスト︓Bingの検索結果上位1000件(スニペット) • タスク︓読解に必要なパッセージ(⼈間がラベル付)が上位に来るよ うにre-ranking リランキング Bing検索結果(1000件) モデルの出⼒ average pharmacy tech salary Bing 検索 クエリ 読解に必要な パッセージ リランキングで 上位に移動 105

Slide 106

Slide 106 text

読解の⽅向性 SQuAD(⼀問⼀答、⼀段落、回答=範囲、回答有)è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現(≠範囲)で回答できるか︖ • より「深い」推論に基づいて回答できるか︖ • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 106

Slide 107

Slide 107 text

コンテキストの範囲ではない候補から正しく選択できるか︖ RACE [Lai (CMU)+,EMNLP17] • 質問・コンテキスト︓中⾼⽣の試験問題から – 推論が必要な問題が多い • 回答タイプ︓選択 – 選択肢はパッセージの部分範囲に限定されない Guokun Lai et al. : RACE: Large-scale ReAding Comprehension Dataset From Examinations. EMNLP 2017: 785-794 http://aclweb.org/anthology/D17-1082 (2019/02/15) 107

Slide 108

Slide 108 text

回答を⽣成できるか︖ NarrativeQA [Kociský (DeepMind)+,TACL18] • コンテキスト︓映画や本 のスクリプトと、それの ⼈⼿作成サマリ – 表記や粒度が異なる2つの テキスト • 質問︓サマリから作成 • 回答タイプ︓⽣成 – 元⽂書から読解するには 浅い理解(局所的なパター ンマッチング)では答えら れない Tomás Kociský et al.: The NarrativeQA Reading Comprehension Challenge. TACL 6: 317-328 (2018) http://aclweb.org/anthology/Q18-1023 (2019/02/15) 108

Slide 109

Slide 109 text

回答を⽣成できるか︖ MS MARCO • 質問・コンテキスト︓Bingの実クエリ (オープンドメイン)・検索結果 • 回答タイプ︓⽣成 – パッセージの範囲に限定されない(評価はRouge, BLEU) • Tri Nguyen et al.: MS MARCO: A Human Generated MAchine Reading COmprehension Dataset. CoCo@NIPS 2016 • Payal Bajaj et al.: MS MARCO: A Human Generated MAchine Reading COmprehension Dataset. arXiv 2018 The majority of pharmacy techs work in drug stores and hospitals, where the average annual salary was $28,940 and $34,410, respectively**. However, a higher salary can be had if you can find employment with outpatient care centers or physicians' offices, where the annual pay is in the $37,000-$39,000 range. ⼊⼒︓質問クエリ ⼊⼒︓Bing検索結果テキスト(10件): average pharmacy tech salary The majority of pharmacy techs work in drug stores and hospitals, where the average annual salary was $28,940 and $34,410, respectively**. However, a higher salary can be had if you can find employment with outpatient care centers or physicians' offices, where the annual pay is in the $37,000-$39,000 range. What can a pharmacy technician really expect to earn in today's economy? According to Salary.com, pharmacy technicians make anywhere from $26,000 to $39,000 a year, though most make around $32,000 annually. California has the highest average pharmacy technician wage, at $34,317, according to Open Farm Tech's website. システム出⼒︓ 回答⽂ [NLG] The average salary for a pharmacy technician is $26,000 to $39,000 in a year. [Q&A] From $26,000 to $39,000 a year 質問内容を含めて⽣成するNLGと、 抽出に近いQ&Aの2タスク V1 [Nguyen (Microsoft)+,CoCo@NIPS16] V2 [Bajaj (Microsoft)+,arXiv18] (2019/02/15) 109

Slide 110

Slide 110 text

読解の⽅向性 SQuAD è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現(≠範囲)で回答できるか︖ • より「深い」推論に基づいて回答できるか︖ • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 110

Slide 111

Slide 111 text

「答えはありません」と回答できるか︖ SQuAD 2.0 [Rajpurkar&Jia (Stanford)+,ACL18] • 質問︓SQuAD 1.1に5万件の回答不能な質問を追加 • コンテキスト︓SQuAD 1.1に同じ • 回答タイプ︓抽出、回答不能性の判定 http://aclweb.org/anthology/P18-2124 Pranav Rajpurkar, Robin Jia, Percy Liang: Know What You Don't Know: Unanswerable Questions for SQuAD. ACL (2) 2018: 784-789 (2019/02/15) 111

Slide 112

Slide 112 text

複数の⽂章に跨る推論は可能か︖ HotpotQA • 質問︓2⽂書にまたがった記 述に基づく質問を⼈⼿作成 • コンテキスト︓(上記2⽂書 を含む)10⽂書 • 回答タイプ︓Yes/no、回答 範囲抽出、根拠⽂抽出 Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W. Cohen, Ruslan Salakhutdinov, Christopher D. Manning: HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering. EMNLP 2018: 2369-2380 https://aclweb.org/anthology/D18-1259 [Yang (CMU), Qi(Stanford), Zhang(Montreal)+, EMNLP18] 112

Slide 113

Slide 113 text

複数の⽂章に跨る推論は可能か︖⼤規模な知識を扱えるか︖ OpenBookQA [Mihaylov (AllenAI)+, EMNLP18] • 質問︓科学の初等レベルの 問題 • コンテキスト︓ – 質問に紐付いたものは無し。 – 2287件のWorldTree corpus[2]の知識(Science Facts) – 1400万件の科学関連の⽂章 コーパス(Common Knowledge) • 回答タイプ︓4択 [1] Todor Mihaylov, Peter Clark, Tushar Khot, Ashish Sabharwal: Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering. EMNLP 2018: 2381-2391 [2] Peter A. Jansen, Elizabeth Wainwright, Steven Marmorstein, Clayton T. Morrison: WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-hop Inference. LREC 2018 http://aclweb.org/anthology/D18-1260 113

Slide 114

Slide 114 text

常識が必要な読解は可能か︖ MCScript [Ostermann (Saarland⼤)+, LREC18] • 質問︓テキストだけでは理解できない常識を必要 とする質問を含む • コンテキスト︓1テキスト • 回答タイプ︓2択 • Simon Ostermann et al.: MCScript: A Novel Dataset for Assessing Machine Comprehension Using Script Knowledge. LREC 2018 • Simon Ostermann et al.: SemEval-2018 Task 11: Machine Comprehension Using Commonsense Knowledge. SemEval@NAACL- HLT 2018: 747-757 http://www.lrec-conf.org/proceedings/lrec2018/pdf/225.pdf http://www.aclweb.org/anthology/S18-1119 テキストには書いていない è 常識が必要 ⽊を植えるための⽳は どんな⼿段で開ける︖ 114

Slide 115

Slide 115 text

読解の⽅向性 SQuAD è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現(≠範囲)で回答できるか︖ • より「深い」推論に基づいて回答できるか︖ • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 115

Slide 116

Slide 116 text

⼀問⼀答ではなく、対話的なQAを⾏えるか︖ CoQA [Reddy (Stanford)+,arXiv18] • 質問︓マルチターン (QA履歴を考慮) – 話題の深掘りや転換を含む • コンテキスト︓童話、試験問題、 ニュース、Wikipediaなどの 1⽂書 • 回答タイプ︓⽣成、 根拠範囲の抽出、回答不能性 Siva Reddy et al.: CoQA: A Conversational Question Answering Challenge. CoRR abs/1808.07042 (2018) https://arxiv.org/pdf/1808.07042.pdf (2019/02/15) 116

Slide 117

Slide 117 text

⼀問⼀答ではなく、対話的なQAを⾏えるか︖ QuAC [Choi (Washington), He(Stanford)+,EMNLP18] • 質問︓マルチターン (QA履歴を考慮) – 話題の深掘りや転換を含む • コンテキスト︓Wikipediaのセク ション1⽂書 • 回答タイプ︓抽出、Yes/No、回 答不能性、ターンの継続性 Eunsol Choi, He He et al.: QuAC: Question Answering in Context. EMNLP 2018: 2174-2184 http://aclweb.org/anthology/D18-1241 (2019/02/15) 117

Slide 118

Slide 118 text

マルチモーダルな読解は可能か︖ TQA [Kembhavi (AllenAI)+, CVPR17] • 質問︓教科書の問題 • コンテキスト︓マルチモーダル(テキスト+図+⽤語の定 義+概要) – 図中のテキストも理解しないと難しい • 回答タイプ︓選択 Aniruddha Kembhavi et al.: Are You Smarter Than a Sixth Grader? Textbook Question Answering for Multimodal Machine Comprehension. CVPR 2017: 5376-5384 http://ai2-website.s3.amazonaws.com/publications/CVPR17_TQA.pdf (2019/02/15) 118

Slide 119

Slide 119 text

マルチモーダルな読解は可能か︖ Spoken SQuAD [Li+ (国⽴台湾⼤), Interspeech18] • 質問︓テキスト • コンテキスト︓SQuADの読み上げ⾳声 – TTSで⾃動的に作成 – ASRで認識してテキスト空間で読解 • 回答タイプ︓ – テキスト抽出 – ⾳声区間抽出 Chia-Hsuan Lee et al.: Spoken SQuAD: A Study of Mitigating the Impact of Speech Recognition Errors on Listening Comprehension. Interspeech 2018: 3459-3463 https://arxiv.org/pdf/1804.00320.pdf 119

Slide 120

Slide 120 text

マルチモーダルな読解は可能か︖ RecipeQA [Yagcioglu (Hacettepe Univ.)+, EMNLP18] • 質問︓レシピデータから⾃動⽣成 • コンテキスト︓レシピの画像+説明 • 回答タイプ︓画像⽳埋め、テキスト⽳埋め、無関係画像判 定、画像並び替え(レシピ⼯程) Semih Yagcioglu et al.: RecipeQA: A Challenge Dataset for Multimodal Comprehension of Cooking Recipes. EMNLP 2018: 1358-1368 http://aclweb.org/anthology/D18-1166 120

Slide 121

Slide 121 text

FigureQA [Kahou(Microsoft)&Michalski(U Montreal)+, ICLR18 WS] • 様々な図に関して⾃動⽣成したYes/No質問データセット • 実世界ではもっと複雑な図・⾼度な情報要求が与えられる Samira Ebrahimi Kahou et al.: FigureQA: An Annotated Figure Dataset for Visual Reasoning. ICLR Workshop 2018. (2019/02/15) https://arxiv.org/pdf/1710.07300 121

Slide 122

Slide 122 text

ロボットは東⼤に⼊れるか(英語) [東中+, JSAI17] [東中+, JSAI18] [テーマセッション: 試験問題をベンチマークとする⾔語処理, NLP19] • ⼀⽂問題 – ⽂法・語法・語彙 – 語句整序完成 – 発話⽂⽣成 • 複数⽂問題 – 会話⽂完成 – 意⾒要旨把握: RACEが有⽤ • ⻑⽂読解 – 読解(情報処理) – 内容⼀致問題 – 段落タイトル付与 • その他 – リスニング – イラスト理解 https://www.jstage.jst.go.jp/article/pjsai/JSAI 2017/0/JSAI2017_2H21/_pdf/-char/ja 概ね 解ける 東中ら, “「ロボットは東⼤に⼊れるか」プロジェクトにおける 英語科⽬の到達点と今後の課題”, 2H2-1, JSAI17 東中ら, “「ロボットは東⼤に⼊れるか」プロジェクトの英語に おける意⾒要旨把握問題の解法”, 2C1-02, JSAI18 122

Slide 123

Slide 123 text

参考︓英語以外のデータ • 中国語 – HLF-RC [Cui (iFLYTEK)+, COLING16] ※リンク切れ︖ – DuReader [He (Baidu)+, MRQA@ACL18] • http://ai.baidu.com/broad/subordinate?dataset=dureader • ⽇本語 – 解答可能性付き読解データセット [鈴⽊(東北⼤)+,NLP18] • http://www.cl.ecei.tohoku.ac.jp/rcqa/ – Multilingual SQuAD [Asai+, arXiv18][浅井(東⼤)+,NLP19] • https://github.com/AkariAsai/extractive_rc_by_runtime_mt – ロボットは東⼤に⼊れるか • https://21robot.org/dataset.html – リーディングスキルテスト • https://www.s4e.jp/ 123

Slide 124

Slide 124 text

代表的なleaderboardの状況 • SQuAD 2.0 (抽出型) • CoQA (対話型) • MS MARCO (⽣成型・検索) 124

Slide 125

Slide 125 text

「答えはありません」と回答できるか︖ SQuAD 2.0 [Rajpurkar (Stanford)+,ACL18] 1-21位 までBERT を利⽤︕ • BERTが⼤流⾏中 • 読解特化モデルの⼊⼒特徴として利⽤され るものも多いが、単純にBERTをfine- tuningしても強⼒ BERT登場 後、3ヶ⽉ で10% アップ https://rajpurkar.github.io/SQuAD-explorer/ (2019/2/15) 125

Slide 126

Slide 126 text

⼀問⼀答ではなく、対話的なQAを⾏えるか︖ CoQA [Reddy (Stanford)+,arXiv18] https://stanfordnlp.github.io/coqa/ 1-7位 までBERT • 対話型読解でもBERTが⼤流 ⾏中 • 1位はSQuAD 2.0と同じ • ⾊々と⼯夫して対話に特化 したモデルよりもナイーブ にBERTを導⼊したモデルが 今のところ強い (2019/2/15) 126

Slide 127

Slide 127 text

⼤規模なテキスト集合から読解に必要な段落を絞り込めるか︖ MS MARCO Passage Re-ranking (2018/11) • 読解の前段となる(中規模)検索タスクでもBERTがトップ • クエリを⽂A、パッセージを⽂Bに⼊れたBERTがIRに特化した従来モ デルの性能を⼤きく超える BM25: 基本的なキーワードマッチモデル IR特化 モデル (2019/2/15) http://www.msmarco.org/leaders.aspx 127

Slide 128

Slide 128 text

• BERTが⾸位ではない – MS MARCO: パッセージが10件&回答が範囲抽出ではなく⽣成 • 抽出型読解などの系列ラベリング問題に⽐べると、⽣成タスクでは BERTの導⼊はまだ進んでいない印象 – (ただし、すぐ進むとは思われる) – 特徴として︖BERTを使うものが3位に来ている http://www.msmarco.org/leaders.aspx 回答を⽣成できるか︖ MS MARCO [Nguyen (Microsoft)+,CoCo@NIPS16] [Bajaj (Microsoft)+,arXiv18] (2019/2/15) 128

Slide 129

Slide 129 text

このセクションのまとめ • SQuAD以降、より実践的な問題設定へ拡張されている – 複数のテキスト(+α)から、 複数の⽂章の深い理解に基づいて、 テキストの部分範囲に限定されない柔軟な回答を志向している • BERTですべて解決されたわけではない – ⻑⽂・複数⽂書の理解や、回答の⽣成 – その⼀⽅、範囲抽出や回答選択(分類問題)はBERTの得意分野 129

Slide 130

Slide 130 text

⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか • データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 130

Slide 131

Slide 131 text

NTTにおける取り組み例 • 技術を磨く⼀環として、コンペに積極的に参加中 • MS MARCO v2の機械読解2タスクで現在⾸位 http://www.msmarco.org/leaders.aspx ※21機関中1位(2019/03/09) 131

Slide 132

Slide 132 text

NTTにおける取り組み例 132 • 根拠抽出+マルチホップ読解のHotpotQA、対話型機械読 解のQuACでも⾸位獲得 ※6チーム中⾸位 (2019/03/09) https://quac.ai/ ※6チーム中⾸位 (2019/03/09) https://hotpotqa.github.io/

Slide 133

Slide 133 text

検索 FAQ集 実⽤化への展望︓コンタクトセンタAI お客様 電話 チャット コンタクトセンタ 質問 契約書・マニュアルなど 検索+読解 オペレータ 応答 質問 ⽀援 AI • コンタクトセンタAIへの機械読解の導⼊に向けて様々な 課題に取り組み中 L 抽出のみでは 回答不能な質問 L AI回答の根拠 がわからない L 質問意図 が不明確 L ⻑さや回答ス タイルに制約 L ⽂書が⼤量に ある 133

Slide 134

Slide 134 text

⼤規模機械読解 [⻄⽥京介+,NLP18][Nishida+, CIKM18] ⼤規模テキスト集合 (知識源) 【質問】あんしん保険の弁護⼠費⽤ 特約はどのような場合に対象外にな りますか︖ 【応答】事故の相⼿が不明である場 合など、相⼿の⽅に法律上の損害賠 償請求を⾏うことができない時 読解(回答抽出) 検索 あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保 険契約者が怪我などをされたり、⾃らが所有する⾃動⾞・家 屋などの財物を壊されたりすることによって、相⼿の⽅に法 律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、 弁護⼠などへの法律相談・書類作成費⽤などを保険⾦として お⽀払いする特約です。ただし、保険⾦のお⽀払い対象とな る費⽤に関しては、当社の同意を得た上で⽀出された費⽤に 限ります。また、事故の相⼿が不明である場合など、相⼿の ⽅に法律上の損害賠償請求を⾏うことができない時は、本特 約は対象外となりますのでご注意ください。 関連テキスト あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保 険契約者が怪我などをされたり、⾃らが所有する⾃動⾞・家 屋などの財物を壊されたりすることによって、相⼿の⽅に法 律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、 弁護⼠などへの法律相談・書類作成費⽤などを保険⾦として お⽀払いする特約です。ただし、保険⾦のお⽀払い対象とな る費⽤に関しては、当社の同意を得た上で⽀出された費⽤に 限ります。また、事故の相⼿が不明である場合など、相⼿の ⽅に法律上の損害賠償請求を⾏うことができない時は、本特 約は対象外となりますのでご注意ください。 • 多数のテキストから読解を⾏うシステムの提案 • キーワード検索+ニューラルリランキング+読解のマルチタスク学習 • Wikipedia全体を知識源としたSQuAD fullでSOTAを達成(当時) ⻄⽥京介ら, “情報検索とのマルチタスク学習による⼤規模機械読解”,⾔語処理学会第24回年次⼤会, D5-2, March 2018. Kyosuke Nishida et al.: Retrieve-and-Read: Multi-task Learning of Information Retrieval and Reading Comprehension. CIKM 2018: 647-656 134

Slide 135

Slide 135 text

複数スタイルによる⽣成型読解 [⻄⽥京介+,NLP19 B1-1(3/13)] 少量のテキスト知識源 【質問】レッカー移動はいつ でも対応して貰えるの︖ 【⾃然な⽂章で応答】はい、レッカー移動 は24時間365⽇対応可能です。 読解(⽣成) • 回答スタイルを制御可能な⽣成型モデルの提案 • MS MARCO Q&Aタスク、NLGタスクの2つでSOTA 保険契約の対象となる⾞が事故・故障・トラブル等で⾛⾏不能になっ た場合に、専⽤デスクにお電話頂ければ、業者を⼿配して牽引や応急 処置を⾏うサービス特約です。基本契約に必ず付帯されます。 ⾞両牽引サービスと付帯サービス(応急対応サービス、燃料切れ時ガ ソリン給油サービス、臨時宿泊サービス、トラブル相談サービス)か らなり、24時間365⽇対応致しております。各サービスについての詳 細は以下の表をご覧下さい。(JAF会員の⽅にはサービスに追加の優 遇措置が設けられております。) 【簡潔に応答】はい 応答時に スタイルを 指定可能 Kyosuke Nishida et al.: Multi-style Generative Reading Comprehension. CoRR abs/1901.02262 (2019) ⻄⽥京介ら: "回答スタイルを制御可能な⽣成型機械読解",⾔語処理学会第25回年次⼤会(NLP2019), B1-1, March 2019. 135

Slide 136

Slide 136 text

複数スタイルによる⽣成型読解 [Nishida+, arXiv19] [⻄⽥京介+,NLP19 B1-1(3/13)] • Transformerベースのpointer-generator。パッセージのリランキン グと回答不能性の学習をマルチタスク学習 • 複数スタイルのデータを同時に学習することで精度向上 語彙、質問・パッセージからのコピー をステップ毎に、指定スタイル(先頭 トークンで指定)に応じて制御 https://arxiv.org/pdf/1901.02262.pdf 136

Slide 137

Slide 137 text

根拠を抽出可能な抽出型読解 [⻄⽥光甫+,NLP19 B1-3(3/13)] • はい/いいえ/回答範囲の抽出を⾏う際、根拠となる⽂を複数提⽰可能 • HotpotQA [Yang, Qi, Zhang+,EMNLP18]の2タスクでSOTA 【質問】おじいちゃんの癌が ⾒つかったのですが私の保険 で⼊院費⽤をもらえますか︖ 【根拠】⼆親等以内の親族の放射線治療は ⼊院給付⾦⽇額の10 倍を補償します. 【応答】はい. 【根拠】放射線治療は癌の主要な治療法の ひとつである. 回答& 根拠⽂の発⾒ 知識源となるテキスト集合 ⻄⽥光甫ら, "抽出型要約との同時学習による回答根拠を提⽰可能な機械読解",⾔語処理学会第25回年次⼤会(NLP2019), B1-3, March 2019. 137

Slide 138

Slide 138 text

クエリ・出⼒⻑を指定した⽂書要約 [⻫藤いつみ+,NLP19 P2-11(3/14)] • 要約の焦点を与えるクエリおよび出⼒⻑の指定を⾏う要約 • クエリだけ、⻑さだけの指定も可 【質問】レッカー移動はいつ でも対応してもらえるの︖ 【⻑さ】30単語 【応答】はい、⾞両牽引サービスは24時 間365⽇対応致しております。専⽤デスク にお電話頂ければ、業者を⼿配します。 保険契約の対象となる⾞が事故・故障・トラブル等で⾛⾏ 不能になった場合に、専⽤デスクにお電話頂ければ、業者 を⼿配して牽引や応急処置を⾏うサービス特約です。基本 契約に必ず付帯されます。 ⾞両牽引サービスと付帯サービス(応急対応サービス、燃 料切れ時ガソリン給油サービス、臨時宿泊サービス、トラ ブル相談サービス)からなり、24時間365⽇対応致してお ります。各サービスについての詳細は以下の表をご覧下さ い。(JAF会員の⽅にはサービスに追加の優遇措置が設け られております。) 要約対象テキスト クエリと⻑さを 考慮して要約 ⻫藤ら, "クエリ・出⼒⻑を考慮可能な⽂書要約モデル", ⾔語処理学会第25回年次⼤会(NLP2019), P2-11, March 2019. 138

Slide 139

Slide 139 text

質問の意図を明確にする改訂質問⽣成 [⼤塚淳史+,DEIM18&19][Otsuka+, RCQA@AAAI19] • 質問が曖昧な場合に、質問対象テキストに基づいて具体的な質問を⽣成 パケットプランの解約について 2年間同⼀回線の継続利⽤が条件と なり、契約期間内での回線解約・ 定期契約のない料⾦プランへの変 更時などには、9,500円の解約⾦ がかかります。ただし、更新⽉の ときには無料になります。 【質問】 解約⾦はいくら︖ 契約期間内での回線解約・定期契 約のない料⾦プランへの変更時の 解約料⾦はいくら︖ 具体的な質問1 A. 9500円 更新⽉のときの解約⾦はいくら︖ A. 無料 具体的な質問2 ⼤塚ら, ”質問の意図を特定するニューラル質問⽣成モデル", 第10回データ⼯学と情報マネジメントに関する フォーラム(DEIM2018), F1-4, March 2018. Atsushi Otsuka et al., "Specific Question Generation for Reading Comprehension", in Proceedings of the AAAI 2019 Reasoning for Complex QA (RCQA) Workshop, Honolulu, Hawaii, USA, January 2019. ⼤塚ら, ”問い返し可能な質問応答︓読解と質問⽣成の同時学習モデル", 第11回データ⼯学と情報マネジメントに 関するフォーラム(DEIM2019), A3-3, March 2019. 139

Slide 140

Slide 140 text

質問の意図を明確にする改訂質問⽣成 [⼤塚淳史+,DEIM18&19][Otsuka+, RCQA@AAAI19] 改訂質問2 改訂質問1 140

Slide 141

Slide 141 text

NTTにおける取り組み例 • 機械読解をチャットボット応対への導⼊を検討(トライアルレベル) ボットの回答と共に、 マニュアル上の回答部分 をハイライトして表⽰ 質問を⼊⼒すると ボットが回答 141

Slide 142

Slide 142 text

⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか • データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 – ⾃然⾔語理解へ – ⾃然⾔語理解を超えて 142

Slide 143

Slide 143 text

個別のタスクから⾃然⾔語理解へ • 特にBERTの登場以降、⾃然⾔語理解タスクの全般に利⽤ 可能な技術への注⽬が⾼まる • ⾃然⾔語理解の共通的な⾔語モデルと知識ベースを基に、 どうやって応⽤タスクに少サンプルで適応するか︖ • タスク間でも⾃然⾔語理解能⼒を共有できないか︖ ⾔語モデル・知識ベース 読解 含意 換⾔ 要約 翻訳 対話 143

Slide 144

Slide 144 text

General Linguistic Intelligence [Yogatama(DeepMind)+,arXiv(2019/01/31)] BERTを事前学習しても SQuADに適応するには 万単位のサンプルが必要 BERTの構造でゼロから 学習すると80000サンプル (1epoch)では全く⾜りない 他の読解タスクで教師あり 学習しても、結局、万単位 のサンプルが必要 Dani Yogatama et al. : Learning and Evaluating General Linguistic Intelligence. CoRR abs/1901.11373 (2019) https://arxiv.org/pdf/1901.11373.pdf 過去に獲得した⾔語知能を⾼速に新タスクへ適応できるか︖ SQuADの精度 SQuADの学習サンプル数 144

Slide 145

Slide 145 text

General Linguistic Intelligence [Yogatama(DeepMind)+,arXiv(2019/01/31)] SQuAD学習モデル を他データで評価 すると性能低い è 汎⽤的な能⼒を 獲得できていない SQuADと⼀緒にマ ルチタスク学習す ると性能は良い F1(EM) F1 BERT→SQuADの状態でTriviaQAを追加 学習させると、SQuADの能⼒は⼤きく 落ちる(Catastrophic forgetting) 読解の精度 TriviaQAの学習サンプル数 145

Slide 146

Slide 146 text

Natural Language Decathlon (decaNLP) [McCann(Salesforce)+, arXiv18] • 様々なNLPのタスクをすべて"QA"としてマルチタスク学習 Bryan McCann et al.: The Natural Language Decathlon: Multitask Learning as Question Answering. CoRR abs/1806.08730 (2018) https://arxiv.org/pdf/1806.08730 機械読解 機械翻訳 ⽂書要約 含意認識 感情分類 その他5タスク 146

Slide 147

Slide 147 text

GPT-2 [Radford+, OpenAI Tech.Rep. 2019/02/14] • 超⼤規模コーパス(800万件Web⽂書)に基づく、 超⼤型サイズ(48層1600次元)のGPT(単⽅向Transformer) • ⾔語モデル単体としてSOTA + zero-shotで様々なタスクにある程度 適応可能 テキストコーパスに⾃然に含まれてい る英⇔仏の翻訳に関するテキスト è Zero-shot翻訳を可能にする ⾔語モデルとして下記タスクを解く • 読解 – ⽂書+質問+“A:” → 回答 – CoQAで55 F1 • 要約 – 元⽂+“TL;DR:” → 要約⽂ – CNN/DMで26.58 Rouge-L • 翻訳 – 元⽂+“english sentence =“ → 訳⽂ – WMT14 Fr->Enで11.5 BLEU https://d4mucfpksywv.cloudfront.net/better-language-models/language- models.pdf Alex Radfordet al.: Language Models are Unsupervised Multitask Learners, OpenAI Tech. Report, 2019. 147

Slide 148

Slide 148 text

MT-DNN (BigBird) [Liu&He(Microsoft)+,arXiv 2019/02/01] • BERTのfine-tuningをマルチタスク化することでGLUEにてBERT越え Xiaodong Liu et al.: Multi-Task Deep Neural Networks for Natural Language Understanding. CoRR abs/1901.11504 (2019) https://arxiv.org/pdf/1901.11373.pdf https://gluebenchmark.com/leaderboard Pre-trained BERT Multi-task Fine-tuning 148

Slide 149

Slide 149 text

外部知識の活⽤ [Mihaylov+, ACL18][Bauer&Wang+,EMNLP18] • ConceptNetをcommonsenseの 外部知識として読解に組み込む è まだ⼤きな性能改善には繋がっていない Todor Mihaylov, Anette Frank: Knowledgeable Reader: Enhancing Cloze-Style Reading Comprehension with External Commonsense Knowledge. ACL (1) 2018: 821-832 Lisa Bauer, Yicheng Wang, Mohit Bansal: Commonsense for Generative Multi-Hop Question Answering Tasks. EMNLP 2018: 4220- 4230 Robert Speer, Joshua Chin, Catherine Havasi: ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. AAAI 2017: 4444-4451 commonsense reasoing [Bauer&Wang+, EMNLP18] http://aclweb.org/anthology/D18-1454 Knowledgeable Reader [Mihaylov+,ACL18] http://aclweb.org/anthology/P18-1076 各単語にsingle-hopで 知識を埋め込み 各単語にmulti-hopで 知識を埋め込み 149

Slide 150

Slide 150 text

⾃然⾔語理解を超えて 150 • テキストの意味理解を超えたスキルを必要とする 質問応答への展望 – 数学・集計・論理などの演算能⼒ – 図・表・データベースの理解 ⾃然⾔語理解 演算能⼒ DB・表 図

Slide 151

Slide 151 text

DROP [Dua(UCI)+,arXiv(2019/03/01)] 151 • 加算、減算、カウ ント、ソートなど 演算能⼒が必要な 読解データセット • 演算もニューラル に任せるべきなの か︖ Dheeru Dua et al.: DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs, arXiv https://arxiv.org/pdf/1903.00161.pdf

Slide 152

Slide 152 text

Spider [Yu(Yale U)+,EMNLP18] 152 • 複雑なクエリを含む Text-to-SQL (Semantic Parsing)のデータセット • 機械読解の研究として、 知識源がテキスト+デー タベースに拡張された設 定に拡張できるか︖ https://arxiv.org/pdf/1809.08887 Tao Yu et al.: Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task. EMNLP 2018: 3911-3921

Slide 153

Slide 153 text

DVQA [Kafle(Adobe)+,CVPR18] 153 • 図で可視化された データの理解 • ⼈⼯的に⽣成 • ラベルテキストの ⽂字認識も必要 • テキストとビジュ アル、数値演算を どう融合させる か︖ Kushal Kafle, Brian L. Price, Scott Cohen, Christopher Kanan: DVQA: Understanding Data Visualizations via Question Answering. CVPR 2018: 5648-5656 http://openaccess.thecvf.com/content_cvpr_ 2018/papers/Kafle_DVQA_Understanding_D ata_CVPR_2018_paper.pdf

Slide 154

Slide 154 text

Visual Commonsense Reasoning [Zellers (U Washington)+, arXiv18] • ⾔語+常識+ビジョンの理解 • ⾔語モデルと画像特徴量だけで ⽴ち向かえるのか︖ Rowan Zellers, Yonatan Bisk, Ali Farhadi, Yejin Choi: From Recognition to Cognition: Visual Commonsense Reasoning. CoRR abs/1811.10830 (2018) 画像と質問に対して、 回答と理由を選択 154

Slide 155

Slide 155 text

おわりに 機械読解とは、テキストを知識源とした 質問応答タスクで、⾃然⾔語理解への挑戦 ニューラル機械読解は、まだ⼈間のレベルを超えていない。 現状のモデルはパターンマッチング的な挙動 データが不⾜しているのか︖ モデルが未熟なのか︖ BERTは凄いが、全てが解決したわけではない。 機械読解においては複数⽂・⻑⽂理解や回答⽣成が課題 SQuAD以降、より現実的な設定のデータセットが次々に (30件以上)発表されている。何が重要な課題か︖ ⾔語モデル/知識ベース/他データセットをどのように 読解へ転移・適応させるか︖⾔語を超えた理解との融合は︖ 155

Slide 156

Slide 156 text

謝辞 • 今回のチュートリアルに際して、菅原 朔さん(東⼤ / 理研AIP)に機械読解データセットやモデルに関して、 ⼤変貴重なご意⾒を伺いました。⼼より感謝致します。 • ⽇頃よりディスカッション頂いている皆様に感謝します。 – NTTメディアインテリジェンス研究所の皆様 ⻫藤いつみさん、⼤塚淳史さん、⻄⽥光甫さん、⼤杉康仁さん、 ⻑⾕川拓さん、野本成央さん、浅野久⼦さん、富⽥準⼆さん – インターンシップにて機械読解に取り組んで頂いた 皆様 篠⽥⼀聡さん、Wang Haoさん、千々和⼤輝さん、伊藤淳さん 156

Slide 157

Slide 157 text

Copyright@2019 NTT corp. All Rights Reserved. ご清聴ありがとうございました ⽇本電信電話株式会社 NTTメディアインテリジェンス研究所 ⻄⽥ 京介 E-mail: [email protected] Twitter: @kyoun