Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械読解の現状と展望 / A Talk on Machine Reading Comprehension (NLP2019)

機械読解の現状と展望 / A Talk on Machine Reading Comprehension (NLP2019)

言語処理学会第25回年次大会(NLP2019)チュートリアル(2019年3月12日)

067c2e9dfad1914df731f6f0d65d9890?s=128

Kyosuke Nishida

March 12, 2019
Tweet

Transcript

  1. Copyright@2019 NTT corp. All Rights Reserved. 機械読解の現状と展望 ⽇本電信電話株式会社 NTTメディアインテリジェンス研究所 ⻄⽥

    京介 ⾔語処理学会第25回年次⼤会(NLP2019)チュートリアル 2019年3⽉12⽇
  2. ⾃⼰紹介︓⻄⽥京介 2 • 2009年NTT⼊社。現在、NTTメディアインテリジェンス 研究所(@横須賀) 主任研究員(特別研究員) • 2年前から機械読解の研究を開始、モデリングに興味 • 機械読解のコンペ(公開データセット)に積極的に参加中

    主な取組(★はチームメンバの成果) リーダーボード有り ・MS MARCO Q&A Task: 現在1位 ・MS MARCO Q&A+NLG Task: 現在1位 ★HotpotQA Distractor Setting: 現在1位 ★HotpotQA FullWiki Setting: 現在4位(最⾼1位) ★QuAC: 現在1位 リーダーボード無し ・SQuAD-Open (full Wikipedia): 投稿時1位
  3. ⽬次 • 機械読解とは何か – 注⽬の理由、流⾏の経緯 • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか •

    ニューラル読解はどの程度のレベルにあるのか • データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 本チュートリアルでは、代表的なデータセットや モデルの解説と最新の研究成果の紹介を⾏い、 これまでの研究の到達点と今後の展望について議論します。 3
  4. 機械読解とは • (Machine) Reading Comprehension • テキストを知識源とした⾃然⾔語理解に基づく質問応答 【⼊⼒︓質問】あんしん保険 の弁護⼠費⽤特約はどのよう な場合に対象外になります

    か︖ 【出⼒︓応答】事故の相⼿が 不明である場合など、相⼿の ⽅に法律上の損害賠償請求を ⾏うことができない時 【⼊⼒︓テキスト】 あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保険契約者が怪我などをされ たり、⾃らが所有する⾃動⾞・家屋などの財物を壊されたりすることによって、相⼿の ⽅に法律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、弁護⼠などへの法律 相談・書類作成費⽤などを保険⾦としてお⽀払いする特約です。ただし、保険⾦のお⽀ 払い対象となる費⽤に関しては、当社の同意を得た上で⽀出された費⽤に限ります。ま た、事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことが できない時は、本特約は対象外となりますのでご注意ください。 あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保険契約者が怪我などをされ たり、⾃らが所有する⾃動⾞・家屋などの財物を壊されたりすることによって、相⼿の ⽅に法律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、弁護⼠などへの法律 相談・書類作成費⽤などを保険⾦としてお⽀払いする特約です。ただし、保険⾦のお⽀ 払い対象となる費⽤に関しては、当社の同意を得た上で⽀出された費⽤に限ります。ま た、事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことが できない時は、本特約は対象外となりますのでご注意ください。 4
  5. • 機械読解は本格的に流⾏してからまだ3年程度だが、 急速に発展している分野 学術的に⼤きな注⽬ https://scholar.google.com/citations?user=QcOG6sgAAAAJ&hl=en https://scholar.google.com/citations?user=zYze5fIAAAAJ&hl=en 最も有名なデータ セットSQuAD 最も有名なベース ラインモデルBiDAF

    2016/06初出で 被引⽤数653件 (2019/02/15) 2016/11初出で 被引⽤数433件 5
  6. ⾃然⾔語理解タスクとしての注⽬ • 機械読解は⾃然⾔語理解を必要とするタスク • 機械読解の研究において得られた知⾒、テクニック、モデ ル、データセットは他のタスクにおいても有⽤であるし、 その逆もまた同じ è 多くの研究者にとって「関連研究」と成り得る分野 ⾔語モデル

    読解 含意 換⾔ 要約 翻訳 対話 6 ⾃然⾔語理解
  7. 企業からも⼤きな注⽬ • 多くの企業研究所が「データセット作成・公開」から参画 • 読解モデルの研究開発に取り組む企業はさらに多数 7

  8. 機械読解の活躍が期待されるシーンの代表例︓ Web検索 8 L スニペットを読んでも 答えが書いていない (マッチしたキーワード しか強調されない) What city

    did Super Bowl 50 take place in?
  9. 機械読解の活躍が期待されるシーンの代表例︓ Web検索 9 Answer: Santa Clara J 機械読解で 答えをピンポイントに提⽰ J

    エビデンスをスニ ペットとして表⽰ What city did Super Bowl 50 take place in?
  10. 機械読解の活躍が期待されるシーンの代表例︓ スマートスピーカー 10 https://softwareengineeringdaily.com/2018/05/18/alexa-voice- design-with-paul-cutsinger/ What was the final score

    of Super Bowl 50? Broncos beat Panthers 24-10 in Super Bowl 50. Knowledge Base
  11. 機械読解の活躍が期待されるシーンの代表例︓ チャットボット 11 • あ http://tcci.ccf.org.cn/summit/2017/dlinfo/003.pdf J 商品ページの仕様や レビューを基に回答

  12. データセット数の増加 0 5 10 15 20 2013 2014 2015 2016

    2017 2018 2019 データセット数 発表年 (個⼈的な調査; 2019/02/15) • 様々な着眼点のデータセットが⼤量に作成されている • データセットの構築により機械読解分野は急発展 12
  13. SQuAD 1.1 [Rajupurkar+, EMNLP16] • Stanford⼤が2016/06にリリースした、 現在のところ最も代表的なデータセット ⼊⼒︓テキスト ⼊⼒︓質問 出⼒︓回答

    https://aclweb.org/anthology/D16-1264 13
  14. SQuAD 1.1 [Rajupurkar+, EMNLP16] • リリース直後から、コミュニティにて⼤きな注⽬を集めた – 特に、⼈⼿で作成された⼤規模データであったことが理由 ⼊⼒︓テキスト ⼊⼒︓質問

    出⼒︓回答 Wikipediaの段落(平均140単語) 無料で公開 クラウドソーシングで作成した 100,000件以上の質問・回答ペア テキスト中の任意の 範囲を抽出して回答 14
  15. SQuAD 1.1 [Rajupurkar+, EMNLP16] • リリース直後から、コミュニティにて⼤きな注⽬を集めた リーダーボードを 設置して、現在の SOTAをリアルタイム に確認可能に

    https://blogs.msdn.microsoft.com/stevengu/2017/10/02/business-ai-tops-the-squad-leader-board/ 15
  16. • リリース直後から急速に成⻑。本会議前に⾮DNNのベー スラインから30%精度向上,発表1年後には⼈間に迫る リリース後の最⾼精度の変化 40 50 60 70 80 90

    100 6/1/2016 7/1/2016 8/1/2016 9/1/2016 10/1/2016 11/1/2016 12/1/2016 1/1/2017 2/1/2017 3/1/2017 4/1/2017 5/1/2017 6/1/2017 7/1/2017 8/1/2017 9/1/2017 10/1/2017 Machine (EM) Machine (F1) Human (EM) Human (F1) ⼈間:EM(完全⼀致) ⼈間:F1(部分⼀致) ⾮DNN F1 51.0% DNN 70.7% EMNLPʼ16で発表 arXivで発表 (個⼈的な調査) 16
  17. 2018年1⽉︓「⼈間超え」 • Alibaba[1]とMicrosoft[2]が同時期に⼈間の完全⼀致のス コアを超え、メディアで報じられる https://wired.jp/2018/02/08/ai-beat-humans-at-reading/ https://forbesjapan.com/articles/detail/19346 https://www.cnn.co.jp/tech/35113360.html [1] Wei Wang,

    Chen Wu, Ming Yan: Multi-Granularity Hierarchical Attention Fusion Networks for Reading Comprehension and Question Answering. ACL (1) 2018: 1705-1714 [2] Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang, Ming Zhou: Gated Self-Matching Networks for Reading Comprehension and Question Answering. ACL (1) 2017: 189-198 17
  18. 2018年10⽉︓ BERTの衝撃 • BERTが登場。読解に特化したニューラルネット構造を持 たずに、⼈間のスコアを部分⼀致でも⼤きく超える 完全⼀致 部分⼀致 ⼈間のスコア BERTのスコア Jacob

    Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR abs/1810.04805 (2018) https://rajpurkar.github.io/SQuAD-explorer/ 18
  19. ⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか – どのように作られたのか – 読解にはどのような能⼒が必要なのか •

    機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか • 最新のデータセットと研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 著者らの分析 その後の研究 での分析 19
  20. Copyright@2019 NTT corp. All Rights Reserved. SQuAD: 100,000+ Questions for

    Machine Comprehension of Text Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang Stanford Univ. EMNLP 2016 (arXiv: 2016/06) https://arxiv.org/abs/1606.05250 (2019/02/15)
  21. SQuAD 1.1 [Rajupurkar+, EMNLP16] • テキストに関する質問に、回答範囲を抽出して答える ⼊⼒︓段落 (コンテキスト、パッセージ) ⼊⼒︓質問 出⼒︓回答

    Wikipediaの段落 (平均140単語) クラウドソーシングで作成した 100,000件以上の質問・回答ペア テキスト中の任意の範囲で 回答(選択肢は無し) 21
  22. 段落の収集⽅法 • 英語Wikipediaを収集対象とする 1. Project Nayuki ( https://www.nayuki.io/ )の内部 PageRankを⽤いて上位10,000記事を収集

    2. ランダムに536記事をサンプリング – 画像・表は削除 – 500⽂字未満の段落を削除 3. 最終的に23,215段落(43段落/記事)を収集 記事タイトル の⼀部 22
  23. 質問・応答ペアの作成 • Amazon Mechanical Turk をバックエンドとするDaemo ( https://www.daemo.org/home )プロジェクトを利⽤ 1.

    クラウドワーカを選定 – 過去に1,000タスク以上実施、97%以上の承認率、アメリカ・カ ナダ在住のワーカ 2. ワーカに1記事中の複数段落をまとめてアサイン – 各段落に4分を費やし、最⼤5件のQAペア作成を要求 – 記事完了に要した時間に対して、9ドル/時 を⽀払い • 例えば43段落の記事だと、3時間弱程度のタスク 23
  24. インタフェース/教⽰ 記事中の段落数 4分使って出来る限り 5問作ってください 段落のテキスト (リンクなどは削除) コピペせず⾃分の⾔葉で 質問を作ってください。 難しい質問を推奨します。 回答は段落中の範囲をハイ

    ライトして選択ください 24
  25. 追加の回答収集 • 評価⽤(Dev/Test)⽤に、各記事ごとに、質問作成者と は別のワーカを最低2⼈アサイン • 質問と段落を提⽰し、2分以内に5質問への回答を要求 – 例えば43段落の記事だと、1.5時間弱程度のタスク – 単純に割ると1問あたり24秒

    – 報酬は 9ドル/時 で同じ • 1⼈以上が「回答できない」と判断した質問が2.6% 25
  26. 統計情報 • Trianing (80%) / Dev (10%) / Test (10%)に分割

    質問は11単語程度 (基本的に⽂形式) 1段落あたり140単語 =5⽂程度 回答は3単語程度と短い Kyosuke Nishida, Itsumi Saito, Atsushi Otsuka, Hisako Asano, Junji Tomita: Retrieve-and-Read: Multi-task Learning of Information Retrieval and Reading Comprehension. CIKM 2018: 647-656 ※単語数はStanford CoreNLP tokenizerで トークナイズしてカウント 26
  27. 回答タイプ • 回答をStanford CoreNLPで機械的に分析 • 8割以上はエンティティ・短いフレーズ 約20%が数値・⽇付 約32%が固有名詞 約32%が⼀般名詞 約16%がその他

    27
  28. 回答にはどのような能⼒が必要か (著者らの分析) 1. 語彙のバリエーションの理解 類義語の理解 called / referred 世界知識が必要 The

    European … Unionが "governing bodies"であると いう理解 下線部分は クラウドワーカが 正解としたもの 28 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析 (各データは1つ以上のカテゴリに属する)
  29. 回答にはどのような能⼒が必要か (著者らの分析) 2. 構⽂のバリエーションの理解 – 質問⽂を平叙⽂に⾔い換えたときに、係り受け構造が回答を含む ⽂と異なるもの Currentの使われ⽅に差異 下線部分は クラウドワーカが

    正解としたもの 29 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析 (各データは1つ以上のカテゴリに属する)
  30. 回答にはどのような能⼒が必要か (著者らの分析) 3. 複数の⽂にまたがる推論 – 照応や複数⽂の⾼レベルの理解が必要なもの 照応が必要 "They"は"The V&A …

    galleries"であるという理解 下線部分は クラウドワーカが 正解としたもの 30 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析 (各データは1つ以上のカテゴリに属する)
  31. 回答にはどのような能⼒が必要か (著者らの分析) 4. (回答できないもの) – ワーカの回答に同意できなかったり、⼀意に回答が定まらないも の 「刑事罰の⽬的は︖」に対して 「無能⼒化(incapacitation)」⾃体が 回答となるのはおかしい

    下線部分は クラウドワーカが 正解としたもの 31 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析 (各データは1つ以上のカテゴリに属する)
  32. 評価⽅法と結果 • ⼩⽂字化、句読点削除、冠詞削除して、完全⼀致(EM) と部分⼀致(F1)を評価 • F1は空⽩⽂字でトークナイズして単語レベルで計算 質問の曖昧さ(約6%)、 時間制限(120秒/5問)、 集中⼒の⽋如(1タスクで 1.5時間程度)が要因︖

    エンティティ は好成績 それ以外は やや落ちる 回答タイプ ごとに分類 32
  33. この章のまとめ • SQuAD 1.1(2016/06発表)はリリース直後から⼤きな 注⽬を集め、発表から1年半程度で⼈間のスコアに匹敵す るに⾄った • データはクラウドソーシングにて作られ、回答はテキスト 中の任意の範囲で与えられる •

    主に語彙や構⽂のバリエーションの理解が重要と主張 è 後に、回答の難しさや必要なスキルについて多数の研究報告あり • タスク設定上、⼈間でもミスをするようになっている – テスト時は120秒/5問で回答、1.5時間程度連続 33
  34. テキストを読んで質問にお答えください。 答えはテキスト中から1つの範囲を抽出してください。 読解⼒テスト 34 Q. 2019年の⼲⽀は︖ ⻄暦2019年は平成31年です。 平成31年の⼲⽀は「亥年」です。 テキスト 例題)

  35. 読解⼒テスト 35 Q.社会脳科学では近年何が重要視されている︖ 意思決定に関わる脳機能の解明が進み,ヒトの社会⾏動を対象とする社 会脳科学という研究分野が盛んになっている.この分野は疾患など多く の社会問題とも関連する.従来,⾼度に発達したヒトの社会⾏動におい て,背外側前頭前野や帯状回といった前頭葉の熟慮的な認知システムの 重要性が強調されてきた.しかし近年になり,扁桃体や線条体といった 直観的な情動システムの重要性が認識されている.本講演ではこれらの 知⾒の意味するところを概観した後,今後益々重要になると考えられる

    ソーシャルネットワークサービス(SNS)の社会脳科学について紹介する. 脳科学における⾃然⾔語処理技術の使われ⽅,脳科学と⾃然⾔語処理の 相互交流の可能性などについて議論したい. NTTが作成した読解モデルの回答(所要時間︓1秒未満)︓ 扁桃体や線条体といった直観的な情動システムの重要性
  36. ⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか •

    データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 36
  37. Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介 BiDAF (2016/11発表)、QANet (2018/04発表)、

    BERT (2018/10)について SQuAD 1.1 leaderboard (2019/2/15)
  38. Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介(1) Bidirectional Attention Flow

    for Machine Comprehension Minjoon Seo1 Aniruddha Kembhavi2 Ali Farhadi1,2 Hannaneh Hajishirzi2 1 Univ. Washington 2 Allen Institute for Artificial Intelligence ICLR 2017 (arXiv: 2016/11) https://arxiv.org/abs/1611.01603 (2019/02/15)
  39. 概要 • タスク︓ – 機械読解。コンテキスト(段落あるいはパッセージとも呼ぶ)に 関する質問に対して、回答範囲の始点、終点を予測する。 • 提案︓ – Bi-Directional

    Attention Flow(BiDAF)モデルの提案。 • 特徴︓ – 質問→コンテキスト、コンテキスト→質問のように、双⽅向にア テンションを⾏う。 • 評価︓ – SQuAD1.1 で当時最⾼(2017/2/22) • 完全⼀致︓73.7%(⼈間︓82.2%, 前1位: 71.6%) • 部分⼀致︓81.5%(⼈間︓91.2%, 前1位: 80.4%) • 1位防衛期間: 20⽇程度 シンプルな構成、ソース公開で主流へ 39
  40. アーキテクチャの全体図 ⼊⼒ 出⼒ コンテキスト 質問 回答始点 回答終点 1. 単語 埋込み

    3. アテン ション 2. ⽂脈 埋込み 4. モデ リング 5. 出⼒ 40
  41. 1. 単語埋め込み層 ⼊⼒︓コンテキスト(T単語)、質問(J単語) 処理︓2つのレベルで埋め込む 1. 単語埋め込み – 事前学習した100次元のGloVe を利⽤ 2.

    ⽂字列埋め込み (OOVの解決に有効) – 1次元のCNN(カーネルサイズ5)を利⽤ 出⼒︓各埋込を結合→Highway Network – コンテキスト表現 ∈ !×# – 質問表現 ∈ !×$ “comprehension” GloVe 100次元 CNN 100次元 “comprehension” Max-pooling concat highway 200次元ベクトル 200次元 41
  42. 2. ⽂脈埋め込み層 ⼊⼒ 出⼒ コンテキスト 質問 回答始点 回答終点 2. ⽂脈

    埋込み 42
  43. ⼊⼒︓ – コンテキスト(T単語)表現 ∈ !×# – 質問(J単語)表現 ∈ !×$ 処理︓

    – 質問・コンテキストの単語系列をそれぞれ双⽅向LSTMで符号化 出⼒︓ – コンテキスト表現 ∈ %!×#、質問表現 ∈ %!×$ 2. ⽂脈埋め込み層 単語埋め込み(d=200次元) 双⽅向の状態ベクトル(2d=400次元) 順⽅向LSTM (初期値0) 逆⽅向LSTM (初期値0) 43
  44. 3. アテンション層 ⼊⼒ 出⼒ コンテキスト 質問 回答始点 回答終点 3. アテン

    ション 44
  45. ⼊⼒︓ – コンテキスト(T単語) ∈ %!×#、質問(J単語) ∈ %!×$ 処理︓ 1. コンテキスト・質問の各単語のマッチングを取って類似度⾏列

    ∈ #×$を求める 3. アテンション層(1/4; マッチング) 学習パラメータ コンテキスト 質問 45
  46. ⼊⼒︓ – コンテキスト(T単語) ∈ %!×#、質問(J単語) ∈ %!×$ – 類似度⾏列 ∈

    #×$ 処理︓Context2Query 1. 類似度⾏列 ∈ #×$を列⽅向にsoftmax 2. コンテキストの各単語(t)毎に、質問の単語系列をアテンション プーリング ( ∈ %!×# 3. アテンション層(2/4; ⽂章→質問) コンテキスト 質問 1. 2. 直感的には、コンテキストの各単語ごとに、 質問の中で関連する単語を強調する操作 46
  47. ⼊⼒︓ – コンテキスト(T単語) ∈ %!×#、質問(J単語) ∈ %!×$ – 類似度⾏列 ∈

    #×$ 処理︓Query2Context 1. ∈ #×$を列⽅向に最⼤値取得→⾏⽅向に正規化 2. コンテキストの単語系列をアテンションプーリング + ℎ ∈ %! 3. コンテキストの単語数分タイリング ( ∈ %!×# 3. アテンション層(3/4; 質問→⽂章) コンテキスト 質問 1. 2. 3. T単語分に複製 直感的には、質問のいずれかの単語に 強く関連するコンテキスト単語を強調する操作 47
  48. ⼊⼒︓ – (アテンション前の)コンテキスト表現 ∈ × – 双⽅向アテンションの出⼒ ( ∈ ×、(

    ∈ × 処理︓ 1. 3表現を各コンテキスト単語ごとに連結して ∈ )!×#を出⼒ 3. アテンション層(4/4; 最終出⼒) アテンション前の表現H も含めることが重要 48
  49. 4. モデリング層 ⼊⼒ 出⼒ コンテキスト 質問 回答始点 回答終点 4. モデ

    リング 49
  50. ⼊⼒︓ – 質問に基づいたコンテキスト表現 ∈ )!×# 処理︓ – 2層の双⽅向LSTMで符号化 出⼒︓ –

    質問に基づいたコンテキスト表現 ∈ %!×# 4. モデリング層 この状態で、回答範囲の始点が計算可能な状態 50
  51. 5. 出⼒層 ⼊⼒ 出⼒ コンテキスト 質問 回答始点 回答終点 5. 出⼒

    51
  52. ⼊⼒︓ – 質問に基づいたコンテキスト表現 • アテンション層の出⼒ ∈ !"×$ • モデリング層の出⼒ ∈

    %"×$ 処理︓ 1. G, Mに基づき、各単語位置毎に線形変換して正規化 出⼒︓ – 始点の確率分布 * ∈ # 5. 出⼒層(1/2; 始点) Super Bowl 50 was an American football game to determine … コンテキスト 52
  53. ⼊⼒︓ – 質問に基づいたコンテキスト表現 • アテンション層の出⼒ ∈ !"×$ • モデリング層の出⼒ ∈

    %"×$ 処理 1. 回答の始点を条件とするイメージでMにさらにLSTMを作⽤させて 終点⽤のモデリングをし ! ∈ !"×$ を得る 2. G, Mに基づき、各単語位置毎に線形変換して正規化 出⼒︓ – 終点の確率分布 ! ∈ $ 5. 出⼒層(2/2; 終点) Super Bowl 50 was an American football game to determine … コンテキスト M 始点p1 終点p2 M2 G 53
  54. 学習とテスト • 学習︓損失関数は始点と終点の正解位置%, &を⽤いて負 の対数尤度により最適化 • テスト︓' %( &が最⼤となる(k,l)の範囲(k≦l)を選択 Super

    Bowl 50 was an American football game to determine … 回答範囲として抽出 54
  55. 実験︓SQuADスコアに関する評価 • ⾮NNに⽐べて単体モデルで26〜27%精度向上。 • 12モデルのアンサンブルによりさらに4〜5%精度向上。 EM: 回答範囲の完全⼀致、F1: 部分⼀致 55

  56. 質問とコンテキストのマッチング アテンション類似度⾏列Sの可視化 • 質問内容に応じて関連するコンテキスト単語を注視 • 局所的にパターンマッチング→⼤域的に⾒て選択 コンテキスト 質問 質問の各単語に強く反応 したコンテキスト単語

    Whereè場所関連のコ ンテキスト単語に注視 ʻSuper Bowl 50ʼの出現 箇所を繰り返し注視 正解の回答範囲に対応する箇所︓ 56
  57. BiDAFのまとめ • 質問、コンテキストをそれぞれエンコーディングし て双⽅向アテンションにより単語レベルでマッチン グを取る • モデリング・出⼒層にて、 – クエリタイプと回答範囲の局所的なパターンマッチング –

    ⼤域的なsaliency を獲得し回答範囲の始点・終点を決定するイメージ • 精度の良さ、モデルのシンプルさ、およびコード公 開によりベースラインモデルとして定着した 57
  58. Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介(2) QANet: Combining Local

    Convolution with Global Self-Attention for Reading Comprehension Adams Wei Yu1, David Dohan2, Minh-Thang Luong2, Rui Zhao2, Kai Chen2, Mohammad Norouzi2, Quoc V. Le2 1 Carnegie Mellon University 2 Google Brain ICLR 2018 (arXiv: 2018/04) https://arxiv.org/abs/1804.09541 (2019/2/15)
  59. 概要 • タスク︓ – 機械読解。コンテキスト(段落あるいはパッセージとも呼ぶ)に 関する質問に対して、回答範囲の始点、終点を予測する。 • 提案︓ – 新モデルQANetの提案

    – Data augmentation⼿法の提案 • 特徴︓ – RNNをconvolutionとself-attentionに置き換え130層超の構成 – 翻訳モデルを活⽤して英→仏→英でデータを増加 • 評価︓ – SQuAD1.1 で当時最⾼(2018/3/19)、完全⼀致で⼈間超え • 完全⼀致︓83.9%(⼈間︓82.2%, 前1位: 82.5%) • 部分⼀致︓89.7%(⼈間︓91.2%, 前1位: 89.3%) • 1位の防衛期間: 4ヶ⽉程度 59
  60. アーキテクチャの全体図 ⼊⼒ 出⼒ コンテキスト 質問 回答始点 回答終点 1. 単語 埋込み

    2.⽂脈 埋込み 3. アテ ンション 4. モデ リング 5. 出⼒ • 構造はBiDAFと同じ • ⽂脈埋め込み、モデ リング層で使う LSTMを変更 60
  61. QANet: local conv+global self-att Self-attention ⼤域的な関係性 を捉える Convolution ⽂中の局所的な 関係性を捉える

    FFN モデルの表現能 ⼒を⾼める Position- embedding 各単語の"位置" を符号化 • LSTMの代わりに 右図のエンコーダ ブロックを利⽤ • Transformer[1]のブ ロックにconvolution を追加した構成 [1] Ashish Vaswani et al. : Attention is All you Need. NIPS 2017: 6000-6010 61
  62. 特徴1) Self-attention • 2018年前半にSQuADのEM指標で⼈間スコアを越えてき た3⼿法は"Self-attention"機構を共通点として持つ – QANet(Google; 2018/03にリーダーボード投稿) – SRQA

    (Alibaba; 2018/01にリーダーボード投稿) [1] – R-NET (Microsoft; 2018/01にリーダーボード投稿) [2] コンテキスト 質問 コンテキスト コンテキスト 通常のアテンション(マッチング) セルフアテンションのイメージ [1] Wei Wang, Chen Wu, Ming Yan: Multi-Granularity Hierarchical Attention Fusion Networks for Reading Comprehension and Question Answering. ACL (1) 2018: 1705-1714 [2] Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang, Ming Zhou: Gated Self-Matching Networks for Reading Comprehension and Question Answering. ACL (1) 2017: 189-198 62
  63. なぜSelf-attentionか • 単語系列の⽂脈の理解は主にLSTMで⾏われてきたが、⻑ 期依存性の理解には限界があった • 離れた単語の関係性も直接考慮できる(しかも省メモリで 計算可)セルフアテンションは性能向上に⼤きく寄与した ※翻訳のTransformerと読解のR-NETは同時期(2017/05-06頃)に self-attentionを導⼊ コンテキスト

    コンテキスト LSTM セルフアテンション コンテキスト 遠く離れた 単語の関係性 を捕まえにくい 遠く離れた 単語も直接 関係を考慮 63
  64. 特徴2) 逆翻訳によるデータ拡張 • データ不⾜が課題 è 翻訳モデルで学習データを増やす – オリジナル︓「英→仏→英」︓「英→独→英」を3:1:1で混合 64

  65. 少し脱線︓最近の逆翻訳 • 機械翻訳も逆翻訳で⼤きな改善 [1] (2018/08) • 知⾒︓MAP推定(ビーム・貪欲探索)の綺麗なデータ拡張 よりも、サンプリングやノイズを追加した⽅が有益 è QANetも25候補からサンプリングしているので、

    ⽔増しデータは結構ノイズが含まれているのでは︖ [1] Sergey Edunov et al.: Understanding Back-Translation at Scale. EMNLP 2018: 489-500 こちら の⽅が 有益 65
  66. さらに脱線︓最近の含意認識 http://aclweb.org/anthology/P17-1152 http://arxiv.org/abs/1901.02609 Qian Chen, Xiaodan Zhu, Zhen-Hua Ling, Si

    Wei, Hui Jiang, Diana Inkpen: Enhanced LSTM for Natural Language Inference. ACL (1) 2017: 1657-1668 Qian Chen, Wen Wang: Sequential Attention-based Network for Noetic End-to-End Response Selection. CoRR abs/1901.02609 (2019) 1. 単語 埋込み 2.⽂脈 埋込み 3. アテ ンション 4. モデ リング 5. 出⼒ • 現在のベースライン的な⼿法であるESIM [Chen+,ACL17] も、基本的な構造はBiDAFと似ている 前提 仮説 含意/⽭盾(/中⽴) 66
  67. QANetのまとめ • BiDAFと基本的に同じ構造 – BiDAFは⽂ペアマッチングの構成として汎⽤的で優秀 • LSTMをTransformer-likeなブロックに変更、self- attentionが効果あり。 – ⻑期依存の⽂脈の理解が改善された。

    • 逆翻訳によるData augmentationの有効性を⽰す – 追加されたデータはかなり汚いはず。ノイズデータから学習する ことで⾃然⾔語の理解度が上がったとみるか、パターンマッチン グのバリエーションが豊かになったとみるか︖ 67
  68. Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介(3) BERT: Pre-training of

    Deep Bidirectional Transformers for Language Understanding Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova Google AI Language arXiv 2018/10 https://arxiv.org/abs/1810.04805 (2019/2/15) (2019/3/9)
  69. 概要 • タスク︓ – 単⽂・⽂ペア⼊⼒の⾮⽣成系タスク全般 • 提案︓ – Bidirectional Encoder

    Representations from Transformers (BERT)モデルの提案。 • 特徴︓ – 双⽅向Transformer⾔語モデルを⼤規模コーパスで事前学習 • マスク単語予測と、次⽂章判定 – タスク適応は、出⼒層をタスク毎に1層のみ追加してfine-tuningする • 評価︓ – 11タスクでSOTA︓含意、⾔い換え、⽂の分類など – SQuAD1.1 でも最⾼精度(2018/10/5)、両指標で⼤きく⼈間越え • 完全⼀致︓87.4%(⼈間︓82.2%, 前1位: 85.4%) • 部分⼀致︓93.2%(⼈間︓91.2%, 前1位: 91.2%) 69
  70. BERTとは • 双⽅向Transformerブロックを24層重ねた⾔語モデル • 読解に特化した構造を持たない Transformer(Trm) ブロック 70

  71. ⾔語モデルの事前学習 • 機械読解をはじめ応⽤タスクの学習データは数⼗万件程度 と多くないので、アノテーション不要の⼤規模コーパスか ら学習したモデルを転移することが流⾏ – OpenAI GPT [1] (2018/06に発表)

    – ELMo [2] (2018/02に発表) [1] Alec Radford et al.: Improving language understanding with unsupervised learning. Technical report, OpenAI, 2018. [2] Matthew E. Peters et al. : Deep Contextualized Word Representations. NAACL-HLT 2018: 2227-2237 71
  72. ⾔語モデルの事前学習 • ⾔語モデルはleft-to-rightあるいはright-to-leftの次単語 を予測するモデルとするのが普通であった left-to-right Transformer left-to-right & right-to-left LSTMs

    (! |"! ) これまでの単語系列から次単語を予測 72
  73. BERTの特徴(1) 単語のマスク • 単⽅向よりも双⽅向でモデリングした⽅が性能が良くなる と期待して、⾔語モデルを⽳埋めで学習する My [MASK] is hairy My

    dog is hairy ⼊⼒の⼀部をマスク マスク前の⽂章を予測 BERT 73
  74. BERTの特徴(1) 単語のマスク • マスク⽂章はランダムに作成 My dog is hairy My [MASK]

    is hairy 15%の単語をマスク対象として選択 80%は そのまま [MASK] apple dog 10%は ランダム置換 10%は 元に戻す 74
  75. BERTの特徴(2) 次⽂章予測 • NLPのタスクは2つの⽂の関係性理解が多い • 隣接する⽂/ランダムな2⽂をセパレータで繋げて、隣接す る⽂か否かの判定を⽳埋め予測と同時に学習 [CLS] my dog

    is cute [SEP] he likes play [MASK] [SEP] 2⽂⽬ 1⽂⽬ IsNext my dog is cute [SEP] he likes play piano [SEP] 分類 ⽳埋め BERT 75
  76. BERTの特徴(3) fine-tuning • 出⼒層を1層追加してfine-tuningするのみで各タスクに適応 • 機械読解の場合︓モデルに始点⽤の全結合層+softmax、終点⽤の全 結合層+softmaxを追加して、回答範囲の始点・終点を予測する • ⼊⼒は質問とコンテキスト(段落)を繋げて⼊⼒ 76

  77. 事前学習の設定 • Book Corpus (8億ワード)[1] + 英語Wikipedia(25億 ワード)を利⽤ – ⽂レベルでシャッフルされているコーパスは良くない

    • セパレータで区切る2⼊⼒は、より⻑い⽂脈の理解のため それぞれ2⽂以上から構成させても良い • 語彙はワードピース[2] 30,000種としてOOVを無くす • ⼊⼒⻑は最⼤512トークン(理解可能なテキスト⻑さに限 りがある) • 16 Cloud TPUs で4⽇間(≒100時間) – 32 Cloud TPU v2 Pod: $24.0 USD / 時 [3] [1] Yukun Zhu et al. : Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. ICCV 2015: 19-27 [2] Yonghui Wu et al. : Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. CoRR abs/1609.08144 (2016) [3] https://cloud.google.com/tpu/docs/pricing 77
  78. SQuAD1.1の評価結果 • BASE: 12層、各層768次元(パラメータ数1.1億) • LARGE: 24層、各層1024次元(パラメータ数3.4億) • アンサンブル: 7モデル

    • TriviaQA: 抽出型の読解データセット[1] [1] Mandar Joshi et al. : TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension. ACL (1) 2017: 1601-1611 78
  79. BERTの他タスクでの評価 • GLUE [1] – ⽂ペア、単⽂⼊⼒の⾔語理解タスク9種。 – 含意、⾔い換え、⽂類似性、分類。 • CoNLL

    2003 NER [2] – 固有表現抽出 • SWAG [3] – 次⽂予測 [1] Alex Wang et al.: GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. BlackboxNLP@EMNLP 2018: 353-355 [2] Erik F. Tjong Kim Sang, Fien De Meulder: Introduction to the CoNLL-2003 Shared Task: Language- Independent Named Entity Recognition. CoNLL 2003: 142-147 [3] Rowan Zellers et al.: SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference. EMNLP 2018: 93-104 79
  80. BERTのまとめ • 双⽅向Transformer.⼤規模コーパスから⽳埋めと次⽂予 測でpre-trainingする • Pre-trainモデルをfine-tuningして機械読解に適応 – 読解に特化した複雑な構造は持たない – Pre-train時の学習データにQとAの関係性は無い

    • 様々な⾃然⾔語理解タスクでSOTA – QA、含意、⾔い換え、固有表現抽出など – Fine-tuningでなく、ELMoの⽤にfeatureとして利⽤しても有効 80
  81. ⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか –

    ⾃分で確かめる⽅法 – 分析論⽂の紹介 • データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 81
  82. モデルの挙動が確認できる • SQuADのサイトでは幾つかのモデルの回答が⾒られる • BERT (ensemble)の例︓ どういう問題でミスをし ているか調べられる https://rajpurkar.github.io/SQuAD-explorer/explore/1.1/dev/ 82

  83. モデルの挙動が確認できる • SQuADのサイトのデモは問題を変更できないが、 AllenNLPのデモ(BiDAF)では変更可能 https://demo.allennlp.org/machine-comprehension/ 好きなテキスト・ 質問で試せる 読解結果 83

  84. 質問の僅かな違いが 読解エラーになる例 Q. Who was the co-MVP of Super Bowl

    XII? Q. Who was the MVP of Super Bowl XII? co-MVPをMVPに するだけで間違った https://demo.allennlp.org/machine-comprehension/ 84
  85. 敵対的な⽂の追加 [Jia+,EMNLP17] • SQuADに本質的には無関係な⽂を1つ挿⼊するだけで、BiDAFのアン サンブルモデルの精度が80%→34.2%まで落下(AddSentデータ) 追加した⽂ 追加⽂により予測が 変わってしまう Robin Jia,

    Percy Liang: Adversarial Examples for Evaluating Reading Comprehension Systems. EMNLP 2017: 2021-2031 https://www.aclweb.org/anthology/D17-1215 85
  86. 敵対的な⽂の追加 [Jia+,EMNLP17] 敵対的な⽂の作り⽅ • ステップ1: 質問を変化 – 名詞や形容詞:WordNetの反 義語を⽤いて置換 –

    固有名詞や数︓GloVe空間で 近い単語に置換 • ステップ2: 回答も変化 – 同じタイプ(POSやNERにつ いて)の物に置換 • ステップ3: 平叙⽂化 – 変化させた質問と回答を使っ た平叙⽂に変換 • ステップ4: 修正 – クラウドワーカによる確認/ 修正 86
  87. 敵対的な⽂の追加 (2) [Mudrakarta+,ACL18] • 質問単語に含まれる重要な単語(モデルの予測に寄与する単語)を 使った敵対的サンプルはモデルをより上⼿く騙せる ⾊付=重 要単語 ※ 論⽂では他のタスクについても分析

    Pramod Kaushik Mudrakarta, Ankur Taly, Mukund Sundararajan, Kedar Dhamdhere: Did the Model Understand the Question? ACL (1) 2018: 1896-1906 http://aclweb.org/anthology/P18-1176 単語置換でア タック成功 Jia+,EMNLP17 87
  88. 簡単な質問の存在 [Sugawara+,EMNLP18] • 質問⽂の最初の1〜2単語で回答できたり、質問と最も類似した⽂の中 に回答がある“簡単”なデータが多い • SQuADの場合、"難しい"に分類されたデータは15.7% 回答は必ず存在する前提& 「いつ」に対する回答候補が 他にないのでWhenだけでも

    回答できてしまう 質問に最も類似した⽂(s1)に 回答が含まれている http://aclweb.org/anthology/D18-1453 Saku Sugawara, Kentaro Inui, Satoshi Sekine, Akiko Aizawa: What Makes Reading Comprehension Questions Easier? EMNLP 2018: 4208-4219 88
  89. 読解に必要なスキルとは︖ [Sugawara+, EMNLP18,ACL17,AAAI17] ※ 論⽂では他のデータセットも調査 • Saku Sugawara, Kentaro Inui,

    Satoshi Sekine, Akiko Aizawa: What Makes Reading Comprehension Questions Easier? EMNLP 2018: 4208-4219 • Saku Sugawara, Hikaru Yokono, Akiko Aizawa: Prerequisite Skills for Reading Comprehension: Multi-Perspective Analysis of MCTest Datasets and Systems. AAAI 2017: 3089-3096 • Saku Sugawara, Yusuke Kido, Hikaru Yokono, Akiko Aizawa: Evaluation Metrics for Machine Reading Comprehension: Prerequisite Skills and Readability. ACL (1) 2017: 806-817 • Sewon Min, Victor Zhong, Richard Socher, Caiming Xiong: Efficient and Robust Question Answering from Minimal Context over Documents. ACL (1) 2018: 1725-1735 簡単な問題は単語マッチだけで解ける。 常識や世界知識を必要とする問題は難しい。 数学や論理的な推論を必要する質問は SQuADにはほとんど含まれていない。 SQuADの多くは1つの⽂の情報だけで解ける。 複数⽂の場合も共参照の推論が中⼼。 ⽂選択モデル→読解が⾼性能[Min+,ACL18] 89
  90. • 質問⽂から重要度の低い単語 を⽋落させていくと、出⼒を 変えずに2〜3単語まで削れる • 削った質問⽂は、⼈間にとっ ては理解できない • 削った質問⽂で正しく回答し てしまうことを抑制すること

    が学習に良い影響を与える 質問⽂を⽋落させた場合の分析 [Feng+, EMNLP18] ※論⽂では他のデータセットも調査 Shi Feng et al.: Pathologies of Neural Models Make Interpretation Difficult. EMNLP 2018: 3719-3728 http://aclweb.org/anthology/D18-1407 平均11.5単語 →2.3単語まで 出⼒を変えずに 削れた 90
  91. ⽇本語読解の実例 [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤ NLP19の招待 講演の概要 正解(「近年」や「認識」が ⼿掛かりとして強⼒) 91

  92. ⽇本語読解の実例 [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤ 正解(多少の揺れは対応可 能) NLP19の招待 講演の概要 近年→最近 認識→重要視 92

  93. ⽇本語読解の実例 [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤ NLP19の招待 講演の概要 「最近」を削除 正解︖(従来と近年の 話を両⽅カバー) 93

  94. ⽇本語読解の実例 [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤ 追加 失敗 先程は成功した質問 94

  95. この章のまとめ • 分析の結果、SQuADには「深い」⾃然⾔語理解を必要と しない問題が⼀定の割合で含まれている – クエリタイプで回答候補がかなり絞られる • 現状のニューラル読解モデルも「浅い」パターンマッチン グ的な読解が多い –

    ⼈間には⾒られないミスも散⾒される • データ・モデルの双⽅で改善が必要 – BERTで⼤きな改善︓読解における詳細な分析はこれから – データセットの発展も⽬覚ましい︓学習できる範囲が拡⼤中 95
  96. ⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか •

    データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 96
  97. データセットの歴史 • 2016年(SQuAD)以降、急速に増加中 – 2015以前: ⼩規模なデータ – 2015〜︓⼤規模なデータ(⾃動作成) – 2016〜︓⼤規模なデータ(⼈⼿作成)

    – 2017〜︓より実践的な問題設定へ 0 5 10 15 20 2013 2014 2015 2016 2017 2018 2019 データセット数 発表年 (個⼈的な調査; 2019/03/09) 97
  98. 読解データセット(英語) MCTest (2013/10) CNN/DM (2015/06) CBT (2015/11) SQuAD 1.1 (2016/06)

    NewsQA (2016/11) MovieQA (2015/12) RecipeQA (2018/09) DuoRC (2018/04) ProPara (2018/05) MultiRC (2018/06) QuAC (2018/08) CoQA (2018/08) HotpotQA (2018/09) SQuAD 2.0 (2018/06) マルチモーダル Who-did-What (2016/08) QA4MRE (2011-13) LAMBDA (2016/06) 複数テキスト 1テキスト, ⼈⼿作成, 範囲抽出 浅いパターンマッチングから より深い推論へ 対話的 MS MARCO 2.1 (2018/10) 範囲抽出 からの脱却 1テキスト, ⾃動⽣成 MCScript (2018/03) 2016 2017 2018 CliCR (2018/03) ARC (2018/03) OpenBookQA (2018/09) ⼤規模知識 / 専⾨知識 東ロボ (2018/11) Spoken SQuAD (2018/04) 2019 Natural Questions (2019/01) emrQA (2018/09) QuaRel (2018/11) TQA (2017/07) Qangaroo (WikiHop,MedHop) (2017/10) SearchQA (2017/04) TriviaQA (2017/05) Quasar (2017/07) MS MARCO 1.0 (2016/11) RACE (2017/04) NarrativeQA (2017/12) SQuAD full (2017/04) CLOTH (2017/11) AddSent (2017/07) Multiparty Dialogue (2018/06) ShARC (2018/08) TextWorldsQA (2018/08) DREAM (2019/02) (RC)2 (2019/02) 〜2015 98 DROP (2019/03)
  99. • 4択問題 • 質問もパッセージも⼈⼿作 成だが、データ数が少ない (660テキスト×4質問) – パッセージは⼩学⽣向 けの作り話としてクラ ウドソーシングで作成

    • 2018/10の⼿法で 80-82%程度の正解率[2] [1] Matthew Richardson et al.: MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text. EMNLP 2013: 193-203 [2] Kai Sun et al. : Improving Machine Reading Comprehension with General Reading Strategies. CoRR abs/1810.13441 (2018) http://aclweb.org/anthology/D13-1020 MCTest [Richardson(Microsoft)+, EMNLP13] (2019/2/15) 99
  100. CNN/Daily Mail Reading [Hermann (DeepMind)+, NIPS15] • ニュース⾒出しの⽳埋め問題(本⽂を読んで正しいエンティティを⾒ つける) •

    エンティティは匿名化されるので世界知識は使えない http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend Karl Moritz Hermann et al. : Teaching Machines to Read and Comprehend. NIPS 2015: 1693-1701 (2019/2/15) 100
  101. Children Book Test (CBT) [Hill (Facebook)+, ICLR16] …………………………. …………………………. •

    20個の連続した⽂を⾒て、次の⽂に出てくる単語の⽳埋め問題を解く • エンティティ以外にも動詞や共通名詞が対象 • 近年は⾔語モデルの評価セットとして使われるケースあり[1][2] https://arxiv.org/pdf/1511.02301.pdf Felix Hill et al.: The Goldilocks Principle: Reading Children's Books with Explicit Memory Representations. ICLR 2016 [1] Zihang Dai et al. : Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. CoRR abs/1901.02860 (2019) [2] Alex Radford et al.: Language Models are Unsupervised Multitask Learners, OpenAI Tech. Report, 2019. (2019/2/15) 101
  102. 読解の⽅向性 SQuAD (⼀問⼀答、⼀段落、回答=範囲、回答有) è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現(≠範囲)で回答できるか︖

    • より「深い」推論に基づいて回答できるか︖ • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 102
  103. 1件ではなく複数のテキストから読解できるか︖ TriviaQA [Joshi(Washington)+, ACL17] • 質問︓トリビア・クイズのWebサイトから収集 – SQuADと異なり、先に質問・回答がある。質問が複雑 • コンテキスト︓Wikipedia,

    Webから収集した複数⽂書 – 回答⽂字列が含まれてるものだけ利⽤=正しいコンテキストかは保証され ない • 回答タイプ︓抽出 http://aclweb.org/anthology/P17-1147 Mandar Joshi et al. : TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension. ACL (1) 2017: 1601- 1611 (2019/02/15) 103
  104. ⼤規模なテキスト集合から読解できるか︖ SQuAD full Wikipedia [Chen (Facebook) +,ACL17] • 質問︓SQuADと同じ •

    コンテキスト︓Wikipedia500万記事に拡張 – システムは最初に適切なコンテキストを検索しなければならない • 回答タイプ︓抽出 http://www.aclweb.org/anthology/P17-1171 Danqi Chen et al. : Reading Wikipedia to Answer Open-Domain Questions. ACL (1) 2017: 1870-1879 (2019/02/15) 104
  105. ⼤規模なテキスト集合から読解に必要な段落を絞り込めるか︖ MS MARCO Passage Re-ranking (2018/11) • 質問︓Bingのクエリログ • コンテキスト︓Bingの検索結果上位1000件(スニペット)

    • タスク︓読解に必要なパッセージ(⼈間がラベル付)が上位に来るよ うにre-ranking リランキング Bing検索結果(1000件) モデルの出⼒ average pharmacy tech salary Bing 検索 クエリ 読解に必要な パッセージ リランキングで 上位に移動 105
  106. 読解の⽅向性 SQuAD(⼀問⼀答、⼀段落、回答=範囲、回答有)è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現(≠範囲)で回答できるか︖ • より「深い」推論に基づいて回答できるか︖

    • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 106
  107. コンテキストの範囲ではない候補から正しく選択できるか︖ RACE [Lai (CMU)+,EMNLP17] • 質問・コンテキスト︓中⾼⽣の試験問題から – 推論が必要な問題が多い • 回答タイプ︓選択

    – 選択肢はパッセージの部分範囲に限定されない Guokun Lai et al. : RACE: Large-scale ReAding Comprehension Dataset From Examinations. EMNLP 2017: 785-794 http://aclweb.org/anthology/D17-1082 (2019/02/15) 107
  108. 回答を⽣成できるか︖ NarrativeQA [Kociský (DeepMind)+,TACL18] • コンテキスト︓映画や本 のスクリプトと、それの ⼈⼿作成サマリ – 表記や粒度が異なる2つの

    テキスト • 質問︓サマリから作成 • 回答タイプ︓⽣成 – 元⽂書から読解するには 浅い理解(局所的なパター ンマッチング)では答えら れない Tomás Kociský et al.: The NarrativeQA Reading Comprehension Challenge. TACL 6: 317-328 (2018) http://aclweb.org/anthology/Q18-1023 (2019/02/15) 108
  109. 回答を⽣成できるか︖ MS MARCO • 質問・コンテキスト︓Bingの実クエリ (オープンドメイン)・検索結果 • 回答タイプ︓⽣成 – パッセージの範囲に限定されない(評価はRouge,

    BLEU) • Tri Nguyen et al.: MS MARCO: A Human Generated MAchine Reading COmprehension Dataset. CoCo@NIPS 2016 • Payal Bajaj et al.: MS MARCO: A Human Generated MAchine Reading COmprehension Dataset. arXiv 2018 The majority of pharmacy techs work in drug stores and hospitals, where the average annual salary was $28,940 and $34,410, respectively**. However, a higher salary can be had if you can find employment with outpatient care centers or physicians' offices, where the annual pay is in the $37,000-$39,000 range. ⼊⼒︓質問クエリ ⼊⼒︓Bing検索結果テキスト(10件): average pharmacy tech salary The majority of pharmacy techs work in drug stores and hospitals, where the average annual salary was $28,940 and $34,410, respectively**. However, a higher salary can be had if you can find employment with outpatient care centers or physicians' offices, where the annual pay is in the $37,000-$39,000 range. What can a pharmacy technician really expect to earn in today's economy? According to Salary.com, pharmacy technicians make anywhere from $26,000 to $39,000 a year, though most make around $32,000 annually. California has the highest average pharmacy technician wage, at $34,317, according to Open Farm Tech's website. システム出⼒︓ 回答⽂ [NLG] The average salary for a pharmacy technician is $26,000 to $39,000 in a year. [Q&A] From $26,000 to $39,000 a year 質問内容を含めて⽣成するNLGと、 抽出に近いQ&Aの2タスク V1 [Nguyen (Microsoft)+,CoCo@NIPS16] V2 [Bajaj (Microsoft)+,arXiv18] (2019/02/15) 109
  110. 読解の⽅向性 SQuAD è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現(≠範囲)で回答できるか︖ •

    より「深い」推論に基づいて回答できるか︖ • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 110
  111. 「答えはありません」と回答できるか︖ SQuAD 2.0 [Rajpurkar&Jia (Stanford)+,ACL18] • 質問︓SQuAD 1.1に5万件の回答不能な質問を追加 • コンテキスト︓SQuAD

    1.1に同じ • 回答タイプ︓抽出、回答不能性の判定 http://aclweb.org/anthology/P18-2124 Pranav Rajpurkar, Robin Jia, Percy Liang: Know What You Don't Know: Unanswerable Questions for SQuAD. ACL (2) 2018: 784-789 (2019/02/15) 111
  112. 複数の⽂章に跨る推論は可能か︖ HotpotQA • 質問︓2⽂書にまたがった記 述に基づく質問を⼈⼿作成 • コンテキスト︓(上記2⽂書 を含む)10⽂書 • 回答タイプ︓Yes/no、回答

    範囲抽出、根拠⽂抽出 Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W. Cohen, Ruslan Salakhutdinov, Christopher D. Manning: HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering. EMNLP 2018: 2369-2380 https://aclweb.org/anthology/D18-1259 [Yang (CMU), Qi(Stanford), Zhang(Montreal)+, EMNLP18] 112
  113. 複数の⽂章に跨る推論は可能か︖⼤規模な知識を扱えるか︖ OpenBookQA [Mihaylov (AllenAI)+, EMNLP18] • 質問︓科学の初等レベルの 問題 • コンテキスト︓

    – 質問に紐付いたものは無し。 – 2287件のWorldTree corpus[2]の知識(Science Facts) – 1400万件の科学関連の⽂章 コーパス(Common Knowledge) • 回答タイプ︓4択 [1] Todor Mihaylov, Peter Clark, Tushar Khot, Ashish Sabharwal: Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering. EMNLP 2018: 2381-2391 [2] Peter A. Jansen, Elizabeth Wainwright, Steven Marmorstein, Clayton T. Morrison: WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-hop Inference. LREC 2018 http://aclweb.org/anthology/D18-1260 113
  114. 常識が必要な読解は可能か︖ MCScript [Ostermann (Saarland⼤)+, LREC18] • 質問︓テキストだけでは理解できない常識を必要 とする質問を含む • コンテキスト︓1テキスト

    • 回答タイプ︓2択 • Simon Ostermann et al.: MCScript: A Novel Dataset for Assessing Machine Comprehension Using Script Knowledge. LREC 2018 • Simon Ostermann et al.: SemEval-2018 Task 11: Machine Comprehension Using Commonsense Knowledge. SemEval@NAACL- HLT 2018: 747-757 http://www.lrec-conf.org/proceedings/lrec2018/pdf/225.pdf http://www.aclweb.org/anthology/S18-1119 テキストには書いていない è 常識が必要 ⽊を植えるための⽳は どんな⼿段で開ける︖ 114
  115. 読解の⽅向性 SQuAD è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現(≠範囲)で回答できるか︖ •

    より「深い」推論に基づいて回答できるか︖ • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 115
  116. ⼀問⼀答ではなく、対話的なQAを⾏えるか︖ CoQA [Reddy (Stanford)+,arXiv18] • 質問︓マルチターン (QA履歴を考慮) – 話題の深掘りや転換を含む •

    コンテキスト︓童話、試験問題、 ニュース、Wikipediaなどの 1⽂書 • 回答タイプ︓⽣成、 根拠範囲の抽出、回答不能性 Siva Reddy et al.: CoQA: A Conversational Question Answering Challenge. CoRR abs/1808.07042 (2018) https://arxiv.org/pdf/1808.07042.pdf (2019/02/15) 116
  117. ⼀問⼀答ではなく、対話的なQAを⾏えるか︖ QuAC [Choi (Washington), He(Stanford)+,EMNLP18] • 質問︓マルチターン (QA履歴を考慮) – 話題の深掘りや転換を含む

    • コンテキスト︓Wikipediaのセク ション1⽂書 • 回答タイプ︓抽出、Yes/No、回 答不能性、ターンの継続性 Eunsol Choi, He He et al.: QuAC: Question Answering in Context. EMNLP 2018: 2174-2184 http://aclweb.org/anthology/D18-1241 (2019/02/15) 117
  118. マルチモーダルな読解は可能か︖ TQA [Kembhavi (AllenAI)+, CVPR17] • 質問︓教科書の問題 • コンテキスト︓マルチモーダル(テキスト+図+⽤語の定 義+概要)

    – 図中のテキストも理解しないと難しい • 回答タイプ︓選択 Aniruddha Kembhavi et al.: Are You Smarter Than a Sixth Grader? Textbook Question Answering for Multimodal Machine Comprehension. CVPR 2017: 5376-5384 http://ai2-website.s3.amazonaws.com/publications/CVPR17_TQA.pdf (2019/02/15) 118
  119. マルチモーダルな読解は可能か︖ Spoken SQuAD [Li+ (国⽴台湾⼤), Interspeech18] • 質問︓テキスト • コンテキスト︓SQuADの読み上げ⾳声

    – TTSで⾃動的に作成 – ASRで認識してテキスト空間で読解 • 回答タイプ︓ – テキスト抽出 – ⾳声区間抽出 Chia-Hsuan Lee et al.: Spoken SQuAD: A Study of Mitigating the Impact of Speech Recognition Errors on Listening Comprehension. Interspeech 2018: 3459-3463 https://arxiv.org/pdf/1804.00320.pdf 119
  120. マルチモーダルな読解は可能か︖ RecipeQA [Yagcioglu (Hacettepe Univ.)+, EMNLP18] • 質問︓レシピデータから⾃動⽣成 • コンテキスト︓レシピの画像+説明

    • 回答タイプ︓画像⽳埋め、テキスト⽳埋め、無関係画像判 定、画像並び替え(レシピ⼯程) Semih Yagcioglu et al.: RecipeQA: A Challenge Dataset for Multimodal Comprehension of Cooking Recipes. EMNLP 2018: 1358-1368 http://aclweb.org/anthology/D18-1166 120
  121. FigureQA [Kahou(Microsoft)&Michalski(U Montreal)+, ICLR18 WS] • 様々な図に関して⾃動⽣成したYes/No質問データセット • 実世界ではもっと複雑な図・⾼度な情報要求が与えられる Samira

    Ebrahimi Kahou et al.: FigureQA: An Annotated Figure Dataset for Visual Reasoning. ICLR Workshop 2018. (2019/02/15) https://arxiv.org/pdf/1710.07300 121
  122. ロボットは東⼤に⼊れるか(英語) [東中+, JSAI17] [東中+, JSAI18] [テーマセッション: 試験問題をベンチマークとする⾔語処理, NLP19] • ⼀⽂問題

    – ⽂法・語法・語彙 – 語句整序完成 – 発話⽂⽣成 • 複数⽂問題 – 会話⽂完成 – 意⾒要旨把握: RACEが有⽤ • ⻑⽂読解 – 読解(情報処理) – 内容⼀致問題 – 段落タイトル付与 • その他 – リスニング – イラスト理解 https://www.jstage.jst.go.jp/article/pjsai/JSAI 2017/0/JSAI2017_2H21/_pdf/-char/ja 概ね 解ける 東中ら, “「ロボットは東⼤に⼊れるか」プロジェクトにおける 英語科⽬の到達点と今後の課題”, 2H2-1, JSAI17 東中ら, “「ロボットは東⼤に⼊れるか」プロジェクトの英語に おける意⾒要旨把握問題の解法”, 2C1-02, JSAI18 122
  123. 参考︓英語以外のデータ • 中国語 – HLF-RC [Cui (iFLYTEK)+, COLING16] ※リンク切れ︖ –

    DuReader [He (Baidu)+, MRQA@ACL18] • http://ai.baidu.com/broad/subordinate?dataset=dureader • ⽇本語 – 解答可能性付き読解データセット [鈴⽊(東北⼤)+,NLP18] • http://www.cl.ecei.tohoku.ac.jp/rcqa/ – Multilingual SQuAD [Asai+, arXiv18][浅井(東⼤)+,NLP19] • https://github.com/AkariAsai/extractive_rc_by_runtime_mt – ロボットは東⼤に⼊れるか • https://21robot.org/dataset.html – リーディングスキルテスト • https://www.s4e.jp/ 123
  124. 代表的なleaderboardの状況 • SQuAD 2.0 (抽出型) • CoQA (対話型) • MS

    MARCO (⽣成型・検索) 124
  125. 「答えはありません」と回答できるか︖ SQuAD 2.0 [Rajpurkar (Stanford)+,ACL18] 1-21位 までBERT を利⽤︕ • BERTが⼤流⾏中

    • 読解特化モデルの⼊⼒特徴として利⽤され るものも多いが、単純にBERTをfine- tuningしても強⼒ BERT登場 後、3ヶ⽉ で10% アップ https://rajpurkar.github.io/SQuAD-explorer/ (2019/2/15) 125
  126. ⼀問⼀答ではなく、対話的なQAを⾏えるか︖ CoQA [Reddy (Stanford)+,arXiv18] https://stanfordnlp.github.io/coqa/ 1-7位 までBERT • 対話型読解でもBERTが⼤流 ⾏中

    • 1位はSQuAD 2.0と同じ • ⾊々と⼯夫して対話に特化 したモデルよりもナイーブ にBERTを導⼊したモデルが 今のところ強い (2019/2/15) 126
  127. ⼤規模なテキスト集合から読解に必要な段落を絞り込めるか︖ MS MARCO Passage Re-ranking (2018/11) • 読解の前段となる(中規模)検索タスクでもBERTがトップ • クエリを⽂A、パッセージを⽂Bに⼊れたBERTがIRに特化した従来モ

    デルの性能を⼤きく超える BM25: 基本的なキーワードマッチモデル IR特化 モデル (2019/2/15) http://www.msmarco.org/leaders.aspx 127
  128. • BERTが⾸位ではない – MS MARCO: パッセージが10件&回答が範囲抽出ではなく⽣成 • 抽出型読解などの系列ラベリング問題に⽐べると、⽣成タスクでは BERTの導⼊はまだ進んでいない印象 –

    (ただし、すぐ進むとは思われる) – 特徴として︖BERTを使うものが3位に来ている http://www.msmarco.org/leaders.aspx 回答を⽣成できるか︖ MS MARCO [Nguyen (Microsoft)+,CoCo@NIPS16] [Bajaj (Microsoft)+,arXiv18] (2019/2/15) 128
  129. このセクションのまとめ • SQuAD以降、より実践的な問題設定へ拡張されている – 複数のテキスト(+α)から、 複数の⽂章の深い理解に基づいて、 テキストの部分範囲に限定されない柔軟な回答を志向している • BERTですべて解決されたわけではない –

    ⻑⽂・複数⽂書の理解や、回答の⽣成 – その⼀⽅、範囲抽出や回答選択(分類問題)はBERTの得意分野 129
  130. ⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか •

    データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 130
  131. NTTにおける取り組み例 • 技術を磨く⼀環として、コンペに積極的に参加中 • MS MARCO v2の機械読解2タスクで現在⾸位 http://www.msmarco.org/leaders.aspx ※21機関中1位(2019/03/09) 131

  132. NTTにおける取り組み例 132 • 根拠抽出+マルチホップ読解のHotpotQA、対話型機械読 解のQuACでも⾸位獲得 ※6チーム中⾸位 (2019/03/09) https://quac.ai/ ※6チーム中⾸位 (2019/03/09)

    https://hotpotqa.github.io/
  133. 検索 FAQ集 実⽤化への展望︓コンタクトセンタAI お客様 電話 チャット コンタクトセンタ 質問 契約書・マニュアルなど 検索+読解

    オペレータ 応答 質問 ⽀援 AI • コンタクトセンタAIへの機械読解の導⼊に向けて様々な 課題に取り組み中 L 抽出のみでは 回答不能な質問 L AI回答の根拠 がわからない L 質問意図 が不明確 L ⻑さや回答ス タイルに制約 L ⽂書が⼤量に ある 133
  134. ⼤規模機械読解 [⻄⽥京介+,NLP18][Nishida+, CIKM18] ⼤規模テキスト集合 (知識源) 【質問】あんしん保険の弁護⼠費⽤ 特約はどのような場合に対象外にな りますか︖ 【応答】事故の相⼿が不明である場 合など、相⼿の⽅に法律上の損害賠

    償請求を⾏うことができない時 読解(回答抽出) 検索 あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保 険契約者が怪我などをされたり、⾃らが所有する⾃動⾞・家 屋などの財物を壊されたりすることによって、相⼿の⽅に法 律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、 弁護⼠などへの法律相談・書類作成費⽤などを保険⾦として お⽀払いする特約です。ただし、保険⾦のお⽀払い対象とな る費⽤に関しては、当社の同意を得た上で⽀出された費⽤に 限ります。また、事故の相⼿が不明である場合など、相⼿の ⽅に法律上の損害賠償請求を⾏うことができない時は、本特 約は対象外となりますのでご注意ください。 関連テキスト あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保 険契約者が怪我などをされたり、⾃らが所有する⾃動⾞・家 屋などの財物を壊されたりすることによって、相⼿の⽅に法 律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、 弁護⼠などへの法律相談・書類作成費⽤などを保険⾦として お⽀払いする特約です。ただし、保険⾦のお⽀払い対象とな る費⽤に関しては、当社の同意を得た上で⽀出された費⽤に 限ります。また、事故の相⼿が不明である場合など、相⼿の ⽅に法律上の損害賠償請求を⾏うことができない時は、本特 約は対象外となりますのでご注意ください。 • 多数のテキストから読解を⾏うシステムの提案 • キーワード検索+ニューラルリランキング+読解のマルチタスク学習 • Wikipedia全体を知識源としたSQuAD fullでSOTAを達成(当時) ⻄⽥京介ら, “情報検索とのマルチタスク学習による⼤規模機械読解”,⾔語処理学会第24回年次⼤会, D5-2, March 2018. Kyosuke Nishida et al.: Retrieve-and-Read: Multi-task Learning of Information Retrieval and Reading Comprehension. CIKM 2018: 647-656 134
  135. 複数スタイルによる⽣成型読解 [⻄⽥京介+,NLP19 B1-1(3/13)] 少量のテキスト知識源 【質問】レッカー移動はいつ でも対応して貰えるの︖ 【⾃然な⽂章で応答】はい、レッカー移動 は24時間365⽇対応可能です。 読解(⽣成) •

    回答スタイルを制御可能な⽣成型モデルの提案 • MS MARCO Q&Aタスク、NLGタスクの2つでSOTA 保険契約の対象となる⾞が事故・故障・トラブル等で⾛⾏不能になっ た場合に、専⽤デスクにお電話頂ければ、業者を⼿配して牽引や応急 処置を⾏うサービス特約です。基本契約に必ず付帯されます。 ⾞両牽引サービスと付帯サービス(応急対応サービス、燃料切れ時ガ ソリン給油サービス、臨時宿泊サービス、トラブル相談サービス)か らなり、24時間365⽇対応致しております。各サービスについての詳 細は以下の表をご覧下さい。(JAF会員の⽅にはサービスに追加の優 遇措置が設けられております。) 【簡潔に応答】はい 応答時に スタイルを 指定可能 Kyosuke Nishida et al.: Multi-style Generative Reading Comprehension. CoRR abs/1901.02262 (2019) ⻄⽥京介ら: "回答スタイルを制御可能な⽣成型機械読解",⾔語処理学会第25回年次⼤会(NLP2019), B1-1, March 2019. 135
  136. 複数スタイルによる⽣成型読解 [Nishida+, arXiv19] [⻄⽥京介+,NLP19 B1-1(3/13)] • Transformerベースのpointer-generator。パッセージのリランキン グと回答不能性の学習をマルチタスク学習 • 複数スタイルのデータを同時に学習することで精度向上

    語彙、質問・パッセージからのコピー をステップ毎に、指定スタイル(先頭 トークンで指定)に応じて制御 https://arxiv.org/pdf/1901.02262.pdf 136
  137. 根拠を抽出可能な抽出型読解 [⻄⽥光甫+,NLP19 B1-3(3/13)] • はい/いいえ/回答範囲の抽出を⾏う際、根拠となる⽂を複数提⽰可能 • HotpotQA [Yang, Qi, Zhang+,EMNLP18]の2タスクでSOTA

    【質問】おじいちゃんの癌が ⾒つかったのですが私の保険 で⼊院費⽤をもらえますか︖ 【根拠】⼆親等以内の親族の放射線治療は ⼊院給付⾦⽇額の10 倍を補償します. 【応答】はい. 【根拠】放射線治療は癌の主要な治療法の ひとつである. 回答& 根拠⽂の発⾒ 知識源となるテキスト集合 ⻄⽥光甫ら, "抽出型要約との同時学習による回答根拠を提⽰可能な機械読解",⾔語処理学会第25回年次⼤会(NLP2019), B1-3, March 2019. 137
  138. クエリ・出⼒⻑を指定した⽂書要約 [⻫藤いつみ+,NLP19 P2-11(3/14)] • 要約の焦点を与えるクエリおよび出⼒⻑の指定を⾏う要約 • クエリだけ、⻑さだけの指定も可 【質問】レッカー移動はいつ でも対応してもらえるの︖ 【⻑さ】30単語

    【応答】はい、⾞両牽引サービスは24時 間365⽇対応致しております。専⽤デスク にお電話頂ければ、業者を⼿配します。 保険契約の対象となる⾞が事故・故障・トラブル等で⾛⾏ 不能になった場合に、専⽤デスクにお電話頂ければ、業者 を⼿配して牽引や応急処置を⾏うサービス特約です。基本 契約に必ず付帯されます。 ⾞両牽引サービスと付帯サービス(応急対応サービス、燃 料切れ時ガソリン給油サービス、臨時宿泊サービス、トラ ブル相談サービス)からなり、24時間365⽇対応致してお ります。各サービスについての詳細は以下の表をご覧下さ い。(JAF会員の⽅にはサービスに追加の優遇措置が設け られております。) 要約対象テキスト クエリと⻑さを 考慮して要約 ⻫藤ら, "クエリ・出⼒⻑を考慮可能な⽂書要約モデル", ⾔語処理学会第25回年次⼤会(NLP2019), P2-11, March 2019. 138
  139. 質問の意図を明確にする改訂質問⽣成 [⼤塚淳史+,DEIM18&19][Otsuka+, RCQA@AAAI19] • 質問が曖昧な場合に、質問対象テキストに基づいて具体的な質問を⽣成 パケットプランの解約について 2年間同⼀回線の継続利⽤が条件と なり、契約期間内での回線解約・ 定期契約のない料⾦プランへの変 更時などには、9,500円の解約⾦

    がかかります。ただし、更新⽉の ときには無料になります。 【質問】 解約⾦はいくら︖ 契約期間内での回線解約・定期契 約のない料⾦プランへの変更時の 解約料⾦はいくら︖ 具体的な質問1 A. 9500円 更新⽉のときの解約⾦はいくら︖ A. 無料 具体的な質問2 ⼤塚ら, ”質問の意図を特定するニューラル質問⽣成モデル", 第10回データ⼯学と情報マネジメントに関する フォーラム(DEIM2018), F1-4, March 2018. Atsushi Otsuka et al., "Specific Question Generation for Reading Comprehension", in Proceedings of the AAAI 2019 Reasoning for Complex QA (RCQA) Workshop, Honolulu, Hawaii, USA, January 2019. ⼤塚ら, ”問い返し可能な質問応答︓読解と質問⽣成の同時学習モデル", 第11回データ⼯学と情報マネジメントに 関するフォーラム(DEIM2019), A3-3, March 2019. 139
  140. 質問の意図を明確にする改訂質問⽣成 [⼤塚淳史+,DEIM18&19][Otsuka+, RCQA@AAAI19] 改訂質問2 改訂質問1 140

  141. NTTにおける取り組み例 • 機械読解をチャットボット応対への導⼊を検討(トライアルレベル) ボットの回答と共に、 マニュアル上の回答部分 をハイライトして表⽰ 質問を⼊⼒すると ボットが回答 141

  142. ⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか •

    データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 – ⾃然⾔語理解へ – ⾃然⾔語理解を超えて 142
  143. 個別のタスクから⾃然⾔語理解へ • 特にBERTの登場以降、⾃然⾔語理解タスクの全般に利⽤ 可能な技術への注⽬が⾼まる • ⾃然⾔語理解の共通的な⾔語モデルと知識ベースを基に、 どうやって応⽤タスクに少サンプルで適応するか︖ • タスク間でも⾃然⾔語理解能⼒を共有できないか︖ ⾔語モデル・知識ベース

    読解 含意 換⾔ 要約 翻訳 対話 143
  144. General Linguistic Intelligence [Yogatama(DeepMind)+,arXiv(2019/01/31)] BERTを事前学習しても SQuADに適応するには 万単位のサンプルが必要 BERTの構造でゼロから 学習すると80000サンプル (1epoch)では全く⾜りない

    他の読解タスクで教師あり 学習しても、結局、万単位 のサンプルが必要 Dani Yogatama et al. : Learning and Evaluating General Linguistic Intelligence. CoRR abs/1901.11373 (2019) https://arxiv.org/pdf/1901.11373.pdf 過去に獲得した⾔語知能を⾼速に新タスクへ適応できるか︖ SQuADの精度 SQuADの学習サンプル数 144
  145. General Linguistic Intelligence [Yogatama(DeepMind)+,arXiv(2019/01/31)] SQuAD学習モデル を他データで評価 すると性能低い è 汎⽤的な能⼒を 獲得できていない

    SQuADと⼀緒にマ ルチタスク学習す ると性能は良い F1(EM) F1 BERT→SQuADの状態でTriviaQAを追加 学習させると、SQuADの能⼒は⼤きく 落ちる(Catastrophic forgetting) 読解の精度 TriviaQAの学習サンプル数 145
  146. Natural Language Decathlon (decaNLP) [McCann(Salesforce)+, arXiv18] • 様々なNLPのタスクをすべて"QA"としてマルチタスク学習 Bryan McCann

    et al.: The Natural Language Decathlon: Multitask Learning as Question Answering. CoRR abs/1806.08730 (2018) https://arxiv.org/pdf/1806.08730 機械読解 機械翻訳 ⽂書要約 含意認識 感情分類 その他5タスク 146
  147. GPT-2 [Radford+, OpenAI Tech.Rep. 2019/02/14] • 超⼤規模コーパス(800万件Web⽂書)に基づく、 超⼤型サイズ(48層1600次元)のGPT(単⽅向Transformer) • ⾔語モデル単体としてSOTA

    + zero-shotで様々なタスクにある程度 適応可能 テキストコーパスに⾃然に含まれてい る英⇔仏の翻訳に関するテキスト è Zero-shot翻訳を可能にする ⾔語モデルとして下記タスクを解く • 読解 – ⽂書+質問+“A:” → 回答 – CoQAで55 F1 • 要約 – 元⽂+“TL;DR:” → 要約⽂ – CNN/DMで26.58 Rouge-L • 翻訳 – 元⽂+“english sentence =“ → 訳⽂ – WMT14 Fr->Enで11.5 BLEU https://d4mucfpksywv.cloudfront.net/better-language-models/language- models.pdf Alex Radfordet al.: Language Models are Unsupervised Multitask Learners, OpenAI Tech. Report, 2019. 147
  148. MT-DNN (BigBird) [Liu&He(Microsoft)+,arXiv 2019/02/01] • BERTのfine-tuningをマルチタスク化することでGLUEにてBERT越え Xiaodong Liu et al.:

    Multi-Task Deep Neural Networks for Natural Language Understanding. CoRR abs/1901.11504 (2019) https://arxiv.org/pdf/1901.11373.pdf https://gluebenchmark.com/leaderboard Pre-trained BERT Multi-task Fine-tuning 148
  149. 外部知識の活⽤ [Mihaylov+, ACL18][Bauer&Wang+,EMNLP18] • ConceptNetをcommonsenseの 外部知識として読解に組み込む è まだ⼤きな性能改善には繋がっていない Todor Mihaylov,

    Anette Frank: Knowledgeable Reader: Enhancing Cloze-Style Reading Comprehension with External Commonsense Knowledge. ACL (1) 2018: 821-832 Lisa Bauer, Yicheng Wang, Mohit Bansal: Commonsense for Generative Multi-Hop Question Answering Tasks. EMNLP 2018: 4220- 4230 Robert Speer, Joshua Chin, Catherine Havasi: ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. AAAI 2017: 4444-4451 commonsense reasoing [Bauer&Wang+, EMNLP18] http://aclweb.org/anthology/D18-1454 Knowledgeable Reader [Mihaylov+,ACL18] http://aclweb.org/anthology/P18-1076 各単語にsingle-hopで 知識を埋め込み 各単語にmulti-hopで 知識を埋め込み 149
  150. ⾃然⾔語理解を超えて 150 • テキストの意味理解を超えたスキルを必要とする 質問応答への展望 – 数学・集計・論理などの演算能⼒ – 図・表・データベースの理解 ⾃然⾔語理解

    演算能⼒ DB・表 図
  151. DROP [Dua(UCI)+,arXiv(2019/03/01)] 151 • 加算、減算、カウ ント、ソートなど 演算能⼒が必要な 読解データセット • 演算もニューラル

    に任せるべきなの か︖ Dheeru Dua et al.: DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs, arXiv https://arxiv.org/pdf/1903.00161.pdf
  152. Spider [Yu(Yale U)+,EMNLP18] 152 • 複雑なクエリを含む Text-to-SQL (Semantic Parsing)のデータセット •

    機械読解の研究として、 知識源がテキスト+デー タベースに拡張された設 定に拡張できるか︖ https://arxiv.org/pdf/1809.08887 Tao Yu et al.: Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task. EMNLP 2018: 3911-3921
  153. DVQA [Kafle(Adobe)+,CVPR18] 153 • 図で可視化された データの理解 • ⼈⼯的に⽣成 • ラベルテキストの

    ⽂字認識も必要 • テキストとビジュ アル、数値演算を どう融合させる か︖ Kushal Kafle, Brian L. Price, Scott Cohen, Christopher Kanan: DVQA: Understanding Data Visualizations via Question Answering. CVPR 2018: 5648-5656 http://openaccess.thecvf.com/content_cvpr_ 2018/papers/Kafle_DVQA_Understanding_D ata_CVPR_2018_paper.pdf
  154. Visual Commonsense Reasoning [Zellers (U Washington)+, arXiv18] • ⾔語+常識+ビジョンの理解 •

    ⾔語モデルと画像特徴量だけで ⽴ち向かえるのか︖ Rowan Zellers, Yonatan Bisk, Ali Farhadi, Yejin Choi: From Recognition to Cognition: Visual Commonsense Reasoning. CoRR abs/1811.10830 (2018) 画像と質問に対して、 回答と理由を選択 154
  155. おわりに 機械読解とは、テキストを知識源とした 質問応答タスクで、⾃然⾔語理解への挑戦 ニューラル機械読解は、まだ⼈間のレベルを超えていない。 現状のモデルはパターンマッチング的な挙動 データが不⾜しているのか︖ モデルが未熟なのか︖ BERTは凄いが、全てが解決したわけではない。 機械読解においては複数⽂・⻑⽂理解や回答⽣成が課題 SQuAD以降、より現実的な設定のデータセットが次々に

    (30件以上)発表されている。何が重要な課題か︖ ⾔語モデル/知識ベース/他データセットをどのように 読解へ転移・適応させるか︖⾔語を超えた理解との融合は︖ 155
  156. 謝辞 • 今回のチュートリアルに際して、菅原 朔さん(東⼤ / 理研AIP)に機械読解データセットやモデルに関して、 ⼤変貴重なご意⾒を伺いました。⼼より感謝致します。 • ⽇頃よりディスカッション頂いている皆様に感謝します。 –

    NTTメディアインテリジェンス研究所の皆様 ⻫藤いつみさん、⼤塚淳史さん、⻄⽥光甫さん、⼤杉康仁さん、 ⻑⾕川拓さん、野本成央さん、浅野久⼦さん、富⽥準⼆さん – インターンシップにて機械読解に取り組んで頂いた 皆様 篠⽥⼀聡さん、Wang Haoさん、千々和⼤輝さん、伊藤淳さん 156
  157. Copyright@2019 NTT corp. All Rights Reserved. ご清聴ありがとうございました ⽇本電信電話株式会社 NTTメディアインテリジェンス研究所 ⻄⽥

    京介 E-mail: kyosuke.nishida@acm.org Twitter: @kyoun