Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械読解の現状と展望 / A Talk on Machine Reading Compreh...

機械読解の現状と展望 / A Talk on Machine Reading Comprehension (NLP2019)

言語処理学会第25回年次大会(NLP2019)チュートリアル(2019年3月12日)

Kyosuke Nishida

March 12, 2019
Tweet

More Decks by Kyosuke Nishida

Other Decks in Technology

Transcript

  1. ⾃⼰紹介︓⻄⽥京介 2 • 2009年NTT⼊社。現在、NTTメディアインテリジェンス 研究所(@横須賀) 主任研究員(特別研究員) • 2年前から機械読解の研究を開始、モデリングに興味 • 機械読解のコンペ(公開データセット)に積極的に参加中

    主な取組(★はチームメンバの成果) リーダーボード有り ・MS MARCO Q&A Task: 現在1位 ・MS MARCO Q&A+NLG Task: 現在1位 ★HotpotQA Distractor Setting: 現在1位 ★HotpotQA FullWiki Setting: 現在4位(最⾼1位) ★QuAC: 現在1位 リーダーボード無し ・SQuAD-Open (full Wikipedia): 投稿時1位
  2. ⽬次 • 機械読解とは何か – 注⽬の理由、流⾏の経緯 • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか •

    ニューラル読解はどの程度のレベルにあるのか • データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 本チュートリアルでは、代表的なデータセットや モデルの解説と最新の研究成果の紹介を⾏い、 これまでの研究の到達点と今後の展望について議論します。 3
  3. 機械読解とは • (Machine) Reading Comprehension • テキストを知識源とした⾃然⾔語理解に基づく質問応答 【⼊⼒︓質問】あんしん保険 の弁護⼠費⽤特約はどのよう な場合に対象外になります

    か︖ 【出⼒︓応答】事故の相⼿が 不明である場合など、相⼿の ⽅に法律上の損害賠償請求を ⾏うことができない時 【⼊⼒︓テキスト】 あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保険契約者が怪我などをされ たり、⾃らが所有する⾃動⾞・家屋などの財物を壊されたりすることによって、相⼿の ⽅に法律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、弁護⼠などへの法律 相談・書類作成費⽤などを保険⾦としてお⽀払いする特約です。ただし、保険⾦のお⽀ 払い対象となる費⽤に関しては、当社の同意を得た上で⽀出された費⽤に限ります。ま た、事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことが できない時は、本特約は対象外となりますのでご注意ください。 あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保険契約者が怪我などをされ たり、⾃らが所有する⾃動⾞・家屋などの財物を壊されたりすることによって、相⼿の ⽅に法律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、弁護⼠などへの法律 相談・書類作成費⽤などを保険⾦としてお⽀払いする特約です。ただし、保険⾦のお⽀ 払い対象となる費⽤に関しては、当社の同意を得た上で⽀出された費⽤に限ります。ま た、事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことが できない時は、本特約は対象外となりますのでご注意ください。 4
  4. データセット数の増加 0 5 10 15 20 2013 2014 2015 2016

    2017 2018 2019 データセット数 発表年 (個⼈的な調査; 2019/02/15) • 様々な着眼点のデータセットが⼤量に作成されている • データセットの構築により機械読解分野は急発展 12
  5. SQuAD 1.1 [Rajupurkar+, EMNLP16] • リリース直後から、コミュニティにて⼤きな注⽬を集めた – 特に、⼈⼿で作成された⼤規模データであったことが理由 ⼊⼒︓テキスト ⼊⼒︓質問

    出⼒︓回答 Wikipediaの段落(平均140単語) 無料で公開 クラウドソーシングで作成した 100,000件以上の質問・回答ペア テキスト中の任意の 範囲を抽出して回答 14
  6. • リリース直後から急速に成⻑。本会議前に⾮DNNのベー スラインから30%精度向上,発表1年後には⼈間に迫る リリース後の最⾼精度の変化 40 50 60 70 80 90

    100 6/1/2016 7/1/2016 8/1/2016 9/1/2016 10/1/2016 11/1/2016 12/1/2016 1/1/2017 2/1/2017 3/1/2017 4/1/2017 5/1/2017 6/1/2017 7/1/2017 8/1/2017 9/1/2017 10/1/2017 Machine (EM) Machine (F1) Human (EM) Human (F1) ⼈間:EM(完全⼀致) ⼈間:F1(部分⼀致) ⾮DNN F1 51.0% DNN 70.7% EMNLPʼ16で発表 arXivで発表 (個⼈的な調査) 16
  7. 2018年1⽉︓「⼈間超え」 • Alibaba[1]とMicrosoft[2]が同時期に⼈間の完全⼀致のス コアを超え、メディアで報じられる https://wired.jp/2018/02/08/ai-beat-humans-at-reading/ https://forbesjapan.com/articles/detail/19346 https://www.cnn.co.jp/tech/35113360.html [1] Wei Wang,

    Chen Wu, Ming Yan: Multi-Granularity Hierarchical Attention Fusion Networks for Reading Comprehension and Question Answering. ACL (1) 2018: 1705-1714 [2] Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang, Ming Zhou: Gated Self-Matching Networks for Reading Comprehension and Question Answering. ACL (1) 2017: 189-198 17
  8. 2018年10⽉︓ BERTの衝撃 • BERTが登場。読解に特化したニューラルネット構造を持 たずに、⼈間のスコアを部分⼀致でも⼤きく超える 完全⼀致 部分⼀致 ⼈間のスコア BERTのスコア Jacob

    Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR abs/1810.04805 (2018) https://rajpurkar.github.io/SQuAD-explorer/ 18
  9. ⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか – どのように作られたのか – 読解にはどのような能⼒が必要なのか •

    機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか • 最新のデータセットと研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 著者らの分析 その後の研究 での分析 19
  10. Copyright@2019 NTT corp. All Rights Reserved. SQuAD: 100,000+ Questions for

    Machine Comprehension of Text Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang Stanford Univ. EMNLP 2016 (arXiv: 2016/06) https://arxiv.org/abs/1606.05250 (2019/02/15)
  11. SQuAD 1.1 [Rajupurkar+, EMNLP16] • テキストに関する質問に、回答範囲を抽出して答える ⼊⼒︓段落 (コンテキスト、パッセージ) ⼊⼒︓質問 出⼒︓回答

    Wikipediaの段落 (平均140単語) クラウドソーシングで作成した 100,000件以上の質問・回答ペア テキスト中の任意の範囲で 回答(選択肢は無し) 21
  12. 段落の収集⽅法 • 英語Wikipediaを収集対象とする 1. Project Nayuki ( https://www.nayuki.io/ )の内部 PageRankを⽤いて上位10,000記事を収集

    2. ランダムに536記事をサンプリング – 画像・表は削除 – 500⽂字未満の段落を削除 3. 最終的に23,215段落(43段落/記事)を収集 記事タイトル の⼀部 22
  13. 質問・応答ペアの作成 • Amazon Mechanical Turk をバックエンドとするDaemo ( https://www.daemo.org/home )プロジェクトを利⽤ 1.

    クラウドワーカを選定 – 過去に1,000タスク以上実施、97%以上の承認率、アメリカ・カ ナダ在住のワーカ 2. ワーカに1記事中の複数段落をまとめてアサイン – 各段落に4分を費やし、最⼤5件のQAペア作成を要求 – 記事完了に要した時間に対して、9ドル/時 を⽀払い • 例えば43段落の記事だと、3時間弱程度のタスク 23
  14. 統計情報 • Trianing (80%) / Dev (10%) / Test (10%)に分割

    質問は11単語程度 (基本的に⽂形式) 1段落あたり140単語 =5⽂程度 回答は3単語程度と短い Kyosuke Nishida, Itsumi Saito, Atsushi Otsuka, Hisako Asano, Junji Tomita: Retrieve-and-Read: Multi-task Learning of Information Retrieval and Reading Comprehension. CIKM 2018: 647-656 ※単語数はStanford CoreNLP tokenizerで トークナイズしてカウント 26
  15. 回答にはどのような能⼒が必要か (著者らの分析) 1. 語彙のバリエーションの理解 類義語の理解 called / referred 世界知識が必要 The

    European … Unionが "governing bodies"であると いう理解 下線部分は クラウドワーカが 正解としたもの 28 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析 (各データは1つ以上のカテゴリに属する)
  16. 回答にはどのような能⼒が必要か (著者らの分析) 3. 複数の⽂にまたがる推論 – 照応や複数⽂の⾼レベルの理解が必要なもの 照応が必要 "They"は"The V&A …

    galleries"であるという理解 下線部分は クラウドワーカが 正解としたもの 30 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析 (各データは1つ以上のカテゴリに属する)
  17. この章のまとめ • SQuAD 1.1(2016/06発表)はリリース直後から⼤きな 注⽬を集め、発表から1年半程度で⼈間のスコアに匹敵す るに⾄った • データはクラウドソーシングにて作られ、回答はテキスト 中の任意の範囲で与えられる •

    主に語彙や構⽂のバリエーションの理解が重要と主張 è 後に、回答の難しさや必要なスキルについて多数の研究報告あり • タスク設定上、⼈間でもミスをするようになっている – テスト時は120秒/5問で回答、1.5時間程度連続 33
  18. Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介(1) Bidirectional Attention Flow

    for Machine Comprehension Minjoon Seo1 Aniruddha Kembhavi2 Ali Farhadi1,2 Hannaneh Hajishirzi2 1 Univ. Washington 2 Allen Institute for Artificial Intelligence ICLR 2017 (arXiv: 2016/11) https://arxiv.org/abs/1611.01603 (2019/02/15)
  19. 概要 • タスク︓ – 機械読解。コンテキスト(段落あるいはパッセージとも呼ぶ)に 関する質問に対して、回答範囲の始点、終点を予測する。 • 提案︓ – Bi-Directional

    Attention Flow(BiDAF)モデルの提案。 • 特徴︓ – 質問→コンテキスト、コンテキスト→質問のように、双⽅向にア テンションを⾏う。 • 評価︓ – SQuAD1.1 で当時最⾼(2017/2/22) • 完全⼀致︓73.7%(⼈間︓82.2%, 前1位: 71.6%) • 部分⼀致︓81.5%(⼈間︓91.2%, 前1位: 80.4%) • 1位防衛期間: 20⽇程度 シンプルな構成、ソース公開で主流へ 39
  20. 1. 単語埋め込み層 ⼊⼒︓コンテキスト(T単語)、質問(J単語) 処理︓2つのレベルで埋め込む 1. 単語埋め込み – 事前学習した100次元のGloVe を利⽤ 2.

    ⽂字列埋め込み (OOVの解決に有効) – 1次元のCNN(カーネルサイズ5)を利⽤ 出⼒︓各埋込を結合→Highway Network – コンテキスト表現 ∈ !×# – 質問表現 ∈ !×$ “comprehension” GloVe 100次元 CNN 100次元 “comprehension” Max-pooling concat highway 200次元ベクトル 200次元 41
  21. ⼊⼒︓ – コンテキスト(T単語)表現 ∈ !×# – 質問(J単語)表現 ∈ !×$ 処理︓

    – 質問・コンテキストの単語系列をそれぞれ双⽅向LSTMで符号化 出⼒︓ – コンテキスト表現 ∈ %!×#、質問表現 ∈ %!×$ 2. ⽂脈埋め込み層 単語埋め込み(d=200次元) 双⽅向の状態ベクトル(2d=400次元) 順⽅向LSTM (初期値0) 逆⽅向LSTM (初期値0) 43
  22. ⼊⼒︓ – コンテキスト(T単語) ∈ %!×#、質問(J単語) ∈ %!×$ – 類似度⾏列 ∈

    #×$ 処理︓Context2Query 1. 類似度⾏列 ∈ #×$を列⽅向にsoftmax 2. コンテキストの各単語(t)毎に、質問の単語系列をアテンション プーリング ( ∈ %!×# 3. アテンション層(2/4; ⽂章→質問) コンテキスト 質問 1. 2. 直感的には、コンテキストの各単語ごとに、 質問の中で関連する単語を強調する操作 46
  23. ⼊⼒︓ – コンテキスト(T単語) ∈ %!×#、質問(J単語) ∈ %!×$ – 類似度⾏列 ∈

    #×$ 処理︓Query2Context 1. ∈ #×$を列⽅向に最⼤値取得→⾏⽅向に正規化 2. コンテキストの単語系列をアテンションプーリング + ℎ ∈ %! 3. コンテキストの単語数分タイリング ( ∈ %!×# 3. アテンション層(3/4; 質問→⽂章) コンテキスト 質問 1. 2. 3. T単語分に複製 直感的には、質問のいずれかの単語に 強く関連するコンテキスト単語を強調する操作 47
  24. ⼊⼒︓ – (アテンション前の)コンテキスト表現 ∈ × – 双⽅向アテンションの出⼒ ( ∈ ×、(

    ∈ × 処理︓ 1. 3表現を各コンテキスト単語ごとに連結して ∈ )!×#を出⼒ 3. アテンション層(4/4; 最終出⼒) アテンション前の表現H も含めることが重要 48
  25. ⼊⼒︓ – 質問に基づいたコンテキスト表現 ∈ )!×# 処理︓ – 2層の双⽅向LSTMで符号化 出⼒︓ –

    質問に基づいたコンテキスト表現 ∈ %!×# 4. モデリング層 この状態で、回答範囲の始点が計算可能な状態 50
  26. ⼊⼒︓ – 質問に基づいたコンテキスト表現 • アテンション層の出⼒ ∈ !"×$ • モデリング層の出⼒ ∈

    %"×$ 処理︓ 1. G, Mに基づき、各単語位置毎に線形変換して正規化 出⼒︓ – 始点の確率分布 * ∈ # 5. 出⼒層(1/2; 始点) Super Bowl 50 was an American football game to determine … コンテキスト 52
  27. ⼊⼒︓ – 質問に基づいたコンテキスト表現 • アテンション層の出⼒ ∈ !"×$ • モデリング層の出⼒ ∈

    %"×$ 処理 1. 回答の始点を条件とするイメージでMにさらにLSTMを作⽤させて 終点⽤のモデリングをし ! ∈ !"×$ を得る 2. G, Mに基づき、各単語位置毎に線形変換して正規化 出⼒︓ – 終点の確率分布 ! ∈ $ 5. 出⼒層(2/2; 終点) Super Bowl 50 was an American football game to determine … コンテキスト M 始点p1 終点p2 M2 G 53
  28. BiDAFのまとめ • 質問、コンテキストをそれぞれエンコーディングし て双⽅向アテンションにより単語レベルでマッチン グを取る • モデリング・出⼒層にて、 – クエリタイプと回答範囲の局所的なパターンマッチング –

    ⼤域的なsaliency を獲得し回答範囲の始点・終点を決定するイメージ • 精度の良さ、モデルのシンプルさ、およびコード公 開によりベースラインモデルとして定着した 57
  29. Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介(2) QANet: Combining Local

    Convolution with Global Self-Attention for Reading Comprehension Adams Wei Yu1, David Dohan2, Minh-Thang Luong2, Rui Zhao2, Kai Chen2, Mohammad Norouzi2, Quoc V. Le2 1 Carnegie Mellon University 2 Google Brain ICLR 2018 (arXiv: 2018/04) https://arxiv.org/abs/1804.09541 (2019/2/15)
  30. 概要 • タスク︓ – 機械読解。コンテキスト(段落あるいはパッセージとも呼ぶ)に 関する質問に対して、回答範囲の始点、終点を予測する。 • 提案︓ – 新モデルQANetの提案

    – Data augmentation⼿法の提案 • 特徴︓ – RNNをconvolutionとself-attentionに置き換え130層超の構成 – 翻訳モデルを活⽤して英→仏→英でデータを増加 • 評価︓ – SQuAD1.1 で当時最⾼(2018/3/19)、完全⼀致で⼈間超え • 完全⼀致︓83.9%(⼈間︓82.2%, 前1位: 82.5%) • 部分⼀致︓89.7%(⼈間︓91.2%, 前1位: 89.3%) • 1位の防衛期間: 4ヶ⽉程度 59
  31. アーキテクチャの全体図 ⼊⼒ 出⼒ コンテキスト 質問 回答始点 回答終点 1. 単語 埋込み

    2.⽂脈 埋込み 3. アテ ンション 4. モデ リング 5. 出⼒ • 構造はBiDAFと同じ • ⽂脈埋め込み、モデ リング層で使う LSTMを変更 60
  32. QANet: local conv+global self-att Self-attention ⼤域的な関係性 を捉える Convolution ⽂中の局所的な 関係性を捉える

    FFN モデルの表現能 ⼒を⾼める Position- embedding 各単語の"位置" を符号化 • LSTMの代わりに 右図のエンコーダ ブロックを利⽤ • Transformer[1]のブ ロックにconvolution を追加した構成 [1] Ashish Vaswani et al. : Attention is All you Need. NIPS 2017: 6000-6010 61
  33. 特徴1) Self-attention • 2018年前半にSQuADのEM指標で⼈間スコアを越えてき た3⼿法は"Self-attention"機構を共通点として持つ – QANet(Google; 2018/03にリーダーボード投稿) – SRQA

    (Alibaba; 2018/01にリーダーボード投稿) [1] – R-NET (Microsoft; 2018/01にリーダーボード投稿) [2] コンテキスト 質問 コンテキスト コンテキスト 通常のアテンション(マッチング) セルフアテンションのイメージ [1] Wei Wang, Chen Wu, Ming Yan: Multi-Granularity Hierarchical Attention Fusion Networks for Reading Comprehension and Question Answering. ACL (1) 2018: 1705-1714 [2] Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang, Ming Zhou: Gated Self-Matching Networks for Reading Comprehension and Question Answering. ACL (1) 2017: 189-198 62
  34. さらに脱線︓最近の含意認識 http://aclweb.org/anthology/P17-1152 http://arxiv.org/abs/1901.02609 Qian Chen, Xiaodan Zhu, Zhen-Hua Ling, Si

    Wei, Hui Jiang, Diana Inkpen: Enhanced LSTM for Natural Language Inference. ACL (1) 2017: 1657-1668 Qian Chen, Wen Wang: Sequential Attention-based Network for Noetic End-to-End Response Selection. CoRR abs/1901.02609 (2019) 1. 単語 埋込み 2.⽂脈 埋込み 3. アテ ンション 4. モデ リング 5. 出⼒ • 現在のベースライン的な⼿法であるESIM [Chen+,ACL17] も、基本的な構造はBiDAFと似ている 前提 仮説 含意/⽭盾(/中⽴) 66
  35. QANetのまとめ • BiDAFと基本的に同じ構造 – BiDAFは⽂ペアマッチングの構成として汎⽤的で優秀 • LSTMをTransformer-likeなブロックに変更、self- attentionが効果あり。 – ⻑期依存の⽂脈の理解が改善された。

    • 逆翻訳によるData augmentationの有効性を⽰す – 追加されたデータはかなり汚いはず。ノイズデータから学習する ことで⾃然⾔語の理解度が上がったとみるか、パターンマッチン グのバリエーションが豊かになったとみるか︖ 67
  36. Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介(3) BERT: Pre-training of

    Deep Bidirectional Transformers for Language Understanding Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova Google AI Language arXiv 2018/10 https://arxiv.org/abs/1810.04805 (2019/2/15) (2019/3/9)
  37. 概要 • タスク︓ – 単⽂・⽂ペア⼊⼒の⾮⽣成系タスク全般 • 提案︓ – Bidirectional Encoder

    Representations from Transformers (BERT)モデルの提案。 • 特徴︓ – 双⽅向Transformer⾔語モデルを⼤規模コーパスで事前学習 • マスク単語予測と、次⽂章判定 – タスク適応は、出⼒層をタスク毎に1層のみ追加してfine-tuningする • 評価︓ – 11タスクでSOTA︓含意、⾔い換え、⽂の分類など – SQuAD1.1 でも最⾼精度(2018/10/5)、両指標で⼤きく⼈間越え • 完全⼀致︓87.4%(⼈間︓82.2%, 前1位: 85.4%) • 部分⼀致︓93.2%(⼈間︓91.2%, 前1位: 91.2%) 69
  38. ⾔語モデルの事前学習 • 機械読解をはじめ応⽤タスクの学習データは数⼗万件程度 と多くないので、アノテーション不要の⼤規模コーパスか ら学習したモデルを転移することが流⾏ – OpenAI GPT [1] (2018/06に発表)

    – ELMo [2] (2018/02に発表) [1] Alec Radford et al.: Improving language understanding with unsupervised learning. Technical report, OpenAI, 2018. [2] Matthew E. Peters et al. : Deep Contextualized Word Representations. NAACL-HLT 2018: 2227-2237 71
  39. BERTの特徴(1) 単語のマスク • マスク⽂章はランダムに作成 My dog is hairy My [MASK]

    is hairy 15%の単語をマスク対象として選択 80%は そのまま [MASK] apple dog 10%は ランダム置換 10%は 元に戻す 74
  40. 事前学習の設定 • Book Corpus (8億ワード)[1] + 英語Wikipedia(25億 ワード)を利⽤ – ⽂レベルでシャッフルされているコーパスは良くない

    • セパレータで区切る2⼊⼒は、より⻑い⽂脈の理解のため それぞれ2⽂以上から構成させても良い • 語彙はワードピース[2] 30,000種としてOOVを無くす • ⼊⼒⻑は最⼤512トークン(理解可能なテキスト⻑さに限 りがある) • 16 Cloud TPUs で4⽇間(≒100時間) – 32 Cloud TPU v2 Pod: $24.0 USD / 時 [3] [1] Yukun Zhu et al. : Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. ICCV 2015: 19-27 [2] Yonghui Wu et al. : Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. CoRR abs/1609.08144 (2016) [3] https://cloud.google.com/tpu/docs/pricing 77
  41. SQuAD1.1の評価結果 • BASE: 12層、各層768次元(パラメータ数1.1億) • LARGE: 24層、各層1024次元(パラメータ数3.4億) • アンサンブル: 7モデル

    • TriviaQA: 抽出型の読解データセット[1] [1] Mandar Joshi et al. : TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension. ACL (1) 2017: 1601-1611 78
  42. BERTの他タスクでの評価 • GLUE [1] – ⽂ペア、単⽂⼊⼒の⾔語理解タスク9種。 – 含意、⾔い換え、⽂類似性、分類。 • CoNLL

    2003 NER [2] – 固有表現抽出 • SWAG [3] – 次⽂予測 [1] Alex Wang et al.: GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. BlackboxNLP@EMNLP 2018: 353-355 [2] Erik F. Tjong Kim Sang, Fien De Meulder: Introduction to the CoNLL-2003 Shared Task: Language- Independent Named Entity Recognition. CoNLL 2003: 142-147 [3] Rowan Zellers et al.: SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference. EMNLP 2018: 93-104 79
  43. ⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか –

    ⾃分で確かめる⽅法 – 分析論⽂の紹介 • データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 81
  44. 質問の僅かな違いが 読解エラーになる例 Q. Who was the co-MVP of Super Bowl

    XII? Q. Who was the MVP of Super Bowl XII? co-MVPをMVPに するだけで間違った https://demo.allennlp.org/machine-comprehension/ 84
  45. 敵対的な⽂の追加 [Jia+,EMNLP17] 敵対的な⽂の作り⽅ • ステップ1: 質問を変化 – 名詞や形容詞:WordNetの反 義語を⽤いて置換 –

    固有名詞や数︓GloVe空間で 近い単語に置換 • ステップ2: 回答も変化 – 同じタイプ(POSやNERにつ いて)の物に置換 • ステップ3: 平叙⽂化 – 変化させた質問と回答を使っ た平叙⽂に変換 • ステップ4: 修正 – クラウドワーカによる確認/ 修正 86
  46. 敵対的な⽂の追加 (2) [Mudrakarta+,ACL18] • 質問単語に含まれる重要な単語(モデルの予測に寄与する単語)を 使った敵対的サンプルはモデルをより上⼿く騙せる ⾊付=重 要単語 ※ 論⽂では他のタスクについても分析

    Pramod Kaushik Mudrakarta, Ankur Taly, Mukund Sundararajan, Kedar Dhamdhere: Did the Model Understand the Question? ACL (1) 2018: 1896-1906 http://aclweb.org/anthology/P18-1176 単語置換でア タック成功 Jia+,EMNLP17 87
  47. 簡単な質問の存在 [Sugawara+,EMNLP18] • 質問⽂の最初の1〜2単語で回答できたり、質問と最も類似した⽂の中 に回答がある“簡単”なデータが多い • SQuADの場合、"難しい"に分類されたデータは15.7% 回答は必ず存在する前提& 「いつ」に対する回答候補が 他にないのでWhenだけでも

    回答できてしまう 質問に最も類似した⽂(s1)に 回答が含まれている http://aclweb.org/anthology/D18-1453 Saku Sugawara, Kentaro Inui, Satoshi Sekine, Akiko Aizawa: What Makes Reading Comprehension Questions Easier? EMNLP 2018: 4208-4219 88
  48. 読解に必要なスキルとは︖ [Sugawara+, EMNLP18,ACL17,AAAI17] ※ 論⽂では他のデータセットも調査 • Saku Sugawara, Kentaro Inui,

    Satoshi Sekine, Akiko Aizawa: What Makes Reading Comprehension Questions Easier? EMNLP 2018: 4208-4219 • Saku Sugawara, Hikaru Yokono, Akiko Aizawa: Prerequisite Skills for Reading Comprehension: Multi-Perspective Analysis of MCTest Datasets and Systems. AAAI 2017: 3089-3096 • Saku Sugawara, Yusuke Kido, Hikaru Yokono, Akiko Aizawa: Evaluation Metrics for Machine Reading Comprehension: Prerequisite Skills and Readability. ACL (1) 2017: 806-817 • Sewon Min, Victor Zhong, Richard Socher, Caiming Xiong: Efficient and Robust Question Answering from Minimal Context over Documents. ACL (1) 2018: 1725-1735 簡単な問題は単語マッチだけで解ける。 常識や世界知識を必要とする問題は難しい。 数学や論理的な推論を必要する質問は SQuADにはほとんど含まれていない。 SQuADの多くは1つの⽂の情報だけで解ける。 複数⽂の場合も共参照の推論が中⼼。 ⽂選択モデル→読解が⾼性能[Min+,ACL18] 89
  49. • 質問⽂から重要度の低い単語 を⽋落させていくと、出⼒を 変えずに2〜3単語まで削れる • 削った質問⽂は、⼈間にとっ ては理解できない • 削った質問⽂で正しく回答し てしまうことを抑制すること

    が学習に良い影響を与える 質問⽂を⽋落させた場合の分析 [Feng+, EMNLP18] ※論⽂では他のデータセットも調査 Shi Feng et al.: Pathologies of Neural Models Make Interpretation Difficult. EMNLP 2018: 3719-3728 http://aclweb.org/anthology/D18-1407 平均11.5単語 →2.3単語まで 出⼒を変えずに 削れた 90
  50. この章のまとめ • 分析の結果、SQuADには「深い」⾃然⾔語理解を必要と しない問題が⼀定の割合で含まれている – クエリタイプで回答候補がかなり絞られる • 現状のニューラル読解モデルも「浅い」パターンマッチン グ的な読解が多い –

    ⼈間には⾒られないミスも散⾒される • データ・モデルの双⽅で改善が必要 – BERTで⼤きな改善︓読解における詳細な分析はこれから – データセットの発展も⽬覚ましい︓学習できる範囲が拡⼤中 95
  51. データセットの歴史 • 2016年(SQuAD)以降、急速に増加中 – 2015以前: ⼩規模なデータ – 2015〜︓⼤規模なデータ(⾃動作成) – 2016〜︓⼤規模なデータ(⼈⼿作成)

    – 2017〜︓より実践的な問題設定へ 0 5 10 15 20 2013 2014 2015 2016 2017 2018 2019 データセット数 発表年 (個⼈的な調査; 2019/03/09) 97
  52. 読解データセット(英語) MCTest (2013/10) CNN/DM (2015/06) CBT (2015/11) SQuAD 1.1 (2016/06)

    NewsQA (2016/11) MovieQA (2015/12) RecipeQA (2018/09) DuoRC (2018/04) ProPara (2018/05) MultiRC (2018/06) QuAC (2018/08) CoQA (2018/08) HotpotQA (2018/09) SQuAD 2.0 (2018/06) マルチモーダル Who-did-What (2016/08) QA4MRE (2011-13) LAMBDA (2016/06) 複数テキスト 1テキスト, ⼈⼿作成, 範囲抽出 浅いパターンマッチングから より深い推論へ 対話的 MS MARCO 2.1 (2018/10) 範囲抽出 からの脱却 1テキスト, ⾃動⽣成 MCScript (2018/03) 2016 2017 2018 CliCR (2018/03) ARC (2018/03) OpenBookQA (2018/09) ⼤規模知識 / 専⾨知識 東ロボ (2018/11) Spoken SQuAD (2018/04) 2019 Natural Questions (2019/01) emrQA (2018/09) QuaRel (2018/11) TQA (2017/07) Qangaroo (WikiHop,MedHop) (2017/10) SearchQA (2017/04) TriviaQA (2017/05) Quasar (2017/07) MS MARCO 1.0 (2016/11) RACE (2017/04) NarrativeQA (2017/12) SQuAD full (2017/04) CLOTH (2017/11) AddSent (2017/07) Multiparty Dialogue (2018/06) ShARC (2018/08) TextWorldsQA (2018/08) DREAM (2019/02) (RC)2 (2019/02) 〜2015 98 DROP (2019/03)
  53. • 4択問題 • 質問もパッセージも⼈⼿作 成だが、データ数が少ない (660テキスト×4質問) – パッセージは⼩学⽣向 けの作り話としてクラ ウドソーシングで作成

    • 2018/10の⼿法で 80-82%程度の正解率[2] [1] Matthew Richardson et al.: MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text. EMNLP 2013: 193-203 [2] Kai Sun et al. : Improving Machine Reading Comprehension with General Reading Strategies. CoRR abs/1810.13441 (2018) http://aclweb.org/anthology/D13-1020 MCTest [Richardson(Microsoft)+, EMNLP13] (2019/2/15) 99
  54. CNN/Daily Mail Reading [Hermann (DeepMind)+, NIPS15] • ニュース⾒出しの⽳埋め問題(本⽂を読んで正しいエンティティを⾒ つける) •

    エンティティは匿名化されるので世界知識は使えない http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend Karl Moritz Hermann et al. : Teaching Machines to Read and Comprehend. NIPS 2015: 1693-1701 (2019/2/15) 100
  55. Children Book Test (CBT) [Hill (Facebook)+, ICLR16] …………………………. …………………………. •

    20個の連続した⽂を⾒て、次の⽂に出てくる単語の⽳埋め問題を解く • エンティティ以外にも動詞や共通名詞が対象 • 近年は⾔語モデルの評価セットとして使われるケースあり[1][2] https://arxiv.org/pdf/1511.02301.pdf Felix Hill et al.: The Goldilocks Principle: Reading Children's Books with Explicit Memory Representations. ICLR 2016 [1] Zihang Dai et al. : Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. CoRR abs/1901.02860 (2019) [2] Alex Radford et al.: Language Models are Unsupervised Multitask Learners, OpenAI Tech. Report, 2019. (2019/2/15) 101
  56. 読解の⽅向性 SQuAD (⼀問⼀答、⼀段落、回答=範囲、回答有) è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現(≠範囲)で回答できるか︖

    • より「深い」推論に基づいて回答できるか︖ • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 102
  57. 1件ではなく複数のテキストから読解できるか︖ TriviaQA [Joshi(Washington)+, ACL17] • 質問︓トリビア・クイズのWebサイトから収集 – SQuADと異なり、先に質問・回答がある。質問が複雑 • コンテキスト︓Wikipedia,

    Webから収集した複数⽂書 – 回答⽂字列が含まれてるものだけ利⽤=正しいコンテキストかは保証され ない • 回答タイプ︓抽出 http://aclweb.org/anthology/P17-1147 Mandar Joshi et al. : TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension. ACL (1) 2017: 1601- 1611 (2019/02/15) 103
  58. ⼤規模なテキスト集合から読解できるか︖ SQuAD full Wikipedia [Chen (Facebook) +,ACL17] • 質問︓SQuADと同じ •

    コンテキスト︓Wikipedia500万記事に拡張 – システムは最初に適切なコンテキストを検索しなければならない • 回答タイプ︓抽出 http://www.aclweb.org/anthology/P17-1171 Danqi Chen et al. : Reading Wikipedia to Answer Open-Domain Questions. ACL (1) 2017: 1870-1879 (2019/02/15) 104
  59. ⼤規模なテキスト集合から読解に必要な段落を絞り込めるか︖ MS MARCO Passage Re-ranking (2018/11) • 質問︓Bingのクエリログ • コンテキスト︓Bingの検索結果上位1000件(スニペット)

    • タスク︓読解に必要なパッセージ(⼈間がラベル付)が上位に来るよ うにre-ranking リランキング Bing検索結果(1000件) モデルの出⼒ average pharmacy tech salary Bing 検索 クエリ 読解に必要な パッセージ リランキングで 上位に移動 105
  60. コンテキストの範囲ではない候補から正しく選択できるか︖ RACE [Lai (CMU)+,EMNLP17] • 質問・コンテキスト︓中⾼⽣の試験問題から – 推論が必要な問題が多い • 回答タイプ︓選択

    – 選択肢はパッセージの部分範囲に限定されない Guokun Lai et al. : RACE: Large-scale ReAding Comprehension Dataset From Examinations. EMNLP 2017: 785-794 http://aclweb.org/anthology/D17-1082 (2019/02/15) 107
  61. 回答を⽣成できるか︖ NarrativeQA [Kociský (DeepMind)+,TACL18] • コンテキスト︓映画や本 のスクリプトと、それの ⼈⼿作成サマリ – 表記や粒度が異なる2つの

    テキスト • 質問︓サマリから作成 • 回答タイプ︓⽣成 – 元⽂書から読解するには 浅い理解(局所的なパター ンマッチング)では答えら れない Tomás Kociský et al.: The NarrativeQA Reading Comprehension Challenge. TACL 6: 317-328 (2018) http://aclweb.org/anthology/Q18-1023 (2019/02/15) 108
  62. 回答を⽣成できるか︖ MS MARCO • 質問・コンテキスト︓Bingの実クエリ (オープンドメイン)・検索結果 • 回答タイプ︓⽣成 – パッセージの範囲に限定されない(評価はRouge,

    BLEU) • Tri Nguyen et al.: MS MARCO: A Human Generated MAchine Reading COmprehension Dataset. CoCo@NIPS 2016 • Payal Bajaj et al.: MS MARCO: A Human Generated MAchine Reading COmprehension Dataset. arXiv 2018 The majority of pharmacy techs work in drug stores and hospitals, where the average annual salary was $28,940 and $34,410, respectively**. However, a higher salary can be had if you can find employment with outpatient care centers or physicians' offices, where the annual pay is in the $37,000-$39,000 range. ⼊⼒︓質問クエリ ⼊⼒︓Bing検索結果テキスト(10件): average pharmacy tech salary The majority of pharmacy techs work in drug stores and hospitals, where the average annual salary was $28,940 and $34,410, respectively**. However, a higher salary can be had if you can find employment with outpatient care centers or physicians' offices, where the annual pay is in the $37,000-$39,000 range. What can a pharmacy technician really expect to earn in today's economy? According to Salary.com, pharmacy technicians make anywhere from $26,000 to $39,000 a year, though most make around $32,000 annually. California has the highest average pharmacy technician wage, at $34,317, according to Open Farm Tech's website. システム出⼒︓ 回答⽂ [NLG] The average salary for a pharmacy technician is $26,000 to $39,000 in a year. [Q&A] From $26,000 to $39,000 a year 質問内容を含めて⽣成するNLGと、 抽出に近いQ&Aの2タスク V1 [Nguyen (Microsoft)+,CoCo@NIPS16] V2 [Bajaj (Microsoft)+,arXiv18] (2019/02/15) 109
  63. 読解の⽅向性 SQuAD è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現(≠範囲)で回答できるか︖ •

    より「深い」推論に基づいて回答できるか︖ • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 110
  64. 「答えはありません」と回答できるか︖ SQuAD 2.0 [Rajpurkar&Jia (Stanford)+,ACL18] • 質問︓SQuAD 1.1に5万件の回答不能な質問を追加 • コンテキスト︓SQuAD

    1.1に同じ • 回答タイプ︓抽出、回答不能性の判定 http://aclweb.org/anthology/P18-2124 Pranav Rajpurkar, Robin Jia, Percy Liang: Know What You Don't Know: Unanswerable Questions for SQuAD. ACL (2) 2018: 784-789 (2019/02/15) 111
  65. 複数の⽂章に跨る推論は可能か︖ HotpotQA • 質問︓2⽂書にまたがった記 述に基づく質問を⼈⼿作成 • コンテキスト︓(上記2⽂書 を含む)10⽂書 • 回答タイプ︓Yes/no、回答

    範囲抽出、根拠⽂抽出 Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W. Cohen, Ruslan Salakhutdinov, Christopher D. Manning: HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering. EMNLP 2018: 2369-2380 https://aclweb.org/anthology/D18-1259 [Yang (CMU), Qi(Stanford), Zhang(Montreal)+, EMNLP18] 112
  66. 複数の⽂章に跨る推論は可能か︖⼤規模な知識を扱えるか︖ OpenBookQA [Mihaylov (AllenAI)+, EMNLP18] • 質問︓科学の初等レベルの 問題 • コンテキスト︓

    – 質問に紐付いたものは無し。 – 2287件のWorldTree corpus[2]の知識(Science Facts) – 1400万件の科学関連の⽂章 コーパス(Common Knowledge) • 回答タイプ︓4択 [1] Todor Mihaylov, Peter Clark, Tushar Khot, Ashish Sabharwal: Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering. EMNLP 2018: 2381-2391 [2] Peter A. Jansen, Elizabeth Wainwright, Steven Marmorstein, Clayton T. Morrison: WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-hop Inference. LREC 2018 http://aclweb.org/anthology/D18-1260 113
  67. 常識が必要な読解は可能か︖ MCScript [Ostermann (Saarland⼤)+, LREC18] • 質問︓テキストだけでは理解できない常識を必要 とする質問を含む • コンテキスト︓1テキスト

    • 回答タイプ︓2択 • Simon Ostermann et al.: MCScript: A Novel Dataset for Assessing Machine Comprehension Using Script Knowledge. LREC 2018 • Simon Ostermann et al.: SemEval-2018 Task 11: Machine Comprehension Using Commonsense Knowledge. SemEval@NAACL- HLT 2018: 747-757 http://www.lrec-conf.org/proceedings/lrec2018/pdf/225.pdf http://www.aclweb.org/anthology/S18-1119 テキストには書いていない è 常識が必要 ⽊を植えるための⽳は どんな⼿段で開ける︖ 114
  68. 読解の⽅向性 SQuAD è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現(≠範囲)で回答できるか︖ •

    より「深い」推論に基づいて回答できるか︖ • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 115
  69. ⼀問⼀答ではなく、対話的なQAを⾏えるか︖ CoQA [Reddy (Stanford)+,arXiv18] • 質問︓マルチターン (QA履歴を考慮) – 話題の深掘りや転換を含む •

    コンテキスト︓童話、試験問題、 ニュース、Wikipediaなどの 1⽂書 • 回答タイプ︓⽣成、 根拠範囲の抽出、回答不能性 Siva Reddy et al.: CoQA: A Conversational Question Answering Challenge. CoRR abs/1808.07042 (2018) https://arxiv.org/pdf/1808.07042.pdf (2019/02/15) 116
  70. ⼀問⼀答ではなく、対話的なQAを⾏えるか︖ QuAC [Choi (Washington), He(Stanford)+,EMNLP18] • 質問︓マルチターン (QA履歴を考慮) – 話題の深掘りや転換を含む

    • コンテキスト︓Wikipediaのセク ション1⽂書 • 回答タイプ︓抽出、Yes/No、回 答不能性、ターンの継続性 Eunsol Choi, He He et al.: QuAC: Question Answering in Context. EMNLP 2018: 2174-2184 http://aclweb.org/anthology/D18-1241 (2019/02/15) 117
  71. マルチモーダルな読解は可能か︖ TQA [Kembhavi (AllenAI)+, CVPR17] • 質問︓教科書の問題 • コンテキスト︓マルチモーダル(テキスト+図+⽤語の定 義+概要)

    – 図中のテキストも理解しないと難しい • 回答タイプ︓選択 Aniruddha Kembhavi et al.: Are You Smarter Than a Sixth Grader? Textbook Question Answering for Multimodal Machine Comprehension. CVPR 2017: 5376-5384 http://ai2-website.s3.amazonaws.com/publications/CVPR17_TQA.pdf (2019/02/15) 118
  72. マルチモーダルな読解は可能か︖ Spoken SQuAD [Li+ (国⽴台湾⼤), Interspeech18] • 質問︓テキスト • コンテキスト︓SQuADの読み上げ⾳声

    – TTSで⾃動的に作成 – ASRで認識してテキスト空間で読解 • 回答タイプ︓ – テキスト抽出 – ⾳声区間抽出 Chia-Hsuan Lee et al.: Spoken SQuAD: A Study of Mitigating the Impact of Speech Recognition Errors on Listening Comprehension. Interspeech 2018: 3459-3463 https://arxiv.org/pdf/1804.00320.pdf 119
  73. マルチモーダルな読解は可能か︖ RecipeQA [Yagcioglu (Hacettepe Univ.)+, EMNLP18] • 質問︓レシピデータから⾃動⽣成 • コンテキスト︓レシピの画像+説明

    • 回答タイプ︓画像⽳埋め、テキスト⽳埋め、無関係画像判 定、画像並び替え(レシピ⼯程) Semih Yagcioglu et al.: RecipeQA: A Challenge Dataset for Multimodal Comprehension of Cooking Recipes. EMNLP 2018: 1358-1368 http://aclweb.org/anthology/D18-1166 120
  74. FigureQA [Kahou(Microsoft)&Michalski(U Montreal)+, ICLR18 WS] • 様々な図に関して⾃動⽣成したYes/No質問データセット • 実世界ではもっと複雑な図・⾼度な情報要求が与えられる Samira

    Ebrahimi Kahou et al.: FigureQA: An Annotated Figure Dataset for Visual Reasoning. ICLR Workshop 2018. (2019/02/15) https://arxiv.org/pdf/1710.07300 121
  75. ロボットは東⼤に⼊れるか(英語) [東中+, JSAI17] [東中+, JSAI18] [テーマセッション: 試験問題をベンチマークとする⾔語処理, NLP19] • ⼀⽂問題

    – ⽂法・語法・語彙 – 語句整序完成 – 発話⽂⽣成 • 複数⽂問題 – 会話⽂完成 – 意⾒要旨把握: RACEが有⽤ • ⻑⽂読解 – 読解(情報処理) – 内容⼀致問題 – 段落タイトル付与 • その他 – リスニング – イラスト理解 https://www.jstage.jst.go.jp/article/pjsai/JSAI 2017/0/JSAI2017_2H21/_pdf/-char/ja 概ね 解ける 東中ら, “「ロボットは東⼤に⼊れるか」プロジェクトにおける 英語科⽬の到達点と今後の課題”, 2H2-1, JSAI17 東中ら, “「ロボットは東⼤に⼊れるか」プロジェクトの英語に おける意⾒要旨把握問題の解法”, 2C1-02, JSAI18 122
  76. 参考︓英語以外のデータ • 中国語 – HLF-RC [Cui (iFLYTEK)+, COLING16] ※リンク切れ︖ –

    DuReader [He (Baidu)+, MRQA@ACL18] • http://ai.baidu.com/broad/subordinate?dataset=dureader • ⽇本語 – 解答可能性付き読解データセット [鈴⽊(東北⼤)+,NLP18] • http://www.cl.ecei.tohoku.ac.jp/rcqa/ – Multilingual SQuAD [Asai+, arXiv18][浅井(東⼤)+,NLP19] • https://github.com/AkariAsai/extractive_rc_by_runtime_mt – ロボットは東⼤に⼊れるか • https://21robot.org/dataset.html – リーディングスキルテスト • https://www.s4e.jp/ 123
  77. 「答えはありません」と回答できるか︖ SQuAD 2.0 [Rajpurkar (Stanford)+,ACL18] 1-21位 までBERT を利⽤︕ • BERTが⼤流⾏中

    • 読解特化モデルの⼊⼒特徴として利⽤され るものも多いが、単純にBERTをfine- tuningしても強⼒ BERT登場 後、3ヶ⽉ で10% アップ https://rajpurkar.github.io/SQuAD-explorer/ (2019/2/15) 125
  78. ⼀問⼀答ではなく、対話的なQAを⾏えるか︖ CoQA [Reddy (Stanford)+,arXiv18] https://stanfordnlp.github.io/coqa/ 1-7位 までBERT • 対話型読解でもBERTが⼤流 ⾏中

    • 1位はSQuAD 2.0と同じ • ⾊々と⼯夫して対話に特化 したモデルよりもナイーブ にBERTを導⼊したモデルが 今のところ強い (2019/2/15) 126
  79. • BERTが⾸位ではない – MS MARCO: パッセージが10件&回答が範囲抽出ではなく⽣成 • 抽出型読解などの系列ラベリング問題に⽐べると、⽣成タスクでは BERTの導⼊はまだ進んでいない印象 –

    (ただし、すぐ進むとは思われる) – 特徴として︖BERTを使うものが3位に来ている http://www.msmarco.org/leaders.aspx 回答を⽣成できるか︖ MS MARCO [Nguyen (Microsoft)+,CoCo@NIPS16] [Bajaj (Microsoft)+,arXiv18] (2019/2/15) 128
  80. 検索 FAQ集 実⽤化への展望︓コンタクトセンタAI お客様 電話 チャット コンタクトセンタ 質問 契約書・マニュアルなど 検索+読解

    オペレータ 応答 質問 ⽀援 AI • コンタクトセンタAIへの機械読解の導⼊に向けて様々な 課題に取り組み中 L 抽出のみでは 回答不能な質問 L AI回答の根拠 がわからない L 質問意図 が不明確 L ⻑さや回答ス タイルに制約 L ⽂書が⼤量に ある 133
  81. ⼤規模機械読解 [⻄⽥京介+,NLP18][Nishida+, CIKM18] ⼤規模テキスト集合 (知識源) 【質問】あんしん保険の弁護⼠費⽤ 特約はどのような場合に対象外にな りますか︖ 【応答】事故の相⼿が不明である場 合など、相⼿の⽅に法律上の損害賠

    償請求を⾏うことができない時 読解(回答抽出) 検索 あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保 険契約者が怪我などをされたり、⾃らが所有する⾃動⾞・家 屋などの財物を壊されたりすることによって、相⼿の⽅に法 律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、 弁護⼠などへの法律相談・書類作成費⽤などを保険⾦として お⽀払いする特約です。ただし、保険⾦のお⽀払い対象とな る費⽤に関しては、当社の同意を得た上で⽀出された費⽤に 限ります。また、事故の相⼿が不明である場合など、相⼿の ⽅に法律上の損害賠償請求を⾏うことができない時は、本特 約は対象外となりますのでご注意ください。 関連テキスト あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保 険契約者が怪我などをされたり、⾃らが所有する⾃動⾞・家 屋などの財物を壊されたりすることによって、相⼿の⽅に法 律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、 弁護⼠などへの法律相談・書類作成費⽤などを保険⾦として お⽀払いする特約です。ただし、保険⾦のお⽀払い対象とな る費⽤に関しては、当社の同意を得た上で⽀出された費⽤に 限ります。また、事故の相⼿が不明である場合など、相⼿の ⽅に法律上の損害賠償請求を⾏うことができない時は、本特 約は対象外となりますのでご注意ください。 • 多数のテキストから読解を⾏うシステムの提案 • キーワード検索+ニューラルリランキング+読解のマルチタスク学習 • Wikipedia全体を知識源としたSQuAD fullでSOTAを達成(当時) ⻄⽥京介ら, “情報検索とのマルチタスク学習による⼤規模機械読解”,⾔語処理学会第24回年次⼤会, D5-2, March 2018. Kyosuke Nishida et al.: Retrieve-and-Read: Multi-task Learning of Information Retrieval and Reading Comprehension. CIKM 2018: 647-656 134
  82. 複数スタイルによる⽣成型読解 [⻄⽥京介+,NLP19 B1-1(3/13)] 少量のテキスト知識源 【質問】レッカー移動はいつ でも対応して貰えるの︖ 【⾃然な⽂章で応答】はい、レッカー移動 は24時間365⽇対応可能です。 読解(⽣成) •

    回答スタイルを制御可能な⽣成型モデルの提案 • MS MARCO Q&Aタスク、NLGタスクの2つでSOTA 保険契約の対象となる⾞が事故・故障・トラブル等で⾛⾏不能になっ た場合に、専⽤デスクにお電話頂ければ、業者を⼿配して牽引や応急 処置を⾏うサービス特約です。基本契約に必ず付帯されます。 ⾞両牽引サービスと付帯サービス(応急対応サービス、燃料切れ時ガ ソリン給油サービス、臨時宿泊サービス、トラブル相談サービス)か らなり、24時間365⽇対応致しております。各サービスについての詳 細は以下の表をご覧下さい。(JAF会員の⽅にはサービスに追加の優 遇措置が設けられております。) 【簡潔に応答】はい 応答時に スタイルを 指定可能 Kyosuke Nishida et al.: Multi-style Generative Reading Comprehension. CoRR abs/1901.02262 (2019) ⻄⽥京介ら: "回答スタイルを制御可能な⽣成型機械読解",⾔語処理学会第25回年次⼤会(NLP2019), B1-1, March 2019. 135
  83. 根拠を抽出可能な抽出型読解 [⻄⽥光甫+,NLP19 B1-3(3/13)] • はい/いいえ/回答範囲の抽出を⾏う際、根拠となる⽂を複数提⽰可能 • HotpotQA [Yang, Qi, Zhang+,EMNLP18]の2タスクでSOTA

    【質問】おじいちゃんの癌が ⾒つかったのですが私の保険 で⼊院費⽤をもらえますか︖ 【根拠】⼆親等以内の親族の放射線治療は ⼊院給付⾦⽇額の10 倍を補償します. 【応答】はい. 【根拠】放射線治療は癌の主要な治療法の ひとつである. 回答& 根拠⽂の発⾒ 知識源となるテキスト集合 ⻄⽥光甫ら, "抽出型要約との同時学習による回答根拠を提⽰可能な機械読解",⾔語処理学会第25回年次⼤会(NLP2019), B1-3, March 2019. 137
  84. クエリ・出⼒⻑を指定した⽂書要約 [⻫藤いつみ+,NLP19 P2-11(3/14)] • 要約の焦点を与えるクエリおよび出⼒⻑の指定を⾏う要約 • クエリだけ、⻑さだけの指定も可 【質問】レッカー移動はいつ でも対応してもらえるの︖ 【⻑さ】30単語

    【応答】はい、⾞両牽引サービスは24時 間365⽇対応致しております。専⽤デスク にお電話頂ければ、業者を⼿配します。 保険契約の対象となる⾞が事故・故障・トラブル等で⾛⾏ 不能になった場合に、専⽤デスクにお電話頂ければ、業者 を⼿配して牽引や応急処置を⾏うサービス特約です。基本 契約に必ず付帯されます。 ⾞両牽引サービスと付帯サービス(応急対応サービス、燃 料切れ時ガソリン給油サービス、臨時宿泊サービス、トラ ブル相談サービス)からなり、24時間365⽇対応致してお ります。各サービスについての詳細は以下の表をご覧下さ い。(JAF会員の⽅にはサービスに追加の優遇措置が設け られております。) 要約対象テキスト クエリと⻑さを 考慮して要約 ⻫藤ら, "クエリ・出⼒⻑を考慮可能な⽂書要約モデル", ⾔語処理学会第25回年次⼤会(NLP2019), P2-11, March 2019. 138
  85. 質問の意図を明確にする改訂質問⽣成 [⼤塚淳史+,DEIM18&19][Otsuka+, RCQA@AAAI19] • 質問が曖昧な場合に、質問対象テキストに基づいて具体的な質問を⽣成 パケットプランの解約について 2年間同⼀回線の継続利⽤が条件と なり、契約期間内での回線解約・ 定期契約のない料⾦プランへの変 更時などには、9,500円の解約⾦

    がかかります。ただし、更新⽉の ときには無料になります。 【質問】 解約⾦はいくら︖ 契約期間内での回線解約・定期契 約のない料⾦プランへの変更時の 解約料⾦はいくら︖ 具体的な質問1 A. 9500円 更新⽉のときの解約⾦はいくら︖ A. 無料 具体的な質問2 ⼤塚ら, ”質問の意図を特定するニューラル質問⽣成モデル", 第10回データ⼯学と情報マネジメントに関する フォーラム(DEIM2018), F1-4, March 2018. Atsushi Otsuka et al., "Specific Question Generation for Reading Comprehension", in Proceedings of the AAAI 2019 Reasoning for Complex QA (RCQA) Workshop, Honolulu, Hawaii, USA, January 2019. ⼤塚ら, ”問い返し可能な質問応答︓読解と質問⽣成の同時学習モデル", 第11回データ⼯学と情報マネジメントに 関するフォーラム(DEIM2019), A3-3, March 2019. 139
  86. ⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか •

    データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 – ⾃然⾔語理解へ – ⾃然⾔語理解を超えて 142
  87. General Linguistic Intelligence [Yogatama(DeepMind)+,arXiv(2019/01/31)] BERTを事前学習しても SQuADに適応するには 万単位のサンプルが必要 BERTの構造でゼロから 学習すると80000サンプル (1epoch)では全く⾜りない

    他の読解タスクで教師あり 学習しても、結局、万単位 のサンプルが必要 Dani Yogatama et al. : Learning and Evaluating General Linguistic Intelligence. CoRR abs/1901.11373 (2019) https://arxiv.org/pdf/1901.11373.pdf 過去に獲得した⾔語知能を⾼速に新タスクへ適応できるか︖ SQuADの精度 SQuADの学習サンプル数 144
  88. General Linguistic Intelligence [Yogatama(DeepMind)+,arXiv(2019/01/31)] SQuAD学習モデル を他データで評価 すると性能低い è 汎⽤的な能⼒を 獲得できていない

    SQuADと⼀緒にマ ルチタスク学習す ると性能は良い F1(EM) F1 BERT→SQuADの状態でTriviaQAを追加 学習させると、SQuADの能⼒は⼤きく 落ちる(Catastrophic forgetting) 読解の精度 TriviaQAの学習サンプル数 145
  89. Natural Language Decathlon (decaNLP) [McCann(Salesforce)+, arXiv18] • 様々なNLPのタスクをすべて"QA"としてマルチタスク学習 Bryan McCann

    et al.: The Natural Language Decathlon: Multitask Learning as Question Answering. CoRR abs/1806.08730 (2018) https://arxiv.org/pdf/1806.08730 機械読解 機械翻訳 ⽂書要約 含意認識 感情分類 その他5タスク 146
  90. GPT-2 [Radford+, OpenAI Tech.Rep. 2019/02/14] • 超⼤規模コーパス(800万件Web⽂書)に基づく、 超⼤型サイズ(48層1600次元)のGPT(単⽅向Transformer) • ⾔語モデル単体としてSOTA

    + zero-shotで様々なタスクにある程度 適応可能 テキストコーパスに⾃然に含まれてい る英⇔仏の翻訳に関するテキスト è Zero-shot翻訳を可能にする ⾔語モデルとして下記タスクを解く • 読解 – ⽂書+質問+“A:” → 回答 – CoQAで55 F1 • 要約 – 元⽂+“TL;DR:” → 要約⽂ – CNN/DMで26.58 Rouge-L • 翻訳 – 元⽂+“english sentence =“ → 訳⽂ – WMT14 Fr->Enで11.5 BLEU https://d4mucfpksywv.cloudfront.net/better-language-models/language- models.pdf Alex Radfordet al.: Language Models are Unsupervised Multitask Learners, OpenAI Tech. Report, 2019. 147
  91. MT-DNN (BigBird) [Liu&He(Microsoft)+,arXiv 2019/02/01] • BERTのfine-tuningをマルチタスク化することでGLUEにてBERT越え Xiaodong Liu et al.:

    Multi-Task Deep Neural Networks for Natural Language Understanding. CoRR abs/1901.11504 (2019) https://arxiv.org/pdf/1901.11373.pdf https://gluebenchmark.com/leaderboard Pre-trained BERT Multi-task Fine-tuning 148
  92. 外部知識の活⽤ [Mihaylov+, ACL18][Bauer&Wang+,EMNLP18] • ConceptNetをcommonsenseの 外部知識として読解に組み込む è まだ⼤きな性能改善には繋がっていない Todor Mihaylov,

    Anette Frank: Knowledgeable Reader: Enhancing Cloze-Style Reading Comprehension with External Commonsense Knowledge. ACL (1) 2018: 821-832 Lisa Bauer, Yicheng Wang, Mohit Bansal: Commonsense for Generative Multi-Hop Question Answering Tasks. EMNLP 2018: 4220- 4230 Robert Speer, Joshua Chin, Catherine Havasi: ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. AAAI 2017: 4444-4451 commonsense reasoing [Bauer&Wang+, EMNLP18] http://aclweb.org/anthology/D18-1454 Knowledgeable Reader [Mihaylov+,ACL18] http://aclweb.org/anthology/P18-1076 各単語にsingle-hopで 知識を埋め込み 各単語にmulti-hopで 知識を埋め込み 149
  93. DROP [Dua(UCI)+,arXiv(2019/03/01)] 151 • 加算、減算、カウ ント、ソートなど 演算能⼒が必要な 読解データセット • 演算もニューラル

    に任せるべきなの か︖ Dheeru Dua et al.: DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs, arXiv https://arxiv.org/pdf/1903.00161.pdf
  94. Spider [Yu(Yale U)+,EMNLP18] 152 • 複雑なクエリを含む Text-to-SQL (Semantic Parsing)のデータセット •

    機械読解の研究として、 知識源がテキスト+デー タベースに拡張された設 定に拡張できるか︖ https://arxiv.org/pdf/1809.08887 Tao Yu et al.: Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task. EMNLP 2018: 3911-3921
  95. DVQA [Kafle(Adobe)+,CVPR18] 153 • 図で可視化された データの理解 • ⼈⼯的に⽣成 • ラベルテキストの

    ⽂字認識も必要 • テキストとビジュ アル、数値演算を どう融合させる か︖ Kushal Kafle, Brian L. Price, Scott Cohen, Christopher Kanan: DVQA: Understanding Data Visualizations via Question Answering. CVPR 2018: 5648-5656 http://openaccess.thecvf.com/content_cvpr_ 2018/papers/Kafle_DVQA_Understanding_D ata_CVPR_2018_paper.pdf
  96. Visual Commonsense Reasoning [Zellers (U Washington)+, arXiv18] • ⾔語+常識+ビジョンの理解 •

    ⾔語モデルと画像特徴量だけで ⽴ち向かえるのか︖ Rowan Zellers, Yonatan Bisk, Ali Farhadi, Yejin Choi: From Recognition to Cognition: Visual Commonsense Reasoning. CoRR abs/1811.10830 (2018) 画像と質問に対して、 回答と理由を選択 154
  97. 謝辞 • 今回のチュートリアルに際して、菅原 朔さん(東⼤ / 理研AIP)に機械読解データセットやモデルに関して、 ⼤変貴重なご意⾒を伺いました。⼼より感謝致します。 • ⽇頃よりディスカッション頂いている皆様に感謝します。 –

    NTTメディアインテリジェンス研究所の皆様 ⻫藤いつみさん、⼤塚淳史さん、⻄⽥光甫さん、⼤杉康仁さん、 ⻑⾕川拓さん、野本成央さん、浅野久⼦さん、富⽥準⼆さん – インターンシップにて機械読解に取り組んで頂いた 皆様 篠⽥⼀聡さん、Wang Haoさん、千々和⼤輝さん、伊藤淳さん 156