機械読解の現状と展望 / A Talk on Machine Reading Comprehension (NLP2019)

Copyright@2019 NTT corp. All Rights Reserved. 機械読解の現状と展望⽇本電信電話株式会社 NTTメディアインテリジェンス研究所⻄⽥
京介⾔語処理学会第25回年次⼤会(NLP2019)チュートリアル 2019年3⽉12⽇

⾃⼰紹介︓⻄⽥京介 2 • 2009年NTT⼊社。現在、NTTメディアインテリジェンス研究所（＠横須賀）主任研究員（特別研究員） • 2年前から機械読解の研究を開始、モデリングに興味 • 機械読解のコンペ（公開データセット）に積極的に参加中
主な取組（★はチームメンバの成果）リーダーボード有り・MS MARCO Q&A Task: 現在1位・MS MARCO Q&A+NLG Task: 現在1位 ★HotpotQA Distractor Setting: 現在1位 ★HotpotQA FullWiki Setting: 現在4位（最⾼1位） ★QuAC: 現在1位リーダーボード無し・SQuAD-Open (full Wikipedia): 投稿時1位

⽬次 • 機械読解とは何か – 注⽬の理由、流⾏の経緯 • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか •
ニューラル読解はどの程度のレベルにあるのか • データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望本チュートリアルでは、代表的なデータセットやモデルの解説と最新の研究成果の紹介を⾏い、これまでの研究の到達点と今後の展望について議論します。 3

機械読解とは • (Machine) Reading Comprehension • テキストを知識源とした⾃然⾔語理解に基づく質問応答【⼊⼒︓質問】あんしん保険の弁護⼠費⽤特約はどのような場合に対象外になります
か︖ 【出⼒︓応答】事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことができない時【⼊⼒︓テキスト】あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保険契約者が怪我などをされたり、⾃らが所有する⾃動⾞・家屋などの財物を壊されたりすることによって、相⼿の⽅に法律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、弁護⼠などへの法律相談・書類作成費⽤などを保険⾦としてお⽀払いする特約です。ただし、保険⾦のお⽀払い対象となる費⽤に関しては、当社の同意を得た上で⽀出された費⽤に限ります。また、事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことができない時は、本特約は対象外となりますのでご注意ください。あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保険契約者が怪我などをされたり、⾃らが所有する⾃動⾞・家屋などの財物を壊されたりすることによって、相⼿の⽅に法律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、弁護⼠などへの法律相談・書類作成費⽤などを保険⾦としてお⽀払いする特約です。ただし、保険⾦のお⽀払い対象となる費⽤に関しては、当社の同意を得た上で⽀出された費⽤に限ります。また、事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことができない時は、本特約は対象外となりますのでご注意ください。 4

• 機械読解は本格的に流⾏してからまだ3年程度だが、急速に発展している分野学術的に⼤きな注⽬ https://scholar.google.com/citations?user=QcOG6sgAAAAJ&hl=en https://scholar.google.com/citations?user=zYze5fIAAAAJ&hl=en 最も有名なデータセットSQuAD 最も有名なベースラインモデルBiDAF
2016/06初出で被引⽤数653件 (2019/02/15) 2016/11初出で被引⽤数433件 5

⾃然⾔語理解タスクとしての注⽬ • 機械読解は⾃然⾔語理解を必要とするタスク • 機械読解の研究において得られた知⾒、テクニック、モデル、データセットは他のタスクにおいても有⽤であるし、その逆もまた同じ è 多くの研究者にとって「関連研究」と成り得る分野⾔語モデル
読解含意換⾔要約翻訳対話 6 ⾃然⾔語理解

企業からも⼤きな注⽬ • 多くの企業研究所が「データセット作成・公開」から参画 • 読解モデルの研究開発に取り組む企業はさらに多数 7

機械読解の活躍が期待されるシーンの代表例︓ Web検索 8 L スニペットを読んでも答えが書いていない（マッチしたキーワードしか強調されない） What city
did Super Bowl 50 take place in?

機械読解の活躍が期待されるシーンの代表例︓ Web検索 9 Answer: Santa Clara J 機械読解で答えをピンポイントに提⽰ J
エビデンスをスニペットとして表⽰ What city did Super Bowl 50 take place in?

機械読解の活躍が期待されるシーンの代表例︓ スマートスピーカー 10 https://softwareengineeringdaily.com/2018/05/18/alexa-voice- design-with-paul-cutsinger/ What was the final score
of Super Bowl 50? Broncos beat Panthers 24-10 in Super Bowl 50. Knowledge Base

機械読解の活躍が期待されるシーンの代表例︓ チャットボット 11 • あ http://tcci.ccf.org.cn/summit/2017/dlinfo/003.pdf J 商品ページの仕様やレビューを基に回答

データセット数の増加 0 5 10 15 20 2013 2014 2015 2016
2017 2018 2019 データセット数発表年（個⼈的な調査; 2019/02/15） • 様々な着眼点のデータセットが⼤量に作成されている • データセットの構築により機械読解分野は急発展 12

SQuAD 1.1 [Rajupurkar+, EMNLP16] • Stanford⼤が2016/06にリリースした、現在のところ最も代表的なデータセット⼊⼒︓テキスト⼊⼒︓質問出⼒︓回答
https://aclweb.org/anthology/D16-1264 13

SQuAD 1.1 [Rajupurkar+, EMNLP16] • リリース直後から、コミュニティにて⼤きな注⽬を集めた – 特に、⼈⼿で作成された⼤規模データであったことが理由⼊⼒︓テキスト⼊⼒︓質問
出⼒︓回答 Wikipediaの段落（平均140単語）無料で公開クラウドソーシングで作成した 100,000件以上の質問・回答ペアテキスト中の任意の範囲を抽出して回答 14

SQuAD 1.1 [Rajupurkar+, EMNLP16] • リリース直後から、コミュニティにて⼤きな注⽬を集めたリーダーボードを設置して、現在の SOTAをリアルタイムに確認可能に
https://blogs.msdn.microsoft.com/stevengu/2017/10/02/business-ai-tops-the-squad-leader-board/ 15

• リリース直後から急速に成⻑。本会議前に⾮DNNのベースラインから30%精度向上，発表1年後には⼈間に迫るリリース後の最⾼精度の変化 40 50 60 70 80 90
100 6/1/2016 7/1/2016 8/1/2016 9/1/2016 10/1/2016 11/1/2016 12/1/2016 1/1/2017 2/1/2017 3/1/2017 4/1/2017 5/1/2017 6/1/2017 7/1/2017 8/1/2017 9/1/2017 10/1/2017 Machine (EM) Machine (F1) Human (EM) Human (F1) ⼈間:EM(完全⼀致) ⼈間:F1(部分⼀致) ⾮DNN F1 51.0% DNN 70.7% EMNLPʼ16で発表 arXivで発表（個⼈的な調査） 16

2018年1⽉︓「⼈間超え」 • Alibaba[1]とMicrosoft[2]が同時期に⼈間の完全⼀致のスコアを超え、メディアで報じられる https://wired.jp/2018/02/08/ai-beat-humans-at-reading/ https://forbesjapan.com/articles/detail/19346 https://www.cnn.co.jp/tech/35113360.html [1] Wei Wang,
Chen Wu, Ming Yan: Multi-Granularity Hierarchical Attention Fusion Networks for Reading Comprehension and Question Answering. ACL (1) 2018: 1705-1714 [2] Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang, Ming Zhou: Gated Self-Matching Networks for Reading Comprehension and Question Answering. ACL (1) 2017: 189-198 17

2018年10⽉︓ BERTの衝撃 • BERTが登場。読解に特化したニューラルネット構造を持たずに、⼈間のスコアを部分⼀致でも⼤きく超える完全⼀致部分⼀致⼈間のスコア BERTのスコア Jacob
Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR abs/1810.04805 (2018) https://rajpurkar.github.io/SQuAD-explorer/ 18

⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか – どのように作られたのか – 読解にはどのような能⼒が必要なのか •
機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか • 最新のデータセットと研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望著者らの分析その後の研究での分析 19

Copyright@2019 NTT corp. All Rights Reserved. SQuAD: 100,000+ Questions for
Machine Comprehension of Text Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang Stanford Univ. EMNLP 2016 (arXiv: 2016/06) https://arxiv.org/abs/1606.05250 (2019/02/15)

SQuAD 1.1 [Rajupurkar+, EMNLP16] • テキストに関する質問に、回答範囲を抽出して答える⼊⼒︓段落（コンテキスト、パッセージ）⼊⼒︓質問出⼒︓回答
Wikipediaの段落（平均140単語）クラウドソーシングで作成した 100,000件以上の質問・回答ペアテキスト中の任意の範囲で回答（選択肢は無し） 21

段落の収集⽅法 • 英語Wikipediaを収集対象とする 1. Project Nayuki ( https://www.nayuki.io/ )の内部 PageRankを⽤いて上位10,000記事を収集
2. ランダムに536記事をサンプリング – 画像・表は削除 – 500⽂字未満の段落を削除 3. 最終的に23,215段落（43段落/記事）を収集記事タイトルの⼀部 22

質問・応答ペアの作成 • Amazon Mechanical Turk をバックエンドとするDaemo ( https://www.daemo.org/home )プロジェクトを利⽤ 1.
クラウドワーカを選定 – 過去に1,000タスク以上実施、97%以上の承認率、アメリカ・カナダ在住のワーカ 2. ワーカに1記事中の複数段落をまとめてアサイン – 各段落に4分を費やし、最⼤5件のQAペア作成を要求 – 記事完了に要した時間に対して、9ドル/時を⽀払い • 例えば43段落の記事だと、3時間弱程度のタスク 23

インタフェース/教⽰記事中の段落数 4分使って出来る限り 5問作ってください段落のテキスト（リンクなどは削除）コピペせず⾃分の⾔葉で質問を作ってください。難しい質問を推奨します。回答は段落中の範囲をハイ
ライトして選択ください 24

追加の回答収集 • 評価⽤（Dev/Test）⽤に、各記事ごとに、質問作成者とは別のワーカを最低2⼈アサイン • 質問と段落を提⽰し、2分以内に5質問への回答を要求 – 例えば43段落の記事だと、1.5時間弱程度のタスク – 単純に割ると1問あたり24秒
– 報酬は 9ドル/時で同じ • 1⼈以上が「回答できない」と判断した質問が2.6% 25

統計情報 • Trianing (80%) / Dev (10%) / Test (10%)に分割
質問は11単語程度（基本的に⽂形式） 1段落あたり140単語＝5⽂程度回答は3単語程度と短い Kyosuke Nishida, Itsumi Saito, Atsushi Otsuka, Hisako Asano, Junji Tomita: Retrieve-and-Read: Multi-task Learning of Information Retrieval and Reading Comprehension. CIKM 2018: 647-656 ※単語数はStanford CoreNLP tokenizerでトークナイズしてカウント 26

回答タイプ • 回答をStanford CoreNLPで機械的に分析 • 8割以上はエンティティ・短いフレーズ約20%が数値・⽇付約32%が固有名詞約32%が⼀般名詞約16%がその他
27

回答にはどのような能⼒が必要か（著者らの分析） 1. 語彙のバリエーションの理解類義語の理解 called / referred 世界知識が必要 The
European … Unionが "governing bodies"であるという理解下線部分はクラウドワーカが正解としたもの 28 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析（各データは1つ以上のカテゴリに属する）

回答にはどのような能⼒が必要か（著者らの分析） 2. 構⽂のバリエーションの理解 – 質問⽂を平叙⽂に⾔い換えたときに、係り受け構造が回答を含む⽂と異なるもの Currentの使われ⽅に差異下線部分はクラウドワーカが
正解としたもの 29 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析（各データは1つ以上のカテゴリに属する）

回答にはどのような能⼒が必要か（著者らの分析） 3. 複数の⽂にまたがる推論 – 照応や複数⽂の⾼レベルの理解が必要なもの照応が必要 "They"は"The V&A …
galleries"であるという理解下線部分はクラウドワーカが正解としたもの 30 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析（各データは1つ以上のカテゴリに属する）

回答にはどのような能⼒が必要か（著者らの分析） 4. (回答できないもの) – ワーカの回答に同意できなかったり、⼀意に回答が定まらないもの「刑事罰の⽬的は︖」に対して「無能⼒化（incapacitation）」⾃体が回答となるのはおかしい
下線部分はクラウドワーカが正解としたもの 31 ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析（各データは1つ以上のカテゴリに属する）

評価⽅法と結果 • ⼩⽂字化、句読点削除、冠詞削除して、完全⼀致（EM）と部分⼀致（F1）を評価 • F1は空⽩⽂字でトークナイズして単語レベルで計算質問の曖昧さ（約6%）、時間制限（120秒/5問）、集中⼒の⽋如（1タスクで 1.5時間程度）が要因︖
エンティティは好成績それ以外はやや落ちる回答タイプごとに分類 32

この章のまとめ • SQuAD 1.1（2016/06発表）はリリース直後から⼤きな注⽬を集め、発表から１年半程度で⼈間のスコアに匹敵するに⾄った • データはクラウドソーシングにて作られ、回答はテキスト中の任意の範囲で与えられる •
主に語彙や構⽂のバリエーションの理解が重要と主張 è 後に、回答の難しさや必要なスキルについて多数の研究報告あり • タスク設定上、⼈間でもミスをするようになっている – テスト時は120秒/5問で回答、1.5時間程度連続 33

テキストを読んで質問にお答えください。答えはテキスト中から1つの範囲を抽出してください。読解⼒テスト 34 Q. 2019年の⼲⽀は︖ ⻄暦2019年は平成31年です。平成31年の⼲⽀は「亥年」です。テキスト例題）

読解⼒テスト 35 Q.社会脳科学では近年何が重要視されている︖ 意思決定に関わる脳機能の解明が進み，ヒトの社会⾏動を対象とする社会脳科学という研究分野が盛んになっている．この分野は疾患など多くの社会問題とも関連する．従来，⾼度に発達したヒトの社会⾏動において，背外側前頭前野や帯状回といった前頭葉の熟慮的な認知システムの重要性が強調されてきた．しかし近年になり，扁桃体や線条体といった直観的な情動システムの重要性が認識されている．本講演ではこれらの知⾒の意味するところを概観した後，今後益々重要になると考えられる
ソーシャルネットワークサービス(SNS)の社会脳科学について紹介する．脳科学における⾃然⾔語処理技術の使われ⽅，脳科学と⾃然⾔語処理の相互交流の可能性などについて議論したい． NTTが作成した読解モデルの回答（所要時間︓1秒未満）︓ 扁桃体や線条体といった直観的な情動システムの重要性

⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか •
データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 36

Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介 BiDAF (2016/11発表)、QANet (2018/04発表)、
BERT (2018/10)について SQuAD 1.1 leaderboard (2019/2/15)

Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介(1) Bidirectional Attention Flow
for Machine Comprehension Minjoon Seo1 Aniruddha Kembhavi2 Ali Farhadi1,2 Hannaneh Hajishirzi2 1 Univ. Washington 2 Allen Institute for Artificial Intelligence ICLR 2017 (arXiv: 2016/11) https://arxiv.org/abs/1611.01603 (2019/02/15)

概要 • タスク︓ – 機械読解。コンテキスト（段落あるいはパッセージとも呼ぶ）に関する質問に対して、回答範囲の始点、終点を予測する。 • 提案︓ – Bi-Directional
Attention Flow（BiDAF）モデルの提案。 • 特徴︓ – 質問→コンテキスト、コンテキスト→質問のように、双⽅向にアテンションを⾏う。 • 評価︓ – SQuAD1.1 で当時最⾼（2017/2/22） • 完全⼀致︓73.7%（⼈間︓82.2%, 前1位: 71.6%） • 部分⼀致︓81.5%（⼈間︓91.2%, 前1位: 80.4%） • 1位防衛期間: 20⽇程度シンプルな構成、ソース公開で主流へ 39

アーキテクチャの全体図⼊⼒出⼒コンテキスト質問回答始点回答終点 1. 単語埋込み
3. アテンション 2. ⽂脈埋込み 4. モデリング 5. 出⼒ 40

1. 単語埋め込み層⼊⼒︓コンテキスト(T単語)、質問(J単語) 処理︓2つのレベルで埋め込む 1. 単語埋め込み – 事前学習した100次元のGloVe を利⽤ 2.
⽂字列埋め込み (OOVの解決に有効) – 1次元のCNN（カーネルサイズ5）を利⽤出⼒︓各埋込を結合→Highway Network – コンテキスト表現 ∈ !×# – 質問表現 ∈ !×$ “comprehension” GloVe 100次元 CNN 100次元 “comprehension” Max-pooling concat highway 200次元ベクトル 200次元 41

2. ⽂脈埋め込み層⼊⼒出⼒コンテキスト質問回答始点回答終点 2. ⽂脈
埋込み 42

⼊⼒︓ – コンテキスト（T単語）表現 ∈ !×# – 質問（J単語）表現 ∈ !×$ 処理︓
– 質問・コンテキストの単語系列をそれぞれ双⽅向LSTMで符号化出⼒︓ – コンテキスト表現 ∈ %!×#、質問表現 ∈ %!×$ 2. ⽂脈埋め込み層単語埋め込み（d=200次元）双⽅向の状態ベクトル（2d=400次元）順⽅向LSTM （初期値0) 逆⽅向LSTM （初期値0) 43

3. アテンション層⼊⼒出⼒コンテキスト質問回答始点回答終点 3. アテン
ション 44

⼊⼒︓ – コンテキスト（T単語） ∈ %!×#、質問（J単語） ∈ %!×$ 処理︓ 1. コンテキスト・質問の各単語のマッチングを取って類似度⾏列
∈ #×$を求める 3. アテンション層(1/4; マッチング) 学習パラメータコンテキスト質問 45

⼊⼒︓ – コンテキスト（T単語） ∈ %!×#、質問（J単語） ∈ %!×$ – 類似度⾏列 ∈
#×$ 処理︓Context2Query 1. 類似度⾏列 ∈ #×$を列⽅向にsoftmax 2. コンテキストの各単語(t)毎に、質問の単語系列をアテンションプーリング ( ∈ %!×# 3. アテンション層(2/4; ⽂章→質問) コンテキスト質問 1. 2. 直感的には、コンテキストの各単語ごとに、質問の中で関連する単語を強調する操作 46

⼊⼒︓ – コンテキスト（T単語） ∈ %!×#、質問（J単語） ∈ %!×$ – 類似度⾏列 ∈
#×$ 処理︓Query2Context 1. ∈ #×$を列⽅向に最⼤値取得→⾏⽅向に正規化 2. コンテキストの単語系列をアテンションプーリング + ℎ ∈ %! 3. コンテキストの単語数分タイリング ( ∈ %!×# 3. アテンション層(3/4; 質問→⽂章) コンテキスト質問 1. 2. 3. T単語分に複製直感的には、質問のいずれかの単語に強く関連するコンテキスト単語を強調する操作 47

⼊⼒︓ – (アテンション前の)コンテキスト表現 ∈ × – 双⽅向アテンションの出⼒ ( ∈ ×、(
∈ × 処理︓ 1. 3表現を各コンテキスト単語ごとに連結して ∈ )!×#を出⼒ 3. アテンション層(4/4; 最終出⼒) アテンション前の表現H も含めることが重要 48

4. モデリング層⼊⼒出⼒コンテキスト質問回答始点回答終点 4. モデ
リング 49

⼊⼒︓ – 質問に基づいたコンテキスト表現 ∈ )!×# 処理︓ – 2層の双⽅向LSTMで符号化出⼒︓ –
質問に基づいたコンテキスト表現 ∈ %!×# 4. モデリング層この状態で、回答範囲の始点が計算可能な状態 50

5. 出⼒層⼊⼒出⼒コンテキスト質問回答始点回答終点 5. 出⼒
51

⼊⼒︓ – 質問に基づいたコンテキスト表現 • アテンション層の出⼒ ∈ !"×$ • モデリング層の出⼒ ∈
%"×$ 処理︓ 1. G, Mに基づき、各単語位置毎に線形変換して正規化出⼒︓ – 始点の確率分布 * ∈ # 5. 出⼒層(1/2; 始点) Super Bowl 50 was an American football game to determine … コンテキスト 52

⼊⼒︓ – 質問に基づいたコンテキスト表現 • アテンション層の出⼒ ∈ !"×$ • モデリング層の出⼒ ∈
%"×$ 処理 1. 回答の始点を条件とするイメージでMにさらにLSTMを作⽤させて終点⽤のモデリングをし ! ∈ !"×$ を得る 2. G, Mに基づき、各単語位置毎に線形変換して正規化出⼒︓ – 終点の確率分布 ! ∈ $ 5. 出⼒層(2/2; 終点) Super Bowl 50 was an American football game to determine … コンテキスト M 始点p1 終点p2 M2 G 53

学習とテスト • 学習︓損失関数は始点と終点の正解位置%, &を⽤いて負の対数尤度により最適化 • テスト︓' %( &が最⼤となる(k,l)の範囲（k≦l）を選択 Super
Bowl 50 was an American football game to determine … 回答範囲として抽出 54

実験︓SQuADスコアに関する評価 • ⾮NNに⽐べて単体モデルで26〜27%精度向上。 • 12モデルのアンサンブルによりさらに4〜5%精度向上。 EM: 回答範囲の完全⼀致、F1: 部分⼀致 55

質問とコンテキストのマッチングアテンション類似度⾏列Sの可視化 • 質問内容に応じて関連するコンテキスト単語を注視 • 局所的にパターンマッチング→⼤域的に⾒て選択コンテキスト質問質問の各単語に強く反応したコンテキスト単語
Whereè場所関連のコンテキスト単語に注視 ʻSuper Bowl 50ʼの出現箇所を繰り返し注視正解の回答範囲に対応する箇所︓ 56

BiDAFのまとめ • 質問、コンテキストをそれぞれエンコーディングして双⽅向アテンションにより単語レベルでマッチングを取る • モデリング・出⼒層にて、 – クエリタイプと回答範囲の局所的なパターンマッチング –
⼤域的なsaliency を獲得し回答範囲の始点・終点を決定するイメージ • 精度の良さ、モデルのシンプルさ、およびコード公開によりベースラインモデルとして定着した 57

Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介(2) QANet: Combining Local
Convolution with Global Self-Attention for Reading Comprehension Adams Wei Yu1, David Dohan2, Minh-Thang Luong2, Rui Zhao2, Kai Chen2, Mohammad Norouzi2, Quoc V. Le2 1 Carnegie Mellon University 2 Google Brain ICLR 2018 (arXiv: 2018/04) https://arxiv.org/abs/1804.09541 (2019/2/15)

概要 • タスク︓ – 機械読解。コンテキスト（段落あるいはパッセージとも呼ぶ）に関する質問に対して、回答範囲の始点、終点を予測する。 • 提案︓ – 新モデルQANetの提案
– Data augmentation⼿法の提案 • 特徴︓ – RNNをconvolutionとself-attentionに置き換え130層超の構成 – 翻訳モデルを活⽤して英→仏→英でデータを増加 • 評価︓ – SQuAD1.1 で当時最⾼（2018/3/19）、完全⼀致で⼈間超え • 完全⼀致︓83.9%（⼈間︓82.2%, 前1位: 82.5%） • 部分⼀致︓89.7%（⼈間︓91.2%, 前1位: 89.3%） • 1位の防衛期間: 4ヶ⽉程度 59

アーキテクチャの全体図⼊⼒出⼒コンテキスト質問回答始点回答終点 1. 単語埋込み
2.⽂脈埋込み 3. アテンション 4. モデリング 5. 出⼒ • 構造はBiDAFと同じ • ⽂脈埋め込み、モデリング層で使う LSTMを変更 60

QANet: local conv+global self-att Self-attention ⼤域的な関係性を捉える Convolution ⽂中の局所的な関係性を捉える
FFN モデルの表現能⼒を⾼める Position- embedding 各単語の"位置" を符号化 • LSTMの代わりに右図のエンコーダブロックを利⽤ • Transformer[1]のブロックにconvolution を追加した構成 [1] Ashish Vaswani et al. : Attention is All you Need. NIPS 2017: 6000-6010 61

特徴1) Self-attention • 2018年前半にSQuADのEM指標で⼈間スコアを越えてきた3⼿法は"Self-attention"機構を共通点として持つ – QANet（Google; 2018/03にリーダーボード投稿） – SRQA
(Alibaba; 2018/01にリーダーボード投稿) [1] – R-NET (Microsoft; 2018/01にリーダーボード投稿) [2] コンテキスト質問コンテキストコンテキスト通常のアテンション（マッチング）セルフアテンションのイメージ [1] Wei Wang, Chen Wu, Ming Yan: Multi-Granularity Hierarchical Attention Fusion Networks for Reading Comprehension and Question Answering. ACL (1) 2018: 1705-1714 [2] Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang, Ming Zhou: Gated Self-Matching Networks for Reading Comprehension and Question Answering. ACL (1) 2017: 189-198 62

なぜSelf-attentionか • 単語系列の⽂脈の理解は主にLSTMで⾏われてきたが、⻑期依存性の理解には限界があった • 離れた単語の関係性も直接考慮できる（しかも省メモリで計算可）セルフアテンションは性能向上に⼤きく寄与した ※翻訳のTransformerと読解のR-NETは同時期（2017/05-06頃）に self-attentionを導⼊コンテキスト
コンテキスト LSTM セルフアテンションコンテキスト遠く離れた単語の関係性を捕まえにくい遠く離れた単語も直接関係を考慮 63

特徴2) 逆翻訳によるデータ拡張 • データ不⾜が課題 è 翻訳モデルで学習データを増やす – オリジナル︓「英→仏→英」︓「英→独→英」を3:1:1で混合 64

少し脱線︓最近の逆翻訳 • 機械翻訳も逆翻訳で⼤きな改善 [1] (2018/08) • 知⾒︓MAP推定（ビーム・貪欲探索）の綺麗なデータ拡張よりも、サンプリングやノイズを追加した⽅が有益 è QANetも25候補からサンプリングしているので、
⽔増しデータは結構ノイズが含まれているのでは︖ [1] Sergey Edunov et al.: Understanding Back-Translation at Scale. EMNLP 2018: 489-500 こちらの⽅が有益 65

さらに脱線︓最近の含意認識 http://aclweb.org/anthology/P17-1152 http://arxiv.org/abs/1901.02609 Qian Chen, Xiaodan Zhu, Zhen-Hua Ling, Si
Wei, Hui Jiang, Diana Inkpen: Enhanced LSTM for Natural Language Inference. ACL (1) 2017: 1657-1668 Qian Chen, Wen Wang: Sequential Attention-based Network for Noetic End-to-End Response Selection. CoRR abs/1901.02609 (2019) 1. 単語埋込み 2.⽂脈埋込み 3. アテンション 4. モデリング 5. 出⼒ • 現在のベースライン的な⼿法であるESIM [Chen+,ACL17] も、基本的な構造はBiDAFと似ている前提仮説含意/⽭盾(/中⽴) 66

QANetのまとめ • BiDAFと基本的に同じ構造 – BiDAFは⽂ペアマッチングの構成として汎⽤的で優秀 • LSTMをTransformer-likeなブロックに変更、self- attentionが効果あり。 – ⻑期依存の⽂脈の理解が改善された。
• 逆翻訳によるData augmentationの有効性を⽰す – 追加されたデータはかなり汚いはず。ノイズデータから学習することで⾃然⾔語の理解度が上がったとみるか、パターンマッチングのバリエーションが豊かになったとみるか︖ 67

Copyright@2019 NTT corp. All Rights Reserved. 読解モデルの紹介(3) BERT: Pre-training of
Deep Bidirectional Transformers for Language Understanding Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova Google AI Language arXiv 2018/10 https://arxiv.org/abs/1810.04805 (2019/2/15) (2019/3/9)

概要 • タスク︓ – 単⽂・⽂ペア⼊⼒の⾮⽣成系タスク全般 • 提案︓ – Bidirectional Encoder
Representations from Transformers （BERT）モデルの提案。 • 特徴︓ – 双⽅向Transformer⾔語モデルを⼤規模コーパスで事前学習 • マスク単語予測と、次⽂章判定 – タスク適応は、出⼒層をタスク毎に1層のみ追加してfine-tuningする • 評価︓ – 11タスクでSOTA︓含意、⾔い換え、⽂の分類など – SQuAD1.1 でも最⾼精度（2018/10/5）、両指標で⼤きく⼈間越え • 完全⼀致︓87.4%（⼈間︓82.2%, 前1位: 85.4%） • 部分⼀致︓93.2%（⼈間︓91.2%, 前1位: 91.2%） 69

BERTとは • 双⽅向Transformerブロックを24層重ねた⾔語モデル • 読解に特化した構造を持たない Transformer(Trm) ブロック 70

⾔語モデルの事前学習 • 機械読解をはじめ応⽤タスクの学習データは数⼗万件程度と多くないので、アノテーション不要の⼤規模コーパスから学習したモデルを転移することが流⾏ – OpenAI GPT [1] (2018/06に発表)
– ELMo [2] (2018/02に発表) [1] Alec Radford et al.: Improving language understanding with unsupervised learning. Technical report, OpenAI, 2018. [2] Matthew E. Peters et al. : Deep Contextualized Word Representations. NAACL-HLT 2018: 2227-2237 71

⾔語モデルの事前学習 • ⾔語モデルはleft-to-rightあるいはright-to-leftの次単語を予測するモデルとするのが普通であった left-to-right Transformer left-to-right & right-to-left LSTMs
(! |"! ) これまでの単語系列から次単語を予測 72

BERTの特徴(1) 単語のマスク • 単⽅向よりも双⽅向でモデリングした⽅が性能が良くなると期待して、⾔語モデルを⽳埋めで学習する My [MASK] is hairy My
dog is hairy ⼊⼒の⼀部をマスクマスク前の⽂章を予測 BERT 73

BERTの特徴(1) 単語のマスク • マスク⽂章はランダムに作成 My dog is hairy My [MASK]
is hairy 15%の単語をマスク対象として選択 80%はそのまま [MASK] apple dog 10%はランダム置換 10%は元に戻す 74

BERTの特徴(2) 次⽂章予測 • NLPのタスクは2つの⽂の関係性理解が多い • 隣接する⽂/ランダムな2⽂をセパレータで繋げて、隣接する⽂か否かの判定を⽳埋め予測と同時に学習 [CLS] my dog
is cute [SEP] he likes play [MASK] [SEP] 2⽂⽬ 1⽂⽬ IsNext my dog is cute [SEP] he likes play piano [SEP] 分類⽳埋め BERT 75

BERTの特徴(3) fine-tuning • 出⼒層を1層追加してfine-tuningするのみで各タスクに適応 • 機械読解の場合︓モデルに始点⽤の全結合層+softmax、終点⽤の全結合層+softmaxを追加して、回答範囲の始点・終点を予測する • ⼊⼒は質問とコンテキスト(段落)を繋げて⼊⼒ 76

事前学習の設定 • Book Corpus (8億ワード)[1] + 英語Wikipedia（25億ワード）を利⽤ – ⽂レベルでシャッフルされているコーパスは良くない
• セパレータで区切る2⼊⼒は、より⻑い⽂脈の理解のためそれぞれ2⽂以上から構成させても良い • 語彙はワードピース[2] 30,000種としてOOVを無くす • ⼊⼒⻑は最⼤512トークン（理解可能なテキスト⻑さに限りがある） • 16 Cloud TPUs で4⽇間（≒100時間） – 32 Cloud TPU v2 Pod: $24.0 USD / 時 [3] [1] Yukun Zhu et al. : Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. ICCV 2015: 19-27 [2] Yonghui Wu et al. : Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. CoRR abs/1609.08144 (2016) [3] https://cloud.google.com/tpu/docs/pricing 77

SQuAD1.1の評価結果 • BASE: 12層、各層768次元（パラメータ数1.1億） • LARGE: 24層、各層1024次元（パラメータ数3.4億） • アンサンブル: 7モデル
• TriviaQA: 抽出型の読解データセット[1] [1] Mandar Joshi et al. : TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension. ACL (1) 2017: 1601-1611 78

BERTの他タスクでの評価 • GLUE [1] – ⽂ペア、単⽂⼊⼒の⾔語理解タスク9種。 – 含意、⾔い換え、⽂類似性、分類。 • CoNLL
2003 NER [2] – 固有表現抽出 • SWAG [3] – 次⽂予測 [1] Alex Wang et al.: GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. BlackboxNLP@EMNLP 2018: 353-355 [2] Erik F. Tjong Kim Sang, Fien De Meulder: Introduction to the CoNLL-2003 Shared Task: Language- Independent Named Entity Recognition. CoNLL 2003: 142-147 [3] Rowan Zellers et al.: SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference. EMNLP 2018: 93-104 79

BERTのまとめ • 双⽅向Transformer．⼤規模コーパスから⽳埋めと次⽂予測でpre-trainingする • Pre-trainモデルをfine-tuningして機械読解に適応 – 読解に特化した複雑な構造は持たない – Pre-train時の学習データにQとAの関係性は無い
• 様々な⾃然⾔語理解タスクでSOTA – QA、含意、⾔い換え、固有表現抽出など – Fine-tuningでなく、ELMoの⽤にfeatureとして利⽤しても有効 80

⽬次 • 機械読解とは何か • SQuADとはどのようなデータセットか • 機械読解を⾏うモデルとはどのようなものか • ニューラル読解はどの程度のレベルにあるのか –
⾃分で確かめる⽅法 – 分析論⽂の紹介 • データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 81

モデルの挙動が確認できる • SQuADのサイトでは幾つかのモデルの回答が⾒られる • BERT (ensemble)の例︓ どういう問題でミスをしているか調べられる https://rajpurkar.github.io/SQuAD-explorer/explore/1.1/dev/ 82

モデルの挙動が確認できる • SQuADのサイトのデモは問題を変更できないが、 AllenNLPのデモ（BiDAF）では変更可能 https://demo.allennlp.org/machine-comprehension/ 好きなテキスト・質問で試せる読解結果 83

質問の僅かな違いが読解エラーになる例 Q. Who was the co-MVP of Super Bowl
XII? Q. Who was the MVP of Super Bowl XII? co-MVPをMVPにするだけで間違った https://demo.allennlp.org/machine-comprehension/ 84

敵対的な⽂の追加 [Jia+,EMNLP17] • SQuADに本質的には無関係な⽂を1つ挿⼊するだけで、BiDAFのアンサンブルモデルの精度が80%→34.2%まで落下（AddSentデータ）追加した⽂追加⽂により予測が変わってしまう Robin Jia,
Percy Liang: Adversarial Examples for Evaluating Reading Comprehension Systems. EMNLP 2017: 2021-2031 https://www.aclweb.org/anthology/D17-1215 85

敵対的な⽂の追加 [Jia+,EMNLP17] 敵対的な⽂の作り⽅ • ステップ1: 質問を変化 – 名詞や形容詞:WordNetの反義語を⽤いて置換 –
固有名詞や数︓GloVe空間で近い単語に置換 • ステップ2: 回答も変化 – 同じタイプ（POSやNERについて）の物に置換 • ステップ3: 平叙⽂化 – 変化させた質問と回答を使った平叙⽂に変換 • ステップ4: 修正 – クラウドワーカによる確認/ 修正 86

敵対的な⽂の追加 (2) [Mudrakarta+,ACL18] • 質問単語に含まれる重要な単語（モデルの予測に寄与する単語）を使った敵対的サンプルはモデルをより上⼿く騙せる⾊付＝重要単語 ※ 論⽂では他のタスクについても分析
Pramod Kaushik Mudrakarta, Ankur Taly, Mukund Sundararajan, Kedar Dhamdhere: Did the Model Understand the Question? ACL (1) 2018: 1896-1906 http://aclweb.org/anthology/P18-1176 単語置換でアタック成功 Jia+,EMNLP17 87

簡単な質問の存在 [Sugawara+,EMNLP18] • 質問⽂の最初の1〜2単語で回答できたり、質問と最も類似した⽂の中に回答がある“簡単”なデータが多い • SQuADの場合、"難しい"に分類されたデータは15.7% 回答は必ず存在する前提＆「いつ」に対する回答候補が他にないのでWhenだけでも
回答できてしまう質問に最も類似した⽂(s1)に回答が含まれている http://aclweb.org/anthology/D18-1453 Saku Sugawara, Kentaro Inui, Satoshi Sekine, Akiko Aizawa: What Makes Reading Comprehension Questions Easier? EMNLP 2018: 4208-4219 88

読解に必要なスキルとは︖ [Sugawara+, EMNLP18,ACL17,AAAI17] ※ 論⽂では他のデータセットも調査 • Saku Sugawara, Kentaro Inui,
Satoshi Sekine, Akiko Aizawa: What Makes Reading Comprehension Questions Easier? EMNLP 2018: 4208-4219 • Saku Sugawara, Hikaru Yokono, Akiko Aizawa: Prerequisite Skills for Reading Comprehension: Multi-Perspective Analysis of MCTest Datasets and Systems. AAAI 2017: 3089-3096 • Saku Sugawara, Yusuke Kido, Hikaru Yokono, Akiko Aizawa: Evaluation Metrics for Machine Reading Comprehension: Prerequisite Skills and Readability. ACL (1) 2017: 806-817 • Sewon Min, Victor Zhong, Richard Socher, Caiming Xiong: Efficient and Robust Question Answering from Minimal Context over Documents. ACL (1) 2018: 1725-1735 簡単な問題は単語マッチだけで解ける。常識や世界知識を必要とする問題は難しい。数学や論理的な推論を必要する質問は SQuADにはほとんど含まれていない。 SQuADの多くは1つの⽂の情報だけで解ける。複数⽂の場合も共参照の推論が中⼼。⽂選択モデル→読解が⾼性能[Min+,ACL18] 89

• 質問⽂から重要度の低い単語を⽋落させていくと、出⼒を変えずに2〜3単語まで削れる • 削った質問⽂は、⼈間にとっては理解できない • 削った質問⽂で正しく回答してしまうことを抑制すること
が学習に良い影響を与える質問⽂を⽋落させた場合の分析 [Feng+, EMNLP18] ※論⽂では他のデータセットも調査 Shi Feng et al.: Pathologies of Neural Models Make Interpretation Difficult. EMNLP 2018: 3719-3728 http://aclweb.org/anthology/D18-1407 平均11.5単語 →2.3単語まで出⼒を変えずに削れた 90

⽇本語読解の実例 [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤ NLP19の招待講演の概要正解（「近年」や「認識」が⼿掛かりとして強⼒） 91

⽇本語読解の実例 [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤正解（多少の揺れは対応可能） NLP19の招待講演の概要近年→最近認識→重要視 92

⽇本語読解の実例 [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤ NLP19の招待講演の概要「最近」を削除正解︖（従来と近年の話を両⽅カバー） 93

⽇本語読解の実例 [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤追加失敗先程は成功した質問 94

この章のまとめ • 分析の結果、SQuADには「深い」⾃然⾔語理解を必要としない問題が⼀定の割合で含まれている – クエリタイプで回答候補がかなり絞られる • 現状のニューラル読解モデルも「浅い」パターンマッチング的な読解が多い –
⼈間には⾒られないミスも散⾒される • データ・モデルの双⽅で改善が必要 – BERTで⼤きな改善︓読解における詳細な分析はこれから – データセットの発展も⽬覚ましい︓学習できる範囲が拡⼤中 95

データセットの歴史 • 2016年（SQuAD）以降、急速に増加中 – 2015以前: ⼩規模なデータ – 2015〜︓⼤規模なデータ（⾃動作成） – 2016〜︓⼤規模なデータ（⼈⼿作成）
– 2017〜︓より実践的な問題設定へ 0 5 10 15 20 2013 2014 2015 2016 2017 2018 2019 データセット数発表年（個⼈的な調査; 2019/03/09） 97

読解データセット（英語） MCTest (2013/10) CNN/DM (2015/06) CBT (2015/11) SQuAD 1.1 (2016/06)
NewsQA (2016/11) MovieQA (2015/12) RecipeQA (2018/09) DuoRC (2018/04) ProPara (2018/05) MultiRC (2018/06) QuAC (2018/08) CoQA (2018/08) HotpotQA (2018/09) SQuAD 2.0 (2018/06) マルチモーダル Who-did-What (2016/08) QA4MRE (2011-13) LAMBDA (2016/06) 複数テキスト 1テキスト, ⼈⼿作成, 範囲抽出浅いパターンマッチングからより深い推論へ対話的 MS MARCO 2.1 (2018/10) 範囲抽出からの脱却 1テキスト, ⾃動⽣成 MCScript (2018/03) 2016 2017 2018 CliCR (2018/03) ARC (2018/03) OpenBookQA (2018/09) ⼤規模知識 / 専⾨知識東ロボ (2018/11) Spoken SQuAD (2018/04) 2019 Natural Questions (2019/01) emrQA (2018/09) QuaRel (2018/11) TQA (2017/07) Qangaroo (WikiHop,MedHop) (2017/10) SearchQA (2017/04) TriviaQA (2017/05) Quasar (2017/07) MS MARCO 1.0 (2016/11) RACE (2017/04) NarrativeQA (2017/12) SQuAD full (2017/04) CLOTH (2017/11) AddSent (2017/07) Multiparty Dialogue (2018/06) ShARC (2018/08) TextWorldsQA (2018/08) DREAM (2019/02) (RC)2 (2019/02) 〜2015 98 DROP (2019/03)

• 4択問題 • 質問もパッセージも⼈⼿作成だが、データ数が少ない（660テキスト×4質問） – パッセージは⼩学⽣向けの作り話としてクラウドソーシングで作成
• 2018/10の⼿法で 80-82%程度の正解率[2] [1] Matthew Richardson et al.: MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text. EMNLP 2013: 193-203 [2] Kai Sun et al. : Improving Machine Reading Comprehension with General Reading Strategies. CoRR abs/1810.13441 (2018) http://aclweb.org/anthology/D13-1020 MCTest [Richardson(Microsoft)+, EMNLP13] (2019/2/15) 99

CNN/Daily Mail Reading [Hermann (DeepMind)+, NIPS15] • ニュース⾒出しの⽳埋め問題（本⽂を読んで正しいエンティティを⾒つける） •
エンティティは匿名化されるので世界知識は使えない http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend Karl Moritz Hermann et al. : Teaching Machines to Read and Comprehend. NIPS 2015: 1693-1701 (2019/2/15) 100

Children Book Test (CBT) [Hill (Facebook)+, ICLR16] …………………………. …………………………. •
20個の連続した⽂を⾒て、次の⽂に出てくる単語の⽳埋め問題を解く • エンティティ以外にも動詞や共通名詞が対象 • 近年は⾔語モデルの評価セットとして使われるケースあり[1][2] https://arxiv.org/pdf/1511.02301.pdf Felix Hill et al.: The Goldilocks Principle: Reading Children's Books with Explicit Memory Representations. ICLR 2016 [1] Zihang Dai et al. : Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. CoRR abs/1901.02860 (2019) [2] Alex Radford et al.: Language Models are Unsupervised Multitask Learners, OpenAI Tech. Report, 2019. (2019/2/15) 101

読解の⽅向性 SQuAD （⼀問⼀答、⼀段落、回答＝範囲、回答有） è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現（≠範囲）で回答できるか︖
• より「深い」推論に基づいて回答できるか︖ • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 102

1件ではなく複数のテキストから読解できるか︖ TriviaQA [Joshi(Washington)+, ACL17] • 質問︓トリビア・クイズのWebサイトから収集 – SQuADと異なり、先に質問・回答がある。質問が複雑 • コンテキスト︓Wikipedia,
Webから収集した複数⽂書 – 回答⽂字列が含まれてるものだけ利⽤＝正しいコンテキストかは保証されない • 回答タイプ︓抽出 http://aclweb.org/anthology/P17-1147 Mandar Joshi et al. : TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension. ACL (1) 2017: 1601- 1611 (2019/02/15) 103

⼤規模なテキスト集合から読解できるか︖ SQuAD full Wikipedia [Chen (Facebook) +,ACL17] • 質問︓SQuADと同じ •
コンテキスト︓Wikipedia500万記事に拡張 – システムは最初に適切なコンテキストを検索しなければならない • 回答タイプ︓抽出 http://www.aclweb.org/anthology/P17-1171 Danqi Chen et al. : Reading Wikipedia to Answer Open-Domain Questions. ACL (1) 2017: 1870-1879 (2019/02/15) 104

⼤規模なテキスト集合から読解に必要な段落を絞り込めるか︖ MS MARCO Passage Re-ranking (2018/11) • 質問︓Bingのクエリログ • コンテキスト︓Bingの検索結果上位1000件（スニペット）
• タスク︓読解に必要なパッセージ（⼈間がラベル付）が上位に来るようにre-ranking リランキング Bing検索結果（1000件）モデルの出⼒ average pharmacy tech salary Bing 検索クエリ読解に必要なパッセージリランキングで上位に移動 105

読解の⽅向性 SQuAD（⼀問⼀答、⼀段落、回答＝範囲、回答有）è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現（≠範囲）で回答できるか︖ • より「深い」推論に基づいて回答できるか︖
• ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 106

コンテキストの範囲ではない候補から正しく選択できるか︖ RACE [Lai (CMU)+,EMNLP17] • 質問・コンテキスト︓中⾼⽣の試験問題から – 推論が必要な問題が多い • 回答タイプ︓選択
– 選択肢はパッセージの部分範囲に限定されない Guokun Lai et al. : RACE: Large-scale ReAding Comprehension Dataset From Examinations. EMNLP 2017: 785-794 http://aclweb.org/anthology/D17-1082 (2019/02/15) 107

回答を⽣成できるか︖ NarrativeQA [Kociský (DeepMind)+,TACL18] • コンテキスト︓映画や本のスクリプトと、それの⼈⼿作成サマリ – 表記や粒度が異なる2つの
テキスト • 質問︓サマリから作成 • 回答タイプ︓⽣成 – 元⽂書から読解するには浅い理解（局所的なパターンマッチング）では答えられない Tomás Kociský et al.: The NarrativeQA Reading Comprehension Challenge. TACL 6: 317-328 (2018) http://aclweb.org/anthology/Q18-1023 (2019/02/15) 108

回答を⽣成できるか︖ MS MARCO • 質問・コンテキスト︓Bingの実クエリ (オープンドメイン)・検索結果 • 回答タイプ︓⽣成 – パッセージの範囲に限定されない（評価はRouge,
BLEU） • Tri Nguyen et al.: MS MARCO: A Human Generated MAchine Reading COmprehension Dataset. CoCo@NIPS 2016 • Payal Bajaj et al.: MS MARCO: A Human Generated MAchine Reading COmprehension Dataset. arXiv 2018 The majority of pharmacy techs work in drug stores and hospitals, where the average annual salary was $28,940 and $34,410, respectively**. However, a higher salary can be had if you can find employment with outpatient care centers or physicians' offices, where the annual pay is in the $37,000-$39,000 range. ⼊⼒︓質問クエリ⼊⼒︓Bing検索結果テキスト(10件): average pharmacy tech salary The majority of pharmacy techs work in drug stores and hospitals, where the average annual salary was $28,940 and $34,410, respectively**. However, a higher salary can be had if you can find employment with outpatient care centers or physicians' offices, where the annual pay is in the $37,000-$39,000 range. What can a pharmacy technician really expect to earn in today's economy? According to Salary.com, pharmacy technicians make anywhere from $26,000 to $39,000 a year, though most make around $32,000 annually. California has the highest average pharmacy technician wage, at $34,317, according to Open Farm Tech's website. システム出⼒︓ 回答⽂ [NLG] The average salary for a pharmacy technician is $26,000 to $39,000 in a year. [Q&A] From $26,000 to $39,000 a year 質問内容を含めて⽣成するNLGと、抽出に近いQ&Aの2タスク V1 [Nguyen (Microsoft)+,CoCo@NIPS16] V2 [Bajaj (Microsoft)+,arXiv18] (2019/02/15) 109

読解の⽅向性 SQuAD è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現（≠範囲）で回答できるか︖ •
より「深い」推論に基づいて回答できるか︖ • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 110

「答えはありません」と回答できるか︖ SQuAD 2.0 [Rajpurkar&Jia (Stanford)+,ACL18] • 質問︓SQuAD 1.1に5万件の回答不能な質問を追加 • コンテキスト︓SQuAD
1.1に同じ • 回答タイプ︓抽出、回答不能性の判定 http://aclweb.org/anthology/P18-2124 Pranav Rajpurkar, Robin Jia, Percy Liang: Know What You Don't Know: Unanswerable Questions for SQuAD. ACL (2) 2018: 784-789 (2019/02/15) 111

複数の⽂章に跨る推論は可能か︖ HotpotQA • 質問︓2⽂書にまたがった記述に基づく質問を⼈⼿作成 • コンテキスト︓（上記2⽂書を含む）10⽂書 • 回答タイプ︓Yes/no、回答
範囲抽出、根拠⽂抽出 Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W. Cohen, Ruslan Salakhutdinov, Christopher D. Manning: HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering. EMNLP 2018: 2369-2380 https://aclweb.org/anthology/D18-1259 [Yang (CMU), Qi(Stanford), Zhang(Montreal)+, EMNLP18] 112

複数の⽂章に跨る推論は可能か︖⼤規模な知識を扱えるか︖ OpenBookQA [Mihaylov (AllenAI)+, EMNLP18] • 質問︓科学の初等レベルの問題 • コンテキスト︓
– 質問に紐付いたものは無し。 – 2287件のWorldTree corpus[2]の知識（Science Facts） – 1400万件の科学関連の⽂章コーパス（Common Knowledge） • 回答タイプ︓4択 [1] Todor Mihaylov, Peter Clark, Tushar Khot, Ashish Sabharwal: Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering. EMNLP 2018: 2381-2391 [2] Peter A. Jansen, Elizabeth Wainwright, Steven Marmorstein, Clayton T. Morrison: WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-hop Inference. LREC 2018 http://aclweb.org/anthology/D18-1260 113

常識が必要な読解は可能か︖ MCScript [Ostermann (Saarland⼤)+, LREC18] • 質問︓テキストだけでは理解できない常識を必要とする質問を含む • コンテキスト︓1テキスト
• 回答タイプ︓2択 • Simon Ostermann et al.: MCScript: A Novel Dataset for Assessing Machine Comprehension Using Script Knowledge. LREC 2018 • Simon Ostermann et al.: SemEval-2018 Task 11: Machine Comprehension Using Commonsense Knowledge. SemEval@NAACL- HLT 2018: 747-757 http://www.lrec-conf.org/proceedings/lrec2018/pdf/225.pdf http://www.aclweb.org/anthology/S18-1119 テキストには書いていない è 常識が必要⽊を植えるための⽳はどんな⼿段で開ける︖ 114

読解の⽅向性 SQuAD è • 複数テキストから読解できるか︖ • さらに⼤規模なテキスト集合を知識源とできるか︖ • テキストに含まれない表現（≠範囲）で回答できるか︖ •
より「深い」推論に基づいて回答できるか︖ • ⼀問⼀答を超えて対話的な読解ができるか︖ • マルチモーダルな情報から読解できるか︖ 115

⼀問⼀答ではなく、対話的なQAを⾏えるか︖ CoQA [Reddy (Stanford)+,arXiv18] • 質問︓マルチターン（QA履歴を考慮） – 話題の深掘りや転換を含む •
コンテキスト︓童話、試験問題、ニュース、Wikipediaなどの 1⽂書 • 回答タイプ︓⽣成、根拠範囲の抽出、回答不能性 Siva Reddy et al.: CoQA: A Conversational Question Answering Challenge. CoRR abs/1808.07042 (2018) https://arxiv.org/pdf/1808.07042.pdf (2019/02/15) 116

⼀問⼀答ではなく、対話的なQAを⾏えるか︖ QuAC [Choi (Washington), He(Stanford)+,EMNLP18] • 質問︓マルチターン（QA履歴を考慮） – 話題の深掘りや転換を含む
• コンテキスト︓Wikipediaのセクション1⽂書 • 回答タイプ︓抽出、Yes/No、回答不能性、ターンの継続性 Eunsol Choi, He He et al.: QuAC: Question Answering in Context. EMNLP 2018: 2174-2184 http://aclweb.org/anthology/D18-1241 (2019/02/15) 117

マルチモーダルな読解は可能か︖ TQA [Kembhavi (AllenAI)+, CVPR17] • 質問︓教科書の問題 • コンテキスト︓マルチモーダル（テキスト＋図＋⽤語の定義＋概要）
– 図中のテキストも理解しないと難しい • 回答タイプ︓選択 Aniruddha Kembhavi et al.: Are You Smarter Than a Sixth Grader? Textbook Question Answering for Multimodal Machine Comprehension. CVPR 2017: 5376-5384 http://ai2-website.s3.amazonaws.com/publications/CVPR17_TQA.pdf (2019/02/15) 118

マルチモーダルな読解は可能か︖ Spoken SQuAD [Li+ (国⽴台湾⼤), Interspeech18] • 質問︓テキスト • コンテキスト︓SQuADの読み上げ⾳声
– TTSで⾃動的に作成 – ASRで認識してテキスト空間で読解 • 回答タイプ︓ – テキスト抽出 – ⾳声区間抽出 Chia-Hsuan Lee et al.: Spoken SQuAD: A Study of Mitigating the Impact of Speech Recognition Errors on Listening Comprehension. Interspeech 2018: 3459-3463 https://arxiv.org/pdf/1804.00320.pdf 119

マルチモーダルな読解は可能か︖ RecipeQA [Yagcioglu (Hacettepe Univ.)+, EMNLP18] • 質問︓レシピデータから⾃動⽣成 • コンテキスト︓レシピの画像＋説明
• 回答タイプ︓画像⽳埋め、テキスト⽳埋め、無関係画像判定、画像並び替え（レシピ⼯程） Semih Yagcioglu et al.: RecipeQA: A Challenge Dataset for Multimodal Comprehension of Cooking Recipes. EMNLP 2018: 1358-1368 http://aclweb.org/anthology/D18-1166 120

FigureQA [Kahou(Microsoft)&Michalski(U Montreal)+, ICLR18 WS] • 様々な図に関して⾃動⽣成したYes/No質問データセット • 実世界ではもっと複雑な図・⾼度な情報要求が与えられる Samira
Ebrahimi Kahou et al.: FigureQA: An Annotated Figure Dataset for Visual Reasoning. ICLR Workshop 2018. (2019/02/15) https://arxiv.org/pdf/1710.07300 121

ロボットは東⼤に⼊れるか（英語） [東中+, JSAI17] [東中+, JSAI18] [テーマセッション: 試験問題をベンチマークとする⾔語処理, NLP19] • ⼀⽂問題
– ⽂法・語法・語彙 – 語句整序完成 – 発話⽂⽣成 • 複数⽂問題 – 会話⽂完成 – 意⾒要旨把握: RACEが有⽤ • ⻑⽂読解 – 読解（情報処理） – 内容⼀致問題 – 段落タイトル付与 • その他 – リスニング – イラスト理解 https://www.jstage.jst.go.jp/article/pjsai/JSAI 2017/0/JSAI2017_2H21/_pdf/-char/ja 概ね解ける東中ら, “「ロボットは東⼤に⼊れるか」プロジェクトにおける英語科⽬の到達点と今後の課題”, 2H2-1, JSAI17 東中ら, “「ロボットは東⼤に⼊れるか」プロジェクトの英語における意⾒要旨把握問題の解法”, 2C1-02, JSAI18 122

参考︓英語以外のデータ • 中国語 – HLF-RC [Cui (iFLYTEK)+, COLING16] ※リンク切れ︖ –
DuReader [He (Baidu)+, MRQA@ACL18] • http://ai.baidu.com/broad/subordinate?dataset=dureader • ⽇本語 – 解答可能性付き読解データセット [鈴⽊(東北⼤)+,NLP18] • http://www.cl.ecei.tohoku.ac.jp/rcqa/ – Multilingual SQuAD [Asai+, arXiv18][浅井(東⼤)+,NLP19] • https://github.com/AkariAsai/extractive_rc_by_runtime_mt – ロボットは東⼤に⼊れるか • https://21robot.org/dataset.html – リーディングスキルテスト • https://www.s4e.jp/ 123

代表的なleaderboardの状況 • SQuAD 2.0 (抽出型） • CoQA (対話型) • MS
MARCO (⽣成型・検索） 124

「答えはありません」と回答できるか︖ SQuAD 2.0 [Rajpurkar (Stanford)+,ACL18] 1-21位までBERT を利⽤︕ • BERTが⼤流⾏中
• 読解特化モデルの⼊⼒特徴として利⽤されるものも多いが、単純にBERTをfine- tuningしても強⼒ BERT登場後、3ヶ⽉で10% アップ https://rajpurkar.github.io/SQuAD-explorer/ (2019/2/15) 125

⼀問⼀答ではなく、対話的なQAを⾏えるか︖ CoQA [Reddy (Stanford)+,arXiv18] https://stanfordnlp.github.io/coqa/ 1-7位までBERT • 対話型読解でもBERTが⼤流⾏中
• 1位はSQuAD 2.0と同じ • ⾊々と⼯夫して対話に特化したモデルよりもナイーブにBERTを導⼊したモデルが今のところ強い (2019/2/15) 126

⼤規模なテキスト集合から読解に必要な段落を絞り込めるか︖ MS MARCO Passage Re-ranking (2018/11) • 読解の前段となる（中規模）検索タスクでもBERTがトップ • クエリを⽂A、パッセージを⽂Bに⼊れたBERTがIRに特化した従来モ
デルの性能を⼤きく超える BM25: 基本的なキーワードマッチモデル IR特化モデル (2019/2/15) http://www.msmarco.org/leaders.aspx 127

• BERTが⾸位ではない – MS MARCO: パッセージが10件＆回答が範囲抽出ではなく⽣成 • 抽出型読解などの系列ラベリング問題に⽐べると、⽣成タスクでは BERTの導⼊はまだ進んでいない印象 –
（ただし、すぐ進むとは思われる） – 特徴として︖BERTを使うものが3位に来ている http://www.msmarco.org/leaders.aspx 回答を⽣成できるか︖ MS MARCO [Nguyen (Microsoft)+,CoCo@NIPS16] [Bajaj (Microsoft)+,arXiv18] (2019/2/15) 128

このセクションのまとめ • SQuAD以降、より実践的な問題設定へ拡張されている – 複数のテキスト（＋α）から、複数の⽂章の深い理解に基づいて、テキストの部分範囲に限定されない柔軟な回答を志向している • BERTですべて解決されたわけではない –
⻑⽂・複数⽂書の理解や、回答の⽣成 – その⼀⽅、範囲抽出や回答選択（分類問題）はBERTの得意分野 129

NTTにおける取り組み例 • 技術を磨く⼀環として、コンペに積極的に参加中 • MS MARCO v2の機械読解2タスクで現在⾸位 http://www.msmarco.org/leaders.aspx ※21機関中１位(2019/03/09) 131

NTTにおける取り組み例 132 • 根拠抽出＋マルチホップ読解のHotpotQA、対話型機械読解のQuACでも⾸位獲得 ※6チーム中⾸位 (2019/03/09) https://quac.ai/ ※6チーム中⾸位 (2019/03/09)
https://hotpotqa.github.io/

検索 FAQ集実⽤化への展望︓コンタクトセンタAI お客様電話チャットコンタクトセンタ質問契約書・マニュアルなど検索＋読解
オペレータ応答質問⽀援 AI • コンタクトセンタAIへの機械読解の導⼊に向けて様々な課題に取り組み中 L 抽出のみでは回答不能な質問 L AI回答の根拠がわからない L 質問意図が不明確 L ⻑さや回答スタイルに制約 L ⽂書が⼤量にある 133

⼤規模機械読解 [⻄⽥京介+,NLP18][Nishida+, CIKM18] ⼤規模テキスト集合（知識源）【質問】あんしん保険の弁護⼠費⽤特約はどのような場合に対象外になりますか︖ 【応答】事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠
償請求を⾏うことができない時読解（回答抽出）検索あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保険契約者が怪我などをされたり、⾃らが所有する⾃動⾞・家屋などの財物を壊されたりすることによって、相⼿の⽅に法律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、弁護⼠などへの法律相談・書類作成費⽤などを保険⾦としてお⽀払いする特約です。ただし、保険⾦のお⽀払い対象となる費⽤に関しては、当社の同意を得た上で⽀出された費⽤に限ります。また、事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことができない時は、本特約は対象外となりますのでご注意ください。関連テキストあんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保険契約者が怪我などをされたり、⾃らが所有する⾃動⾞・家屋などの財物を壊されたりすることによって、相⼿の⽅に法律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、弁護⼠などへの法律相談・書類作成費⽤などを保険⾦としてお⽀払いする特約です。ただし、保険⾦のお⽀払い対象となる費⽤に関しては、当社の同意を得た上で⽀出された費⽤に限ります。また、事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことができない時は、本特約は対象外となりますのでご注意ください。 • 多数のテキストから読解を⾏うシステムの提案 • キーワード検索＋ニューラルリランキング＋読解のマルチタスク学習 • Wikipedia全体を知識源としたSQuAD fullでSOTAを達成（当時）⻄⽥京介ら, “情報検索とのマルチタスク学習による⼤規模機械読解”,⾔語処理学会第24回年次⼤会, D5-2, March 2018. Kyosuke Nishida et al.: Retrieve-and-Read: Multi-task Learning of Information Retrieval and Reading Comprehension. CIKM 2018: 647-656 134

複数スタイルによる⽣成型読解 [⻄⽥京介+,NLP19 B1-1(3/13)] 少量のテキスト知識源【質問】レッカー移動はいつでも対応して貰えるの︖ 【⾃然な⽂章で応答】はい、レッカー移動は24時間365⽇対応可能です。読解（⽣成） •
回答スタイルを制御可能な⽣成型モデルの提案 • MS MARCO Q&Aタスク、NLGタスクの2つでSOTA 保険契約の対象となる⾞が事故・故障・トラブル等で⾛⾏不能になった場合に、専⽤デスクにお電話頂ければ、業者を⼿配して牽引や応急処置を⾏うサービス特約です。基本契約に必ず付帯されます。⾞両牽引サービスと付帯サービス（応急対応サービス、燃料切れ時ガソリン給油サービス、臨時宿泊サービス、トラブル相談サービス）からなり、24時間365⽇対応致しております。各サービスについての詳細は以下の表をご覧下さい。（JAF会員の⽅にはサービスに追加の優遇措置が設けられております。）【簡潔に応答】はい応答時にスタイルを指定可能 Kyosuke Nishida et al.: Multi-style Generative Reading Comprehension. CoRR abs/1901.02262 (2019) ⻄⽥京介ら: "回答スタイルを制御可能な⽣成型機械読解",⾔語処理学会第25回年次⼤会(NLP2019), B1-1, March 2019. 135

複数スタイルによる⽣成型読解 [Nishida+, arXiv19] [⻄⽥京介+,NLP19 B1-1(3/13)] • Transformerベースのpointer-generator。パッセージのリランキングと回答不能性の学習をマルチタスク学習 • 複数スタイルのデータを同時に学習することで精度向上
語彙、質問・パッセージからのコピーをステップ毎に、指定スタイル（先頭トークンで指定）に応じて制御 https://arxiv.org/pdf/1901.02262.pdf 136

根拠を抽出可能な抽出型読解 [⻄⽥光甫+,NLP19 B1-3(3/13)] • はい/いいえ/回答範囲の抽出を⾏う際、根拠となる⽂を複数提⽰可能 • HotpotQA [Yang, Qi, Zhang+,EMNLP18]の2タスクでSOTA
【質問】おじいちゃんの癌が⾒つかったのですが私の保険で⼊院費⽤をもらえますか︖ 【根拠】⼆親等以内の親族の放射線治療は⼊院給付⾦⽇額の10 倍を補償します．【応答】はい. 【根拠】放射線治療は癌の主要な治療法のひとつである．回答＆根拠⽂の発⾒知識源となるテキスト集合⻄⽥光甫ら, "抽出型要約との同時学習による回答根拠を提⽰可能な機械読解",⾔語処理学会第25回年次⼤会(NLP2019), B1-3, March 2019. 137

クエリ・出⼒⻑を指定した⽂書要約 [⻫藤いつみ+,NLP19 P2-11(3/14)] • 要約の焦点を与えるクエリおよび出⼒⻑の指定を⾏う要約 • クエリだけ、⻑さだけの指定も可【質問】レッカー移動はいつでも対応してもらえるの︖ 【⻑さ】30単語
【応答】はい、⾞両牽引サービスは24時間365⽇対応致しております。専⽤デスクにお電話頂ければ、業者を⼿配します。保険契約の対象となる⾞が事故・故障・トラブル等で⾛⾏不能になった場合に、専⽤デスクにお電話頂ければ、業者を⼿配して牽引や応急処置を⾏うサービス特約です。基本契約に必ず付帯されます。⾞両牽引サービスと付帯サービス（応急対応サービス、燃料切れ時ガソリン給油サービス、臨時宿泊サービス、トラブル相談サービス）からなり、24時間365⽇対応致しております。各サービスについての詳細は以下の表をご覧下さい。（JAF会員の⽅にはサービスに追加の優遇措置が設けられております。）要約対象テキストクエリと⻑さを考慮して要約⻫藤ら, "クエリ・出⼒⻑を考慮可能な⽂書要約モデル", ⾔語処理学会第25回年次⼤会(NLP2019), P2-11, March 2019. 138

質問の意図を明確にする改訂質問⽣成 [⼤塚淳史+,DEIM18&19][Otsuka+, RCQA@AAAI19] • 質問が曖昧な場合に、質問対象テキストに基づいて具体的な質問を⽣成パケットプランの解約について 2年間同⼀回線の継続利⽤が条件となり、契約期間内での回線解約・定期契約のない料⾦プランへの変更時などには、9,500円の解約⾦
がかかります。ただし、更新⽉のときには無料になります。【質問】解約⾦はいくら︖ 契約期間内での回線解約・定期契約のない料⾦プランへの変更時の解約料⾦はいくら︖ 具体的な質問1 A. 9500円更新⽉のときの解約⾦はいくら︖ A. 無料具体的な質問2 ⼤塚ら, ”質問の意図を特定するニューラル質問⽣成モデル", 第10回データ⼯学と情報マネジメントに関するフォーラム（DEIM2018）, F1-4, March 2018. Atsushi Otsuka et al., "Specific Question Generation for Reading Comprehension", in Proceedings of the AAAI 2019 Reasoning for Complex QA (RCQA) Workshop, Honolulu, Hawaii, USA, January 2019. ⼤塚ら, ”問い返し可能な質問応答︓読解と質問⽣成の同時学習モデル", 第11回データ⼯学と情報マネジメントに関するフォーラム（DEIM2019）, A3-3, March 2019. 139

質問の意図を明確にする改訂質問⽣成 [⼤塚淳史+,DEIM18＆19][Otsuka+, RCQA@AAAI19] 改訂質問2 改訂質問1 140

NTTにおける取り組み例 • 機械読解をチャットボット応対への導⼊を検討（トライアルレベル）ボットの回答と共に、マニュアル上の回答部分をハイライトして表⽰質問を⼊⼒するとボットが回答 141

データセットの発展と研究の⽅向性 • NTTにおける実⽤化・研究の取り組み • 今後の展望 – ⾃然⾔語理解へ – ⾃然⾔語理解を超えて 142

個別のタスクから⾃然⾔語理解へ • 特にBERTの登場以降、⾃然⾔語理解タスクの全般に利⽤可能な技術への注⽬が⾼まる • ⾃然⾔語理解の共通的な⾔語モデルと知識ベースを基に、どうやって応⽤タスクに少サンプルで適応するか︖ • タスク間でも⾃然⾔語理解能⼒を共有できないか︖ ⾔語モデル・知識ベース
読解含意換⾔要約翻訳対話 143

General Linguistic Intelligence [Yogatama(DeepMind)+,arXiv(2019/01/31)] BERTを事前学習しても SQuADに適応するには万単位のサンプルが必要 BERTの構造でゼロから学習すると80000サンプル (1epoch)では全く⾜りない
他の読解タスクで教師あり学習しても、結局、万単位のサンプルが必要 Dani Yogatama et al. : Learning and Evaluating General Linguistic Intelligence. CoRR abs/1901.11373 (2019) https://arxiv.org/pdf/1901.11373.pdf 過去に獲得した⾔語知能を⾼速に新タスクへ適応できるか︖ SQuADの精度 SQuADの学習サンプル数 144

General Linguistic Intelligence [Yogatama(DeepMind)+,arXiv(2019/01/31)] SQuAD学習モデルを他データで評価すると性能低い è 汎⽤的な能⼒を獲得できていない
SQuADと⼀緒にマルチタスク学習すると性能は良い F1(EM) F1 BERT→SQuADの状態でTriviaQAを追加学習させると、SQuADの能⼒は⼤きく落ちる（Catastrophic forgetting）読解の精度 TriviaQAの学習サンプル数 145

Natural Language Decathlon (decaNLP) [McCann(Salesforce)+, arXiv18] • 様々なNLPのタスクをすべて"QA"としてマルチタスク学習 Bryan McCann
et al.: The Natural Language Decathlon: Multitask Learning as Question Answering. CoRR abs/1806.08730 (2018) https://arxiv.org/pdf/1806.08730 機械読解機械翻訳⽂書要約含意認識感情分類その他5タスク 146

GPT-2 [Radford+, OpenAI Tech.Rep. 2019/02/14] • 超⼤規模コーパス（800万件Web⽂書）に基づく、超⼤型サイズ（48層1600次元）のGPT（単⽅向Transformer） • ⾔語モデル単体としてSOTA
+ zero-shotで様々なタスクにある程度適応可能テキストコーパスに⾃然に含まれている英⇔仏の翻訳に関するテキスト è Zero-shot翻訳を可能にする⾔語モデルとして下記タスクを解く • 読解 – ⽂書＋質問＋“A:” → 回答 – CoQAで55 F1 • 要約 – 元⽂＋“TL;DR:” → 要約⽂ – CNN/DMで26.58 Rouge-L • 翻訳 – 元⽂＋“english sentence =“ → 訳⽂ – WMT14 Fr->Enで11.5 BLEU https://d4mucfpksywv.cloudfront.net/better-language-models/language- models.pdf Alex Radfordet al.: Language Models are Unsupervised Multitask Learners, OpenAI Tech. Report, 2019. 147

MT-DNN (BigBird) [Liu&He(Microsoft)+,arXiv 2019/02/01] • BERTのfine-tuningをマルチタスク化することでGLUEにてBERT越え Xiaodong Liu et al.:
Multi-Task Deep Neural Networks for Natural Language Understanding. CoRR abs/1901.11504 (2019) https://arxiv.org/pdf/1901.11373.pdf https://gluebenchmark.com/leaderboard Pre-trained BERT Multi-task Fine-tuning 148

外部知識の活⽤ [Mihaylov+, ACL18][Bauer&Wang+,EMNLP18] • ConceptNetをcommonsenseの外部知識として読解に組み込む è まだ⼤きな性能改善には繋がっていない Todor Mihaylov,
Anette Frank: Knowledgeable Reader: Enhancing Cloze-Style Reading Comprehension with External Commonsense Knowledge. ACL (1) 2018: 821-832 Lisa Bauer, Yicheng Wang, Mohit Bansal: Commonsense for Generative Multi-Hop Question Answering Tasks. EMNLP 2018: 4220- 4230 Robert Speer, Joshua Chin, Catherine Havasi: ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. AAAI 2017: 4444-4451 commonsense reasoing [Bauer&Wang+, EMNLP18] http://aclweb.org/anthology/D18-1454 Knowledgeable Reader [Mihaylov+,ACL18] http://aclweb.org/anthology/P18-1076 各単語にsingle-hopで知識を埋め込み各単語にmulti-hopで知識を埋め込み 149

⾃然⾔語理解を超えて 150 • テキストの意味理解を超えたスキルを必要とする質問応答への展望 – 数学・集計・論理などの演算能⼒ – 図・表・データベースの理解⾃然⾔語理解
演算能⼒ DB・表図

DROP [Dua(UCI)+,arXiv(2019/03/01)] 151 • 加算、減算、カウント、ソートなど演算能⼒が必要な読解データセット • 演算もニューラル
に任せるべきなのか︖ Dheeru Dua et al.: DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs, arXiv https://arxiv.org/pdf/1903.00161.pdf

Spider [Yu(Yale U)+,EMNLP18] 152 • 複雑なクエリを含む Text-to-SQL (Semantic Parsing）のデータセット •
機械読解の研究として、知識源がテキスト＋データベースに拡張された設定に拡張できるか︖ https://arxiv.org/pdf/1809.08887 Tao Yu et al.: Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task. EMNLP 2018: 3911-3921

DVQA [Kafle(Adobe)+,CVPR18] 153 • 図で可視化されたデータの理解 • ⼈⼯的に⽣成 • ラベルテキストの
⽂字認識も必要 • テキストとビジュアル、数値演算をどう融合させるか︖ Kushal Kafle, Brian L. Price, Scott Cohen, Christopher Kanan: DVQA: Understanding Data Visualizations via Question Answering. CVPR 2018: 5648-5656 http://openaccess.thecvf.com/content_cvpr_ 2018/papers/Kafle_DVQA_Understanding_D ata_CVPR_2018_paper.pdf

Visual Commonsense Reasoning [Zellers (U Washington)+, arXiv18] • ⾔語＋常識＋ビジョンの理解 •
⾔語モデルと画像特徴量だけで⽴ち向かえるのか︖ Rowan Zellers, Yonatan Bisk, Ali Farhadi, Yejin Choi: From Recognition to Cognition: Visual Commonsense Reasoning. CoRR abs/1811.10830 (2018) 画像と質問に対して、回答と理由を選択 154

おわりに機械読解とは、テキストを知識源とした質問応答タスクで、⾃然⾔語理解への挑戦ニューラル機械読解は、まだ⼈間のレベルを超えていない。現状のモデルはパターンマッチング的な挙動データが不⾜しているのか︖ モデルが未熟なのか︖ BERTは凄いが、全てが解決したわけではない。機械読解においては複数⽂・⻑⽂理解や回答⽣成が課題 SQuAD以降、より現実的な設定のデータセットが次々に
（30件以上）発表されている。何が重要な課題か︖ ⾔語モデル/知識ベース/他データセットをどのように読解へ転移・適応させるか︖⾔語を超えた理解との融合は︖ 155

謝辞 • 今回のチュートリアルに際して、菅原朔さん（東⼤ / 理研AIP）に機械読解データセットやモデルに関して、⼤変貴重なご意⾒を伺いました。⼼より感謝致します。 • ⽇頃よりディスカッション頂いている皆様に感謝します。 –
NTTメディアインテリジェンス研究所の皆様⻫藤いつみさん、⼤塚淳史さん、⻄⽥光甫さん、⼤杉康仁さん、⻑⾕川拓さん、野本成央さん、浅野久⼦さん、富⽥準⼆さん – インターンシップにて機械読解に取り組んで頂いた皆様篠⽥⼀聡さん、Wang Haoさん、千々和⼤輝さん、伊藤淳さん 156

機械読解の現状と展望 / A Talk on Machine Reading Compreh...

機械読解の現状と展望 / A Talk on Machine Reading Comprehension (NLP2019)

More Decks by Kyosuke Nishida

Other Decks in Technology

Featured

Transcript