Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械読解の現状と展望 / A Talk on Machine Reading Comprehension (NLP2019)

機械読解の現状と展望 / A Talk on Machine Reading Comprehension (NLP2019)

言語処理学会第25回年次大会(NLP2019)チュートリアル(2019年3月12日)

Kyosuke Nishida

March 12, 2019
Tweet

More Decks by Kyosuke Nishida

Other Decks in Technology

Transcript

  1. Copyright@2019 NTT corp. All Rights Reserved.
    機械読解の現状と展望
    ⽇本電信電話株式会社
    NTTメディアインテリジェンス研究所
    ⻄⽥ 京介
    ⾔語処理学会第25回年次⼤会(NLP2019)チュートリアル
    2019年3⽉12⽇

    View Slide

  2. ⾃⼰紹介︓⻄⽥京介
    2
    • 2009年NTT⼊社。現在、NTTメディアインテリジェンス
    研究所(@横須賀) 主任研究員(特別研究員)
    • 2年前から機械読解の研究を開始、モデリングに興味
    • 機械読解のコンペ(公開データセット)に積極的に参加中
    主な取組(★はチームメンバの成果)
    リーダーボード有り
    ・MS MARCO Q&A Task: 現在1位
    ・MS MARCO Q&A+NLG Task: 現在1位
    ★HotpotQA Distractor Setting: 現在1位
    ★HotpotQA FullWiki Setting: 現在4位(最⾼1位)
    ★QuAC: 現在1位
    リーダーボード無し
    ・SQuAD-Open (full Wikipedia): 投稿時1位

    View Slide

  3. ⽬次
    • 機械読解とは何か
    – 注⽬の理由、流⾏の経緯
    • SQuADとはどのようなデータセットか
    • 機械読解を⾏うモデルとはどのようなものか
    • ニューラル読解はどの程度のレベルにあるのか
    • データセットの発展と研究の⽅向性
    • NTTにおける実⽤化・研究の取り組み
    • 今後の展望
    本チュートリアルでは、代表的なデータセットや
    モデルの解説と最新の研究成果の紹介を⾏い、
    これまでの研究の到達点と今後の展望について議論します。
    3

    View Slide

  4. 機械読解とは
    • (Machine) Reading Comprehension
    • テキストを知識源とした⾃然⾔語理解に基づく質問応答
    【⼊⼒︓質問】あんしん保険
    の弁護⼠費⽤特約はどのよう
    な場合に対象外になります
    か︖
    【出⼒︓応答】事故の相⼿が
    不明である場合など、相⼿の
    ⽅に法律上の損害賠償請求を
    ⾏うことができない時
    【⼊⼒︓テキスト】
    あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保険契約者が怪我などをされ
    たり、⾃らが所有する⾃動⾞・家屋などの財物を壊されたりすることによって、相⼿の
    ⽅に法律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、弁護⼠などへの法律
    相談・書類作成費⽤などを保険⾦としてお⽀払いする特約です。ただし、保険⾦のお⽀
    払い対象となる費⽤に関しては、当社の同意を得た上で⽀出された費⽤に限ります。ま
    た、事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことが
    できない時は、本特約は対象外となりますのでご注意ください。
    あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保険契約者が怪我などをされ
    たり、⾃らが所有する⾃動⾞・家屋などの財物を壊されたりすることによって、相⼿の
    ⽅に法律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、弁護⼠などへの法律
    相談・書類作成費⽤などを保険⾦としてお⽀払いする特約です。ただし、保険⾦のお⽀
    払い対象となる費⽤に関しては、当社の同意を得た上で⽀出された費⽤に限ります。ま
    た、事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことが
    できない時は、本特約は対象外となりますのでご注意ください。
    4

    View Slide

  5. • 機械読解は本格的に流⾏してからまだ3年程度だが、
    急速に発展している分野
    学術的に⼤きな注⽬
    https://scholar.google.com/citations?user=QcOG6sgAAAAJ&hl=en
    https://scholar.google.com/citations?user=zYze5fIAAAAJ&hl=en
    最も有名なデータ
    セットSQuAD
    最も有名なベース
    ラインモデルBiDAF
    2016/06初出で
    被引⽤数653件
    (2019/02/15)
    2016/11初出で
    被引⽤数433件
    5

    View Slide

  6. ⾃然⾔語理解タスクとしての注⽬
    • 機械読解は⾃然⾔語理解を必要とするタスク
    • 機械読解の研究において得られた知⾒、テクニック、モデ
    ル、データセットは他のタスクにおいても有⽤であるし、
    その逆もまた同じ
    è 多くの研究者にとって「関連研究」と成り得る分野
    ⾔語モデル
    読解 含意 換⾔ 要約 翻訳
    対話
    6
    ⾃然⾔語理解

    View Slide

  7. 企業からも⼤きな注⽬
    • 多くの企業研究所が「データセット作成・公開」から参画
    • 読解モデルの研究開発に取り組む企業はさらに多数
    7

    View Slide

  8. 機械読解の活躍が期待されるシーンの代表例︓
    Web検索
    8
    L スニペットを読んでも
    答えが書いていない
    (マッチしたキーワード
    しか強調されない)
    What city did Super Bowl 50 take place in?

    View Slide

  9. 機械読解の活躍が期待されるシーンの代表例︓
    Web検索
    9
    Answer: Santa Clara
    J 機械読解で
    答えをピンポイントに提⽰
    J エビデンスをスニ
    ペットとして表⽰
    What city did Super Bowl 50 take place in?

    View Slide

  10. 機械読解の活躍が期待されるシーンの代表例︓
    スマートスピーカー
    10
    https://softwareengineeringdaily.com/2018/05/18/alexa-voice-
    design-with-paul-cutsinger/
    What was the final score of
    Super Bowl 50?
    Broncos beat Panthers
    24-10 in Super Bowl 50.
    Knowledge
    Base

    View Slide

  11. 機械読解の活躍が期待されるシーンの代表例︓
    チャットボット
    11
    • あ
    http://tcci.ccf.org.cn/summit/2017/dlinfo/003.pdf
    J 商品ページの仕様や
    レビューを基に回答

    View Slide

  12. データセット数の増加
    0
    5
    10
    15
    20
    2013 2014 2015 2016 2017 2018 2019
    データセット数
    発表年
    (個⼈的な調査; 2019/02/15)
    • 様々な着眼点のデータセットが⼤量に作成されている
    • データセットの構築により機械読解分野は急発展
    12

    View Slide

  13. SQuAD 1.1 [Rajupurkar+, EMNLP16]
    • Stanford⼤が2016/06にリリースした、
    現在のところ最も代表的なデータセット
    ⼊⼒︓テキスト
    ⼊⼒︓質問
    出⼒︓回答
    https://aclweb.org/anthology/D16-1264
    13

    View Slide

  14. SQuAD 1.1 [Rajupurkar+, EMNLP16]
    • リリース直後から、コミュニティにて⼤きな注⽬を集めた
    – 特に、⼈⼿で作成された⼤規模データであったことが理由
    ⼊⼒︓テキスト
    ⼊⼒︓質問
    出⼒︓回答
    Wikipediaの段落(平均140単語)
    無料で公開
    クラウドソーシングで作成した
    100,000件以上の質問・回答ペア
    テキスト中の任意の
    範囲を抽出して回答
    14

    View Slide

  15. SQuAD 1.1 [Rajupurkar+, EMNLP16]
    • リリース直後から、コミュニティにて⼤きな注⽬を集めた
    リーダーボードを
    設置して、現在の
    SOTAをリアルタイム
    に確認可能に
    https://blogs.msdn.microsoft.com/stevengu/2017/10/02/business-ai-tops-the-squad-leader-board/ 15

    View Slide

  16. • リリース直後から急速に成⻑。本会議前に⾮DNNのベー
    スラインから30%精度向上,発表1年後には⼈間に迫る
    リリース後の最⾼精度の変化
    40
    50
    60
    70
    80
    90
    100
    6/1/2016
    7/1/2016
    8/1/2016
    9/1/2016
    10/1/2016
    11/1/2016
    12/1/2016
    1/1/2017
    2/1/2017
    3/1/2017
    4/1/2017
    5/1/2017
    6/1/2017
    7/1/2017
    8/1/2017
    9/1/2017
    10/1/2017
    Machine (EM) Machine (F1)
    Human (EM) Human (F1)
    ⼈間:EM(完全⼀致)
    ⼈間:F1(部分⼀致)
    ⾮DNN F1
    51.0%
    DNN
    70.7%
    EMNLPʼ16で発表
    arXivで発表 (個⼈的な調査)
    16

    View Slide

  17. 2018年1⽉︓「⼈間超え」
    • Alibaba[1]とMicrosoft[2]が同時期に⼈間の完全⼀致のス
    コアを超え、メディアで報じられる
    https://wired.jp/2018/02/08/ai-beat-humans-at-reading/
    https://forbesjapan.com/articles/detail/19346
    https://www.cnn.co.jp/tech/35113360.html
    [1] Wei Wang, Chen Wu, Ming Yan: Multi-Granularity Hierarchical Attention Fusion Networks for Reading
    Comprehension and Question Answering. ACL (1) 2018: 1705-1714
    [2] Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang, Ming Zhou: Gated Self-Matching Networks for Reading
    Comprehension and Question Answering. ACL (1) 2017: 189-198
    17

    View Slide

  18. 2018年10⽉︓ BERTの衝撃
    • BERTが登場。読解に特化したニューラルネット構造を持
    たずに、⼈間のスコアを部分⼀致でも⼤きく超える
    完全⼀致 部分⼀致
    ⼈間のスコア
    BERTのスコア
    Jacob Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
    CoRR abs/1810.04805 (2018)
    https://rajpurkar.github.io/SQuAD-explorer/
    18

    View Slide

  19. ⽬次
    • 機械読解とは何か
    • SQuADとはどのようなデータセットか
    – どのように作られたのか
    – 読解にはどのような能⼒が必要なのか
    • 機械読解を⾏うモデルとはどのようなものか
    • ニューラル読解はどの程度のレベルにあるのか
    • 最新のデータセットと研究の⽅向性
    • NTTにおける実⽤化・研究の取り組み
    • 今後の展望
    著者らの分析
    その後の研究
    での分析
    19

    View Slide

  20. Copyright@2019 NTT corp. All Rights Reserved.
    SQuAD: 100,000+ Questions for
    Machine Comprehension of Text
    Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang
    Stanford Univ.
    EMNLP 2016 (arXiv: 2016/06)
    https://arxiv.org/abs/1606.05250
    (2019/02/15)

    View Slide

  21. SQuAD 1.1 [Rajupurkar+, EMNLP16]
    • テキストに関する質問に、回答範囲を抽出して答える
    ⼊⼒︓段落
    (コンテキスト、パッセージ)
    ⼊⼒︓質問
    出⼒︓回答
    Wikipediaの段落
    (平均140単語)
    クラウドソーシングで作成した
    100,000件以上の質問・回答ペア
    テキスト中の任意の範囲で
    回答(選択肢は無し)
    21

    View Slide

  22. 段落の収集⽅法
    • 英語Wikipediaを収集対象とする
    1. Project Nayuki ( https://www.nayuki.io/ )の内部
    PageRankを⽤いて上位10,000記事を収集
    2. ランダムに536記事をサンプリング
    – 画像・表は削除
    – 500⽂字未満の段落を削除
    3. 最終的に23,215段落(43段落/記事)を収集
    記事タイトル
    の⼀部
    22

    View Slide

  23. 質問・応答ペアの作成
    • Amazon Mechanical Turk をバックエンドとするDaemo
    ( https://www.daemo.org/home )プロジェクトを利⽤
    1. クラウドワーカを選定
    – 過去に1,000タスク以上実施、97%以上の承認率、アメリカ・カ
    ナダ在住のワーカ
    2. ワーカに1記事中の複数段落をまとめてアサイン
    – 各段落に4分を費やし、最⼤5件のQAペア作成を要求
    – 記事完了に要した時間に対して、9ドル/時 を⽀払い
    • 例えば43段落の記事だと、3時間弱程度のタスク
    23

    View Slide

  24. インタフェース/教⽰
    記事中の段落数
    4分使って出来る限り
    5問作ってください
    段落のテキスト
    (リンクなどは削除)
    コピペせず⾃分の⾔葉で
    質問を作ってください。
    難しい質問を推奨します。
    回答は段落中の範囲をハイ
    ライトして選択ください
    24

    View Slide

  25. 追加の回答収集
    • 評価⽤(Dev/Test)⽤に、各記事ごとに、質問作成者と
    は別のワーカを最低2⼈アサイン
    • 質問と段落を提⽰し、2分以内に5質問への回答を要求
    – 例えば43段落の記事だと、1.5時間弱程度のタスク
    – 単純に割ると1問あたり24秒
    – 報酬は 9ドル/時 で同じ
    • 1⼈以上が「回答できない」と判断した質問が2.6%
    25

    View Slide

  26. 統計情報
    • Trianing (80%) / Dev (10%) / Test (10%)に分割
    質問は11単語程度
    (基本的に⽂形式)
    1段落あたり140単語
    =5⽂程度
    回答は3単語程度と短い
    Kyosuke Nishida, Itsumi Saito, Atsushi Otsuka, Hisako Asano, Junji Tomita:
    Retrieve-and-Read: Multi-task Learning of Information Retrieval and Reading Comprehension. CIKM 2018: 647-656
    ※単語数はStanford CoreNLP tokenizerで
    トークナイズしてカウント
    26

    View Slide

  27. 回答タイプ
    • 回答をStanford CoreNLPで機械的に分析
    • 8割以上はエンティティ・短いフレーズ
    約20%が数値・⽇付
    約32%が固有名詞
    約32%が⼀般名詞
    約16%がその他
    27

    View Slide

  28. 回答にはどのような能⼒が必要か
    (著者らの分析)
    1. 語彙のバリエーションの理解
    類義語の理解
    called / referred
    世界知識が必要
    The European … Unionが
    "governing bodies"であると
    いう理解
    下線部分は
    クラウドワーカが
    正解としたもの
    28
    ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析
    (各データは1つ以上のカテゴリに属する)

    View Slide

  29. 回答にはどのような能⼒が必要か
    (著者らの分析)
    2. 構⽂のバリエーションの理解
    – 質問⽂を平叙⽂に⾔い換えたときに、係り受け構造が回答を含む
    ⽂と異なるもの
    Currentの使われ⽅に差異
    下線部分は
    クラウドワーカが
    正解としたもの
    29
    ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析
    (各データは1つ以上のカテゴリに属する)

    View Slide

  30. 回答にはどのような能⼒が必要か
    (著者らの分析)
    3. 複数の⽂にまたがる推論
    – 照応や複数⽂の⾼レベルの理解が必要なもの
    照応が必要
    "They"は"The V&A …
    galleries"であるという理解
    下線部分は
    クラウドワーカが
    正解としたもの
    30
    ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析
    (各データは1つ以上のカテゴリに属する)

    View Slide

  31. 回答にはどのような能⼒が必要か
    (著者らの分析)
    4. (回答できないもの)
    – ワーカの回答に同意できなかったり、⼀意に回答が定まらないも

    「刑事罰の⽬的は︖」に対して
    「無能⼒化(incapacitation)」⾃体が
    回答となるのはおかしい
    下線部分は
    クラウドワーカが
    正解としたもの
    31
    ※SQuAD論⽂では192データをサンプリングしてカテゴリ分析
    (各データは1つ以上のカテゴリに属する)

    View Slide

  32. 評価⽅法と結果
    • ⼩⽂字化、句読点削除、冠詞削除して、完全⼀致(EM)
    と部分⼀致(F1)を評価
    • F1は空⽩⽂字でトークナイズして単語レベルで計算
    質問の曖昧さ(約6%)、
    時間制限(120秒/5問)、
    集中⼒の⽋如(1タスクで
    1.5時間程度)が要因︖
    エンティティ
    は好成績
    それ以外は
    やや落ちる
    回答タイプ
    ごとに分類
    32

    View Slide

  33. この章のまとめ
    • SQuAD 1.1(2016/06発表)はリリース直後から⼤きな
    注⽬を集め、発表から1年半程度で⼈間のスコアに匹敵す
    るに⾄った
    • データはクラウドソーシングにて作られ、回答はテキスト
    中の任意の範囲で与えられる
    • 主に語彙や構⽂のバリエーションの理解が重要と主張
    è 後に、回答の難しさや必要なスキルについて多数の研究報告あり
    • タスク設定上、⼈間でもミスをするようになっている
    – テスト時は120秒/5問で回答、1.5時間程度連続
    33

    View Slide

  34. テキストを読んで質問にお答えください。
    答えはテキスト中から1つの範囲を抽出してください。
    読解⼒テスト
    34
    Q. 2019年の⼲⽀は︖
    ⻄暦2019年は平成31年です。
    平成31年の⼲⽀は「亥年」です。
    テキスト
    例題)

    View Slide

  35. 読解⼒テスト
    35
    Q.社会脳科学では近年何が重要視されている︖
    意思決定に関わる脳機能の解明が進み,ヒトの社会⾏動を対象とする社
    会脳科学という研究分野が盛んになっている.この分野は疾患など多く
    の社会問題とも関連する.従来,⾼度に発達したヒトの社会⾏動におい
    て,背外側前頭前野や帯状回といった前頭葉の熟慮的な認知システムの
    重要性が強調されてきた.しかし近年になり,扁桃体や線条体といった
    直観的な情動システムの重要性が認識されている.本講演ではこれらの
    知⾒の意味するところを概観した後,今後益々重要になると考えられる
    ソーシャルネットワークサービス(SNS)の社会脳科学について紹介する.
    脳科学における⾃然⾔語処理技術の使われ⽅,脳科学と⾃然⾔語処理の
    相互交流の可能性などについて議論したい.
    NTTが作成した読解モデルの回答(所要時間︓1秒未満)︓
    扁桃体や線条体といった直観的な情動システムの重要性

    View Slide

  36. ⽬次
    • 機械読解とは何か
    • SQuADとはどのようなデータセットか
    • 機械読解を⾏うモデルとはどのようなものか
    • ニューラル読解はどの程度のレベルにあるのか
    • データセットの発展と研究の⽅向性
    • NTTにおける実⽤化・研究の取り組み
    • 今後の展望
    36

    View Slide

  37. Copyright@2019 NTT corp. All Rights Reserved.
    読解モデルの紹介
    BiDAF (2016/11発表)、QANet (2018/04発表)、
    BERT (2018/10)について
    SQuAD 1.1
    leaderboard
    (2019/2/15)

    View Slide

  38. Copyright@2019 NTT corp. All Rights Reserved.
    読解モデルの紹介(1)
    Bidirectional Attention Flow for Machine
    Comprehension
    Minjoon Seo1 Aniruddha Kembhavi2 Ali Farhadi1,2 Hannaneh Hajishirzi2
    1 Univ. Washington
    2 Allen Institute for Artificial Intelligence
    ICLR 2017 (arXiv: 2016/11)
    https://arxiv.org/abs/1611.01603
    (2019/02/15)

    View Slide

  39. 概要
    • タスク︓
    – 機械読解。コンテキスト(段落あるいはパッセージとも呼ぶ)に
    関する質問に対して、回答範囲の始点、終点を予測する。
    • 提案︓
    – Bi-Directional Attention Flow(BiDAF)モデルの提案。
    • 特徴︓
    – 質問→コンテキスト、コンテキスト→質問のように、双⽅向にア
    テンションを⾏う。
    • 評価︓
    – SQuAD1.1 で当時最⾼(2017/2/22)
    • 完全⼀致︓73.7%(⼈間︓82.2%, 前1位: 71.6%)
    • 部分⼀致︓81.5%(⼈間︓91.2%, 前1位: 80.4%)
    • 1位防衛期間: 20⽇程度 シンプルな構成、ソース公開で主流へ
    39

    View Slide

  40. アーキテクチャの全体図
    ⼊⼒
    出⼒
    コンテキスト 質問
    回答始点 回答終点
    1. 単語
    埋込み
    3. アテン
    ション
    2. ⽂脈
    埋込み
    4. モデ
    リング
    5. 出⼒
    40

    View Slide

  41. 1. 単語埋め込み層
    ⼊⼒︓コンテキスト(T単語)、質問(J単語)
    処理︓2つのレベルで埋め込む
    1. 単語埋め込み
    – 事前学習した100次元のGloVe を利⽤
    2. ⽂字列埋め込み (OOVの解決に有効)
    – 1次元のCNN(カーネルサイズ5)を利⽤
    出⼒︓各埋込を結合→Highway Network
    – コンテキスト表現 ∈ !×#
    – 質問表現 ∈ !×$
    “comprehension”
    GloVe
    100次元
    CNN
    100次元
    “comprehension”
    Max-pooling
    concat
    highway
    200次元ベクトル
    200次元
    41

    View Slide

  42. 2. ⽂脈埋め込み層
    ⼊⼒
    出⼒
    コンテキスト 質問
    回答始点 回答終点
    2. ⽂脈
    埋込み
    42

    View Slide

  43. ⼊⼒︓
    – コンテキスト(T単語)表現 ∈ !×#
    – 質問(J単語)表現 ∈ !×$
    処理︓
    – 質問・コンテキストの単語系列をそれぞれ双⽅向LSTMで符号化
    出⼒︓
    – コンテキスト表現 ∈ %!×#、質問表現 ∈ %!×$
    2. ⽂脈埋め込み層
    単語埋め込み(d=200次元)
    双⽅向の状態ベクトル(2d=400次元)
    順⽅向LSTM
    (初期値0)
    逆⽅向LSTM
    (初期値0)
    43

    View Slide

  44. 3. アテンション層
    ⼊⼒
    出⼒
    コンテキスト 質問
    回答始点 回答終点
    3. アテン
    ション
    44

    View Slide

  45. ⼊⼒︓
    – コンテキスト(T単語) ∈ %!×#、質問(J単語) ∈ %!×$
    処理︓
    1. コンテキスト・質問の各単語のマッチングを取って類似度⾏列
    ∈ #×$を求める
    3. アテンション層(1/4; マッチング)
    学習パラメータ
    コンテキスト
    質問
    45

    View Slide

  46. ⼊⼒︓
    – コンテキスト(T単語) ∈ %!×#、質問(J単語) ∈ %!×$
    – 類似度⾏列 ∈ #×$
    処理︓Context2Query
    1. 類似度⾏列 ∈ #×$を列⽅向にsoftmax
    2. コンテキストの各単語(t)毎に、質問の単語系列をアテンション
    プーリング (
    ∈ %!×#
    3. アテンション層(2/4; ⽂章→質問)
    コンテキスト
    質問
    1.
    2.
    直感的には、コンテキストの各単語ごとに、
    質問の中で関連する単語を強調する操作
    46

    View Slide

  47. ⼊⼒︓
    – コンテキスト(T単語) ∈ %!×#、質問(J単語) ∈ %!×$
    – 類似度⾏列 ∈ #×$
    処理︓Query2Context
    1. ∈ #×$を列⽅向に最⼤値取得→⾏⽅向に正規化
    2. コンテキストの単語系列をアテンションプーリング +
    ℎ ∈ %!
    3. コンテキストの単語数分タイリング (
    ∈ %!×#
    3. アテンション層(3/4; 質問→⽂章)
    コンテキスト
    質問
    1.
    2.
    3.
    T単語分に複製
    直感的には、質問のいずれかの単語に
    強く関連するコンテキスト単語を強調する操作
    47

    View Slide

  48. ⼊⼒︓
    – (アテンション前の)コンテキスト表現 ∈ ×
    – 双⽅向アテンションの出⼒ (
    ∈ ×、(
    ∈ ×
    処理︓
    1. 3表現を各コンテキスト単語ごとに連結して ∈ )!×#を出⼒
    3. アテンション層(4/4; 最終出⼒)
    アテンション前の表現H
    も含めることが重要
    48

    View Slide

  49. 4. モデリング層
    ⼊⼒
    出⼒
    コンテキスト 質問
    回答始点 回答終点
    4. モデ
    リング
    49

    View Slide

  50. ⼊⼒︓
    – 質問に基づいたコンテキスト表現 ∈ )!×#
    処理︓
    – 2層の双⽅向LSTMで符号化
    出⼒︓
    – 質問に基づいたコンテキスト表現 ∈ %!×#
    4. モデリング層
    この状態で、回答範囲の始点が計算可能な状態
    50

    View Slide

  51. 5. 出⼒層
    ⼊⼒
    出⼒
    コンテキスト 質問
    回答始点 回答終点
    5. 出⼒
    51

    View Slide

  52. ⼊⼒︓
    – 質問に基づいたコンテキスト表現
    • アテンション層の出⼒ ∈ !"×$
    • モデリング層の出⼒ ∈ %"×$
    処理︓
    1. G, Mに基づき、各単語位置毎に線形変換して正規化
    出⼒︓
    – 始点の確率分布 * ∈ #
    5. 出⼒層(1/2; 始点)
    Super Bowl 50 was an American football game to determine …
    コンテキスト
    52

    View Slide

  53. ⼊⼒︓
    – 質問に基づいたコンテキスト表現
    • アテンション層の出⼒ ∈ !"×$
    • モデリング層の出⼒ ∈ %"×$
    処理
    1. 回答の始点を条件とするイメージでMにさらにLSTMを作⽤させて
    終点⽤のモデリングをし ! ∈ !"×$ を得る
    2. G, Mに基づき、各単語位置毎に線形変換して正規化
    出⼒︓
    – 終点の確率分布 ! ∈ $
    5. 出⼒層(2/2; 終点)
    Super Bowl 50 was an American football game to determine …
    コンテキスト
    M
    始点p1 終点p2
    M2
    G
    53

    View Slide

  54. 学習とテスト
    • 学習︓損失関数は始点と終点の正解位置%, &を⽤いて負
    の対数尤度により最適化
    • テスト︓'
    %(
    &が最⼤となる(k,l)の範囲(k≦l)を選択
    Super Bowl 50 was an American football game to determine …
    回答範囲として抽出

    54

    View Slide

  55. 実験︓SQuADスコアに関する評価
    • ⾮NNに⽐べて単体モデルで26〜27%精度向上。
    • 12モデルのアンサンブルによりさらに4〜5%精度向上。
    EM: 回答範囲の完全⼀致、F1: 部分⼀致 55

    View Slide

  56. 質問とコンテキストのマッチング
    アテンション類似度⾏列Sの可視化
    • 質問内容に応じて関連するコンテキスト単語を注視
    • 局所的にパターンマッチング→⼤域的に⾒て選択
    コンテキスト
    質問
    質問の各単語に強く反応
    したコンテキスト単語
    Whereè場所関連のコ
    ンテキスト単語に注視
    ʻSuper Bowl 50ʼの出現
    箇所を繰り返し注視
    正解の回答範囲に対応する箇所︓
    56

    View Slide

  57. BiDAFのまとめ
    • 質問、コンテキストをそれぞれエンコーディングし
    て双⽅向アテンションにより単語レベルでマッチン
    グを取る
    • モデリング・出⼒層にて、
    – クエリタイプと回答範囲の局所的なパターンマッチング
    – ⼤域的なsaliency
    を獲得し回答範囲の始点・終点を決定するイメージ
    • 精度の良さ、モデルのシンプルさ、およびコード公
    開によりベースラインモデルとして定着した
    57

    View Slide

  58. Copyright@2019 NTT corp. All Rights Reserved.
    読解モデルの紹介(2)
    QANet: Combining Local Convolution with
    Global Self-Attention for Reading Comprehension
    Adams Wei Yu1, David Dohan2, Minh-Thang Luong2, Rui Zhao2, Kai Chen2,
    Mohammad Norouzi2, Quoc V. Le2
    1 Carnegie Mellon University
    2 Google Brain
    ICLR 2018 (arXiv: 2018/04)
    https://arxiv.org/abs/1804.09541
    (2019/2/15)

    View Slide

  59. 概要
    • タスク︓
    – 機械読解。コンテキスト(段落あるいはパッセージとも呼ぶ)に
    関する質問に対して、回答範囲の始点、終点を予測する。
    • 提案︓
    – 新モデルQANetの提案
    – Data augmentation⼿法の提案
    • 特徴︓
    – RNNをconvolutionとself-attentionに置き換え130層超の構成
    – 翻訳モデルを活⽤して英→仏→英でデータを増加
    • 評価︓
    – SQuAD1.1 で当時最⾼(2018/3/19)、完全⼀致で⼈間超え
    • 完全⼀致︓83.9%(⼈間︓82.2%, 前1位: 82.5%)
    • 部分⼀致︓89.7%(⼈間︓91.2%, 前1位: 89.3%)
    • 1位の防衛期間: 4ヶ⽉程度
    59

    View Slide

  60. アーキテクチャの全体図
    ⼊⼒
    出⼒
    コンテキスト 質問
    回答始点 回答終点
    1. 単語
    埋込み
    2.⽂脈
    埋込み
    3. アテ
    ンション
    4. モデ
    リング
    5. 出⼒
    • 構造はBiDAFと同じ
    • ⽂脈埋め込み、モデ
    リング層で使う
    LSTMを変更
    60

    View Slide

  61. QANet: local conv+global self-att
    Self-attention
    ⼤域的な関係性
    を捉える
    Convolution
    ⽂中の局所的な
    関係性を捉える
    FFN
    モデルの表現能
    ⼒を⾼める
    Position-
    embedding
    各単語の"位置"
    を符号化
    • LSTMの代わりに
    右図のエンコーダ
    ブロックを利⽤
    • Transformer[1]のブ
    ロックにconvolution
    を追加した構成
    [1] Ashish Vaswani et al. : Attention is All you Need. NIPS
    2017: 6000-6010
    61

    View Slide

  62. 特徴1) Self-attention
    • 2018年前半にSQuADのEM指標で⼈間スコアを越えてき
    た3⼿法は"Self-attention"機構を共通点として持つ
    – QANet(Google; 2018/03にリーダーボード投稿)
    – SRQA (Alibaba; 2018/01にリーダーボード投稿) [1]
    – R-NET (Microsoft; 2018/01にリーダーボード投稿) [2]
    コンテキスト
    質問
    コンテキスト
    コンテキスト
    通常のアテンション(マッチング) セルフアテンションのイメージ
    [1] Wei Wang, Chen Wu, Ming Yan: Multi-Granularity Hierarchical Attention Fusion Networks for
    Reading Comprehension and Question Answering. ACL (1) 2018: 1705-1714
    [2] Wenhui Wang, Nan Yang, Furu Wei, Baobao Chang, Ming Zhou: Gated Self-Matching Networks for
    Reading Comprehension and Question Answering. ACL (1) 2017: 189-198 62

    View Slide

  63. なぜSelf-attentionか
    • 単語系列の⽂脈の理解は主にLSTMで⾏われてきたが、⻑
    期依存性の理解には限界があった
    • 離れた単語の関係性も直接考慮できる(しかも省メモリで
    計算可)セルフアテンションは性能向上に⼤きく寄与した
    ※翻訳のTransformerと読解のR-NETは同時期(2017/05-06頃)に
    self-attentionを導⼊
    コンテキスト
    コンテキスト
    LSTM セルフアテンション
    コンテキスト
    遠く離れた
    単語の関係性
    を捕まえにくい
    遠く離れた
    単語も直接
    関係を考慮
    63

    View Slide

  64. 特徴2) 逆翻訳によるデータ拡張
    • データ不⾜が課題 è 翻訳モデルで学習データを増やす
    – オリジナル︓「英→仏→英」︓「英→独→英」を3:1:1で混合
    64

    View Slide

  65. 少し脱線︓最近の逆翻訳
    • 機械翻訳も逆翻訳で⼤きな改善 [1] (2018/08)
    • 知⾒︓MAP推定(ビーム・貪欲探索)の綺麗なデータ拡張
    よりも、サンプリングやノイズを追加した⽅が有益
    è QANetも25候補からサンプリングしているので、
    ⽔増しデータは結構ノイズが含まれているのでは︖
    [1] Sergey Edunov et al.: Understanding Back-Translation at Scale. EMNLP 2018: 489-500
    こちら
    の⽅が
    有益
    65

    View Slide

  66. さらに脱線︓最近の含意認識
    http://aclweb.org/anthology/P17-1152
    http://arxiv.org/abs/1901.02609
    Qian Chen, Xiaodan Zhu, Zhen-Hua Ling, Si Wei, Hui Jiang, Diana Inkpen: Enhanced LSTM
    for Natural Language Inference. ACL (1) 2017: 1657-1668
    Qian Chen, Wen Wang: Sequential Attention-based Network for Noetic End-to-End Response
    Selection. CoRR abs/1901.02609 (2019)
    1. 単語
    埋込み
    2.⽂脈
    埋込み
    3. アテ
    ンション
    4. モデ
    リング
    5. 出⼒
    • 現在のベースライン的な⼿法であるESIM
    [Chen+,ACL17] も、基本的な構造はBiDAFと似ている
    前提 仮説
    含意/⽭盾(/中⽴)
    66

    View Slide

  67. QANetのまとめ
    • BiDAFと基本的に同じ構造
    – BiDAFは⽂ペアマッチングの構成として汎⽤的で優秀
    • LSTMをTransformer-likeなブロックに変更、self-
    attentionが効果あり。
    – ⻑期依存の⽂脈の理解が改善された。
    • 逆翻訳によるData augmentationの有効性を⽰す
    – 追加されたデータはかなり汚いはず。ノイズデータから学習する
    ことで⾃然⾔語の理解度が上がったとみるか、パターンマッチン
    グのバリエーションが豊かになったとみるか︖
    67

    View Slide

  68. Copyright@2019 NTT corp. All Rights Reserved.
    読解モデルの紹介(3)
    BERT: Pre-training of Deep Bidirectional
    Transformers for Language Understanding
    Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
    Google AI Language
    arXiv 2018/10
    https://arxiv.org/abs/1810.04805
    (2019/2/15) (2019/3/9)

    View Slide

  69. 概要
    • タスク︓
    – 単⽂・⽂ペア⼊⼒の⾮⽣成系タスク全般
    • 提案︓
    – Bidirectional Encoder Representations from Transformers
    (BERT)モデルの提案。
    • 特徴︓
    – 双⽅向Transformer⾔語モデルを⼤規模コーパスで事前学習
    • マスク単語予測と、次⽂章判定
    – タスク適応は、出⼒層をタスク毎に1層のみ追加してfine-tuningする
    • 評価︓
    – 11タスクでSOTA︓含意、⾔い換え、⽂の分類など
    – SQuAD1.1 でも最⾼精度(2018/10/5)、両指標で⼤きく⼈間越え
    • 完全⼀致︓87.4%(⼈間︓82.2%, 前1位: 85.4%)
    • 部分⼀致︓93.2%(⼈間︓91.2%, 前1位: 91.2%)
    69

    View Slide

  70. BERTとは
    • 双⽅向Transformerブロックを24層重ねた⾔語モデル
    • 読解に特化した構造を持たない
    Transformer(Trm)
    ブロック
    70

    View Slide

  71. ⾔語モデルの事前学習
    • 機械読解をはじめ応⽤タスクの学習データは数⼗万件程度
    と多くないので、アノテーション不要の⼤規模コーパスか
    ら学習したモデルを転移することが流⾏
    – OpenAI GPT [1] (2018/06に発表)
    – ELMo [2] (2018/02に発表)
    [1] Alec Radford et al.: Improving language understanding with unsupervised learning. Technical report, OpenAI, 2018.
    [2] Matthew E. Peters et al. : Deep Contextualized Word Representations. NAACL-HLT 2018: 2227-2237
    71

    View Slide

  72. ⾔語モデルの事前学習
    • ⾔語モデルはleft-to-rightあるいはright-to-leftの次単語
    を予測するモデルとするのが普通であった
    left-to-right Transformer left-to-right & right-to-left LSTMs
    (!
    |"!
    ) これまでの単語系列から次単語を予測
    72

    View Slide

  73. BERTの特徴(1) 単語のマスク
    • 単⽅向よりも双⽅向でモデリングした⽅が性能が良くなる
    と期待して、⾔語モデルを⽳埋めで学習する
    My [MASK] is hairy
    My dog is hairy
    ⼊⼒の⼀部をマスク
    マスク前の⽂章を予測
    BERT
    73

    View Slide

  74. BERTの特徴(1) 単語のマスク
    • マスク⽂章はランダムに作成
    My dog is hairy
    My [MASK] is hairy
    15%の単語をマスク対象として選択
    80%は
    そのまま
    [MASK] apple dog
    10%は
    ランダム置換
    10%は
    元に戻す
    74

    View Slide

  75. BERTの特徴(2) 次⽂章予測
    • NLPのタスクは2つの⽂の関係性理解が多い
    • 隣接する⽂/ランダムな2⽂をセパレータで繋げて、隣接す
    る⽂か否かの判定を⽳埋め予測と同時に学習
    [CLS] my dog is cute [SEP] he likes play [MASK] [SEP]
    2⽂⽬
    1⽂⽬
    IsNext my dog is cute [SEP] he likes play piano [SEP]
    分類 ⽳埋め
    BERT
    75

    View Slide

  76. BERTの特徴(3) fine-tuning
    • 出⼒層を1層追加してfine-tuningするのみで各タスクに適応
    • 機械読解の場合︓モデルに始点⽤の全結合層+softmax、終点⽤の全
    結合層+softmaxを追加して、回答範囲の始点・終点を予測する
    • ⼊⼒は質問とコンテキスト(段落)を繋げて⼊⼒
    76

    View Slide

  77. 事前学習の設定
    • Book Corpus (8億ワード)[1] + 英語Wikipedia(25億
    ワード)を利⽤
    – ⽂レベルでシャッフルされているコーパスは良くない
    • セパレータで区切る2⼊⼒は、より⻑い⽂脈の理解のため
    それぞれ2⽂以上から構成させても良い
    • 語彙はワードピース[2] 30,000種としてOOVを無くす
    • ⼊⼒⻑は最⼤512トークン(理解可能なテキスト⻑さに限
    りがある)
    • 16 Cloud TPUs で4⽇間(≒100時間)
    – 32 Cloud TPU v2 Pod: $24.0 USD / 時 [3]
    [1] Yukun Zhu et al. : Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and
    Reading Books. ICCV 2015: 19-27
    [2] Yonghui Wu et al. : Google's Neural Machine Translation System: Bridging the Gap between Human and Machine
    Translation. CoRR abs/1609.08144 (2016)
    [3] https://cloud.google.com/tpu/docs/pricing
    77

    View Slide

  78. SQuAD1.1の評価結果
    • BASE: 12層、各層768次元(パラメータ数1.1億)
    • LARGE: 24層、各層1024次元(パラメータ数3.4億)
    • アンサンブル: 7モデル
    • TriviaQA: 抽出型の読解データセット[1]
    [1] Mandar Joshi et al. : TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading
    Comprehension. ACL (1) 2017: 1601-1611
    78

    View Slide

  79. BERTの他タスクでの評価
    • GLUE [1]
    – ⽂ペア、単⽂⼊⼒の⾔語理解タスク9種。
    – 含意、⾔い換え、⽂類似性、分類。
    • CoNLL 2003 NER [2]
    – 固有表現抽出
    • SWAG [3]
    – 次⽂予測
    [1] Alex Wang et al.: GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language
    Understanding. BlackboxNLP@EMNLP 2018: 353-355
    [2] Erik F. Tjong Kim Sang, Fien De Meulder: Introduction to the CoNLL-2003 Shared Task: Language-
    Independent Named Entity Recognition. CoNLL 2003: 142-147
    [3] Rowan Zellers et al.: SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference.
    EMNLP 2018: 93-104
    79

    View Slide

  80. BERTのまとめ
    • 双⽅向Transformer.⼤規模コーパスから⽳埋めと次⽂予
    測でpre-trainingする
    • Pre-trainモデルをfine-tuningして機械読解に適応
    – 読解に特化した複雑な構造は持たない
    – Pre-train時の学習データにQとAの関係性は無い
    • 様々な⾃然⾔語理解タスクでSOTA
    – QA、含意、⾔い換え、固有表現抽出など
    – Fine-tuningでなく、ELMoの⽤にfeatureとして利⽤しても有効
    80

    View Slide

  81. ⽬次
    • 機械読解とは何か
    • SQuADとはどのようなデータセットか
    • 機械読解を⾏うモデルとはどのようなものか
    • ニューラル読解はどの程度のレベルにあるのか
    – ⾃分で確かめる⽅法
    – 分析論⽂の紹介
    • データセットの発展と研究の⽅向性
    • NTTにおける実⽤化・研究の取り組み
    • 今後の展望
    81

    View Slide

  82. モデルの挙動が確認できる
    • SQuADのサイトでは幾つかのモデルの回答が⾒られる
    • BERT (ensemble)の例︓
    どういう問題でミスをし
    ているか調べられる
    https://rajpurkar.github.io/SQuAD-explorer/explore/1.1/dev/
    82

    View Slide

  83. モデルの挙動が確認できる
    • SQuADのサイトのデモは問題を変更できないが、
    AllenNLPのデモ(BiDAF)では変更可能
    https://demo.allennlp.org/machine-comprehension/
    好きなテキスト・
    質問で試せる
    読解結果
    83

    View Slide

  84. 質問の僅かな違いが
    読解エラーになる例
    Q. Who was the co-MVP of Super Bowl XII? Q. Who was the MVP of Super Bowl XII?
    co-MVPをMVPに
    するだけで間違った
    https://demo.allennlp.org/machine-comprehension/ 84

    View Slide

  85. 敵対的な⽂の追加 [Jia+,EMNLP17]
    • SQuADに本質的には無関係な⽂を1つ挿⼊するだけで、BiDAFのアン
    サンブルモデルの精度が80%→34.2%まで落下(AddSentデータ)
    追加した⽂
    追加⽂により予測が
    変わってしまう
    Robin Jia, Percy Liang: Adversarial Examples for Evaluating Reading
    Comprehension Systems. EMNLP 2017: 2021-2031
    https://www.aclweb.org/anthology/D17-1215
    85

    View Slide

  86. 敵対的な⽂の追加 [Jia+,EMNLP17]
    敵対的な⽂の作り⽅
    • ステップ1: 質問を変化
    – 名詞や形容詞:WordNetの反
    義語を⽤いて置換
    – 固有名詞や数︓GloVe空間で
    近い単語に置換
    • ステップ2: 回答も変化
    – 同じタイプ(POSやNERにつ
    いて)の物に置換
    • ステップ3: 平叙⽂化
    – 変化させた質問と回答を使っ
    た平叙⽂に変換
    • ステップ4: 修正
    – クラウドワーカによる確認/
    修正
    86

    View Slide

  87. 敵対的な⽂の追加 (2) [Mudrakarta+,ACL18]
    • 質問単語に含まれる重要な単語(モデルの予測に寄与する単語)を
    使った敵対的サンプルはモデルをより上⼿く騙せる
    ⾊付=重
    要単語
    ※ 論⽂では他のタスクについても分析
    Pramod Kaushik Mudrakarta, Ankur Taly, Mukund Sundararajan,
    Kedar Dhamdhere: Did the Model Understand the Question? ACL (1)
    2018: 1896-1906
    http://aclweb.org/anthology/P18-1176
    単語置換でア
    タック成功
    Jia+,EMNLP17
    87

    View Slide

  88. 簡単な質問の存在 [Sugawara+,EMNLP18]
    • 質問⽂の最初の1〜2単語で回答できたり、質問と最も類似した⽂の中
    に回答がある“簡単”なデータが多い
    • SQuADの場合、"難しい"に分類されたデータは15.7%
    回答は必ず存在する前提&
    「いつ」に対する回答候補が
    他にないのでWhenだけでも
    回答できてしまう
    質問に最も類似した⽂(s1)に
    回答が含まれている
    http://aclweb.org/anthology/D18-1453
    Saku Sugawara, Kentaro Inui, Satoshi
    Sekine, Akiko Aizawa: What Makes Reading
    Comprehension Questions Easier? EMNLP
    2018: 4208-4219
    88

    View Slide

  89. 読解に必要なスキルとは︖
    [Sugawara+, EMNLP18,ACL17,AAAI17]
    ※ 論⽂では他のデータセットも調査
    • Saku Sugawara, Kentaro Inui, Satoshi Sekine, Akiko Aizawa: What Makes Reading Comprehension Questions Easier? EMNLP 2018:
    4208-4219
    • Saku Sugawara, Hikaru Yokono, Akiko Aizawa: Prerequisite Skills for Reading Comprehension: Multi-Perspective Analysis of MCTest
    Datasets and Systems. AAAI 2017: 3089-3096
    • Saku Sugawara, Yusuke Kido, Hikaru Yokono, Akiko Aizawa: Evaluation Metrics for Machine Reading Comprehension: Prerequisite
    Skills and Readability. ACL (1) 2017: 806-817
    • Sewon Min, Victor Zhong, Richard Socher, Caiming Xiong: Efficient and Robust Question Answering from Minimal Context over
    Documents. ACL (1) 2018: 1725-1735
    簡単な問題は単語マッチだけで解ける。
    常識や世界知識を必要とする問題は難しい。
    数学や論理的な推論を必要する質問は
    SQuADにはほとんど含まれていない。
    SQuADの多くは1つの⽂の情報だけで解ける。
    複数⽂の場合も共参照の推論が中⼼。
    ⽂選択モデル→読解が⾼性能[Min+,ACL18]
    89

    View Slide

  90. • 質問⽂から重要度の低い単語
    を⽋落させていくと、出⼒を
    変えずに2〜3単語まで削れる
    • 削った質問⽂は、⼈間にとっ
    ては理解できない
    • 削った質問⽂で正しく回答し
    てしまうことを抑制すること
    が学習に良い影響を与える
    質問⽂を⽋落させた場合の分析
    [Feng+, EMNLP18]
    ※論⽂では他のデータセットも調査
    Shi Feng et al.: Pathologies of Neural Models Make
    Interpretation Difficult. EMNLP 2018: 3719-3728
    http://aclweb.org/anthology/D18-1407
    平均11.5単語
    →2.3単語まで
    出⼒を変えずに
    削れた
    90

    View Slide

  91. ⽇本語読解の実例
    [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤ NLP19の招待
    講演の概要
    正解(「近年」や「認識」が
    ⼿掛かりとして強⼒)
    91

    View Slide

  92. ⽇本語読解の実例
    [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤
    正解(多少の揺れは対応可
    能)
    NLP19の招待
    講演の概要
    近年→最近
    認識→重要視
    92

    View Slide

  93. ⽇本語読解の実例
    [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤ NLP19の招待
    講演の概要
    「最近」を削除
    正解︖(従来と近年の
    話を両⽅カバー)
    93

    View Slide

  94. ⽇本語読解の実例
    [⻄⽥+,NLP18][Nishida+,CIKM18]を利⽤
    追加
    失敗
    先程は成功した質問
    94

    View Slide

  95. この章のまとめ
    • 分析の結果、SQuADには「深い」⾃然⾔語理解を必要と
    しない問題が⼀定の割合で含まれている
    – クエリタイプで回答候補がかなり絞られる
    • 現状のニューラル読解モデルも「浅い」パターンマッチン
    グ的な読解が多い
    – ⼈間には⾒られないミスも散⾒される
    • データ・モデルの双⽅で改善が必要
    – BERTで⼤きな改善︓読解における詳細な分析はこれから
    – データセットの発展も⽬覚ましい︓学習できる範囲が拡⼤中
    95

    View Slide

  96. ⽬次
    • 機械読解とは何か
    • SQuADとはどのようなデータセットか
    • 機械読解を⾏うモデルとはどのようなものか
    • ニューラル読解はどの程度のレベルにあるのか
    • データセットの発展と研究の⽅向性
    • NTTにおける実⽤化・研究の取り組み
    • 今後の展望
    96

    View Slide

  97. データセットの歴史
    • 2016年(SQuAD)以降、急速に増加中
    – 2015以前: ⼩規模なデータ
    – 2015〜︓⼤規模なデータ(⾃動作成)
    – 2016〜︓⼤規模なデータ(⼈⼿作成)
    – 2017〜︓より実践的な問題設定へ
    0
    5
    10
    15
    20
    2013 2014 2015 2016 2017 2018 2019
    データセット数
    発表年
    (個⼈的な調査; 2019/03/09) 97

    View Slide

  98. 読解データセット(英語)
    MCTest
    (2013/10)
    CNN/DM
    (2015/06)
    CBT
    (2015/11)
    SQuAD 1.1
    (2016/06)
    NewsQA
    (2016/11)
    MovieQA
    (2015/12)
    RecipeQA
    (2018/09)
    DuoRC
    (2018/04)
    ProPara
    (2018/05)
    MultiRC
    (2018/06)
    QuAC
    (2018/08)
    CoQA
    (2018/08)
    HotpotQA
    (2018/09)
    SQuAD 2.0
    (2018/06)
    マルチモーダル
    Who-did-What
    (2016/08)
    QA4MRE
    (2011-13)
    LAMBDA
    (2016/06)
    複数テキスト
    1テキスト,
    ⼈⼿作成,
    範囲抽出
    浅いパターンマッチングから
    より深い推論へ
    対話的
    MS MARCO 2.1
    (2018/10)
    範囲抽出
    からの脱却
    1テキスト,
    ⾃動⽣成
    MCScript
    (2018/03)
    2016 2017 2018
    CliCR
    (2018/03)
    ARC
    (2018/03)
    OpenBookQA
    (2018/09)
    ⼤規模知識 / 専⾨知識
    東ロボ
    (2018/11)
    Spoken SQuAD
    (2018/04)
    2019
    Natural
    Questions
    (2019/01)
    emrQA
    (2018/09)
    QuaRel
    (2018/11)
    TQA
    (2017/07)
    Qangaroo
    (WikiHop,MedHop)
    (2017/10)
    SearchQA
    (2017/04)
    TriviaQA
    (2017/05)
    Quasar
    (2017/07)
    MS MARCO 1.0
    (2016/11) RACE
    (2017/04)
    NarrativeQA
    (2017/12)
    SQuAD full
    (2017/04)
    CLOTH
    (2017/11)
    AddSent
    (2017/07)
    Multiparty
    Dialogue
    (2018/06)
    ShARC
    (2018/08)
    TextWorldsQA
    (2018/08)
    DREAM
    (2019/02)
    (RC)2
    (2019/02)
    〜2015
    98
    DROP
    (2019/03)

    View Slide

  99. • 4択問題
    • 質問もパッセージも⼈⼿作
    成だが、データ数が少ない
    (660テキスト×4質問)
    – パッセージは⼩学⽣向
    けの作り話としてクラ
    ウドソーシングで作成
    • 2018/10の⼿法で
    80-82%程度の正解率[2]
    [1] Matthew Richardson et al.: MCTest: A Challenge
    Dataset for the Open-Domain Machine Comprehension of
    Text. EMNLP 2013: 193-203
    [2] Kai Sun et al. : Improving Machine Reading
    Comprehension with General Reading Strategies. CoRR
    abs/1810.13441 (2018)
    http://aclweb.org/anthology/D13-1020
    MCTest
    [Richardson(Microsoft)+, EMNLP13]
    (2019/2/15)
    99

    View Slide

  100. CNN/Daily Mail Reading
    [Hermann (DeepMind)+, NIPS15]
    • ニュース⾒出しの⽳埋め問題(本⽂を読んで正しいエンティティを⾒
    つける)
    • エンティティは匿名化されるので世界知識は使えない
    http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend
    Karl Moritz Hermann et al. : Teaching Machines to Read and Comprehend. NIPS 2015: 1693-1701
    (2019/2/15)
    100

    View Slide

  101. Children Book Test (CBT)
    [Hill (Facebook)+, ICLR16]
    ………………………….
    ………………………….
    • 20個の連続した⽂を⾒て、次の⽂に出てくる単語の⽳埋め問題を解く
    • エンティティ以外にも動詞や共通名詞が対象
    • 近年は⾔語モデルの評価セットとして使われるケースあり[1][2]
    https://arxiv.org/pdf/1511.02301.pdf
    Felix Hill et al.: The Goldilocks Principle: Reading Children's Books with Explicit Memory Representations. ICLR 2016
    [1] Zihang Dai et al. : Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. CoRR
    abs/1901.02860 (2019)
    [2] Alex Radford et al.: Language Models are Unsupervised Multitask Learners, OpenAI Tech. Report, 2019.
    (2019/2/15)
    101

    View Slide

  102. 読解の⽅向性
    SQuAD (⼀問⼀答、⼀段落、回答=範囲、回答有) è
    • 複数テキストから読解できるか︖
    • さらに⼤規模なテキスト集合を知識源とできるか︖
    • テキストに含まれない表現(≠範囲)で回答できるか︖
    • より「深い」推論に基づいて回答できるか︖
    • ⼀問⼀答を超えて対話的な読解ができるか︖
    • マルチモーダルな情報から読解できるか︖
    102

    View Slide

  103. 1件ではなく複数のテキストから読解できるか︖
    TriviaQA [Joshi(Washington)+, ACL17]
    • 質問︓トリビア・クイズのWebサイトから収集
    – SQuADと異なり、先に質問・回答がある。質問が複雑
    • コンテキスト︓Wikipedia, Webから収集した複数⽂書
    – 回答⽂字列が含まれてるものだけ利⽤=正しいコンテキストかは保証され
    ない
    • 回答タイプ︓抽出
    http://aclweb.org/anthology/P17-1147
    Mandar Joshi et al. : TriviaQA: A Large Scale
    Distantly Supervised Challenge Dataset for
    Reading Comprehension. ACL (1) 2017: 1601-
    1611
    (2019/02/15)
    103

    View Slide

  104. ⼤規模なテキスト集合から読解できるか︖
    SQuAD full Wikipedia [Chen (Facebook) +,ACL17]
    • 質問︓SQuADと同じ
    • コンテキスト︓Wikipedia500万記事に拡張
    – システムは最初に適切なコンテキストを検索しなければならない
    • 回答タイプ︓抽出
    http://www.aclweb.org/anthology/P17-1171
    Danqi Chen et al. : Reading Wikipedia to Answer Open-Domain Questions. ACL (1) 2017: 1870-1879
    (2019/02/15)
    104

    View Slide

  105. ⼤規模なテキスト集合から読解に必要な段落を絞り込めるか︖
    MS MARCO Passage Re-ranking (2018/11)
    • 質問︓Bingのクエリログ
    • コンテキスト︓Bingの検索結果上位1000件(スニペット)
    • タスク︓読解に必要なパッセージ(⼈間がラベル付)が上位に来るよ
    うにre-ranking
    リランキング
    Bing検索結果(1000件) モデルの出⼒
    average pharmacy tech salary
    Bing
    検索
    クエリ
    読解に必要な
    パッセージ
    リランキングで
    上位に移動
    105

    View Slide

  106. 読解の⽅向性
    SQuAD(⼀問⼀答、⼀段落、回答=範囲、回答有)è
    • 複数テキストから読解できるか︖
    • さらに⼤規模なテキスト集合を知識源とできるか︖
    • テキストに含まれない表現(≠範囲)で回答できるか︖
    • より「深い」推論に基づいて回答できるか︖
    • ⼀問⼀答を超えて対話的な読解ができるか︖
    • マルチモーダルな情報から読解できるか︖
    106

    View Slide

  107. コンテキストの範囲ではない候補から正しく選択できるか︖
    RACE [Lai (CMU)+,EMNLP17]
    • 質問・コンテキスト︓中⾼⽣の試験問題から
    – 推論が必要な問題が多い
    • 回答タイプ︓選択
    – 選択肢はパッセージの部分範囲に限定されない
    Guokun Lai et al. : RACE: Large-scale ReAding
    Comprehension Dataset From Examinations.
    EMNLP 2017: 785-794
    http://aclweb.org/anthology/D17-1082
    (2019/02/15)
    107

    View Slide

  108. 回答を⽣成できるか︖
    NarrativeQA [Kociský (DeepMind)+,TACL18]
    • コンテキスト︓映画や本
    のスクリプトと、それの
    ⼈⼿作成サマリ
    – 表記や粒度が異なる2つの
    テキスト
    • 質問︓サマリから作成
    • 回答タイプ︓⽣成
    – 元⽂書から読解するには
    浅い理解(局所的なパター
    ンマッチング)では答えら
    れない
    Tomás Kociský et al.: The NarrativeQA Reading
    Comprehension Challenge. TACL 6: 317-328
    (2018)
    http://aclweb.org/anthology/Q18-1023
    (2019/02/15)
    108

    View Slide

  109. 回答を⽣成できるか︖
    MS MARCO
    • 質問・コンテキスト︓Bingの実クエリ
    (オープンドメイン)・検索結果
    • 回答タイプ︓⽣成
    – パッセージの範囲に限定されない(評価はRouge, BLEU)
    • Tri Nguyen et al.: MS MARCO: A Human Generated MAchine Reading
    COmprehension Dataset. CoCo@NIPS 2016
    • Payal Bajaj et al.: MS MARCO: A Human Generated MAchine Reading
    COmprehension Dataset. arXiv 2018
    The majority of pharmacy techs work in drug
    stores and hospitals, where the average annual
    salary was $28,940 and $34,410, respectively**.
    However, a higher salary can be had if you can
    find employment with outpatient care centers or
    physicians' offices, where the annual pay is in the
    $37,000-$39,000 range.
    ⼊⼒︓質問クエリ
    ⼊⼒︓Bing検索結果テキスト(10件):
    average pharmacy tech salary
    The majority of pharmacy techs work in drug
    stores and hospitals, where the average annual
    salary was $28,940 and $34,410, respectively**.
    However, a higher salary can be had if you can find
    employment with outpatient care centers or
    physicians' offices, where the annual pay is in the
    $37,000-$39,000 range.
    What can a pharmacy technician really expect to
    earn in today's economy? According to Salary.com,
    pharmacy technicians make anywhere from $26,000
    to $39,000 a year, though most make around
    $32,000 annually. California has the highest average
    pharmacy technician wage, at $34,317, according to
    Open Farm Tech's website.
    システム出⼒︓ 回答⽂
    [NLG] The average salary for
    a pharmacy technician is
    $26,000 to $39,000 in a year.
    [Q&A] From $26,000 to
    $39,000 a year
    質問内容を含めて⽣成するNLGと、
    抽出に近いQ&Aの2タスク
    V1 [Nguyen (Microsoft)+,CoCo@NIPS16]
    V2 [Bajaj (Microsoft)+,arXiv18]
    (2019/02/15)
    109

    View Slide

  110. 読解の⽅向性
    SQuAD è
    • 複数テキストから読解できるか︖
    • さらに⼤規模なテキスト集合を知識源とできるか︖
    • テキストに含まれない表現(≠範囲)で回答できるか︖
    • より「深い」推論に基づいて回答できるか︖
    • ⼀問⼀答を超えて対話的な読解ができるか︖
    • マルチモーダルな情報から読解できるか︖
    110

    View Slide

  111. 「答えはありません」と回答できるか︖
    SQuAD 2.0 [Rajpurkar&Jia (Stanford)+,ACL18]
    • 質問︓SQuAD 1.1に5万件の回答不能な質問を追加
    • コンテキスト︓SQuAD 1.1に同じ
    • 回答タイプ︓抽出、回答不能性の判定
    http://aclweb.org/anthology/P18-2124
    Pranav Rajpurkar, Robin Jia, Percy Liang: Know
    What You Don't Know: Unanswerable Questions for
    SQuAD. ACL (2) 2018: 784-789
    (2019/02/15)
    111

    View Slide

  112. 複数の⽂章に跨る推論は可能か︖
    HotpotQA
    • 質問︓2⽂書にまたがった記
    述に基づく質問を⼈⼿作成
    • コンテキスト︓(上記2⽂書
    を含む)10⽂書
    • 回答タイプ︓Yes/no、回答
    範囲抽出、根拠⽂抽出
    Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W. Cohen,
    Ruslan Salakhutdinov, Christopher D. Manning:
    HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question
    Answering. EMNLP 2018: 2369-2380
    https://aclweb.org/anthology/D18-1259
    [Yang (CMU), Qi(Stanford),
    Zhang(Montreal)+, EMNLP18]
    112

    View Slide

  113. 複数の⽂章に跨る推論は可能か︖⼤規模な知識を扱えるか︖
    OpenBookQA [Mihaylov (AllenAI)+, EMNLP18]
    • 質問︓科学の初等レベルの
    問題
    • コンテキスト︓
    – 質問に紐付いたものは無し。
    – 2287件のWorldTree
    corpus[2]の知識(Science
    Facts)
    – 1400万件の科学関連の⽂章
    コーパス(Common
    Knowledge)
    • 回答タイプ︓4択
    [1] Todor Mihaylov, Peter Clark, Tushar Khot, Ashish Sabharwal: Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book
    Question Answering. EMNLP 2018: 2381-2391
    [2] Peter A. Jansen, Elizabeth Wainwright, Steven Marmorstein, Clayton T. Morrison: WorldTree: A Corpus of Explanation Graphs for
    Elementary Science Questions supporting Multi-hop Inference. LREC 2018
    http://aclweb.org/anthology/D18-1260
    113

    View Slide

  114. 常識が必要な読解は可能か︖
    MCScript [Ostermann (Saarland⼤)+, LREC18]
    • 質問︓テキストだけでは理解できない常識を必要
    とする質問を含む
    • コンテキスト︓1テキスト
    • 回答タイプ︓2択
    • Simon Ostermann et al.: MCScript: A Novel
    Dataset for Assessing Machine
    Comprehension Using Script Knowledge. LREC
    2018
    • Simon Ostermann et al.: SemEval-2018 Task
    11: Machine Comprehension Using
    Commonsense Knowledge. SemEval@NAACL-
    HLT 2018: 747-757
    http://www.lrec-conf.org/proceedings/lrec2018/pdf/225.pdf
    http://www.aclweb.org/anthology/S18-1119
    テキストには書いていない
    è 常識が必要
    ⽊を植えるための⽳は
    どんな⼿段で開ける︖
    114

    View Slide

  115. 読解の⽅向性
    SQuAD è
    • 複数テキストから読解できるか︖
    • さらに⼤規模なテキスト集合を知識源とできるか︖
    • テキストに含まれない表現(≠範囲)で回答できるか︖
    • より「深い」推論に基づいて回答できるか︖
    • ⼀問⼀答を超えて対話的な読解ができるか︖
    • マルチモーダルな情報から読解できるか︖
    115

    View Slide

  116. ⼀問⼀答ではなく、対話的なQAを⾏えるか︖
    CoQA [Reddy (Stanford)+,arXiv18]
    • 質問︓マルチターン
    (QA履歴を考慮)
    – 話題の深掘りや転換を含む
    • コンテキスト︓童話、試験問題、
    ニュース、Wikipediaなどの
    1⽂書
    • 回答タイプ︓⽣成、
    根拠範囲の抽出、回答不能性
    Siva Reddy et al.: CoQA: A Conversational Question
    Answering Challenge. CoRR abs/1808.07042 (2018)
    https://arxiv.org/pdf/1808.07042.pdf
    (2019/02/15)
    116

    View Slide

  117. ⼀問⼀答ではなく、対話的なQAを⾏えるか︖
    QuAC [Choi (Washington), He(Stanford)+,EMNLP18]
    • 質問︓マルチターン
    (QA履歴を考慮)
    – 話題の深掘りや転換を含む
    • コンテキスト︓Wikipediaのセク
    ション1⽂書
    • 回答タイプ︓抽出、Yes/No、回
    答不能性、ターンの継続性
    Eunsol Choi, He He et al.: QuAC: Question Answering in
    Context. EMNLP 2018: 2174-2184
    http://aclweb.org/anthology/D18-1241
    (2019/02/15)
    117

    View Slide

  118. マルチモーダルな読解は可能か︖
    TQA [Kembhavi (AllenAI)+, CVPR17]
    • 質問︓教科書の問題
    • コンテキスト︓マルチモーダル(テキスト+図+⽤語の定
    義+概要)
    – 図中のテキストも理解しないと難しい
    • 回答タイプ︓選択
    Aniruddha Kembhavi et al.: Are You Smarter
    Than a Sixth Grader? Textbook Question
    Answering for Multimodal Machine
    Comprehension. CVPR 2017: 5376-5384
    http://ai2-website.s3.amazonaws.com/publications/CVPR17_TQA.pdf
    (2019/02/15)
    118

    View Slide

  119. マルチモーダルな読解は可能か︖
    Spoken SQuAD [Li+ (国⽴台湾⼤), Interspeech18]
    • 質問︓テキスト
    • コンテキスト︓SQuADの読み上げ⾳声
    – TTSで⾃動的に作成
    – ASRで認識してテキスト空間で読解
    • 回答タイプ︓
    – テキスト抽出
    – ⾳声区間抽出
    Chia-Hsuan Lee et al.: Spoken SQuAD: A Study of
    Mitigating the Impact of Speech Recognition Errors on
    Listening Comprehension. Interspeech 2018: 3459-3463
    https://arxiv.org/pdf/1804.00320.pdf 119

    View Slide

  120. マルチモーダルな読解は可能か︖
    RecipeQA [Yagcioglu (Hacettepe Univ.)+, EMNLP18]
    • 質問︓レシピデータから⾃動⽣成
    • コンテキスト︓レシピの画像+説明
    • 回答タイプ︓画像⽳埋め、テキスト⽳埋め、無関係画像判
    定、画像並び替え(レシピ⼯程)
    Semih Yagcioglu et al.: RecipeQA: A Challenge
    Dataset for Multimodal Comprehension of
    Cooking Recipes. EMNLP 2018: 1358-1368
    http://aclweb.org/anthology/D18-1166
    120

    View Slide

  121. FigureQA [Kahou(Microsoft)&Michalski(U Montreal)+, ICLR18 WS]
    • 様々な図に関して⾃動⽣成したYes/No質問データセット
    • 実世界ではもっと複雑な図・⾼度な情報要求が与えられる
    Samira Ebrahimi Kahou et al.: FigureQA: An Annotated Figure Dataset for Visual Reasoning. ICLR
    Workshop 2018.
    (2019/02/15)
    https://arxiv.org/pdf/1710.07300
    121

    View Slide

  122. ロボットは東⼤に⼊れるか(英語)
    [東中+, JSAI17] [東中+, JSAI18]
    [テーマセッション: 試験問題をベンチマークとする⾔語処理, NLP19]
    • ⼀⽂問題
    – ⽂法・語法・語彙
    – 語句整序完成
    – 発話⽂⽣成
    • 複数⽂問題
    – 会話⽂完成
    – 意⾒要旨把握: RACEが有⽤
    • ⻑⽂読解
    – 読解(情報処理)
    – 内容⼀致問題
    – 段落タイトル付与
    • その他
    – リスニング
    – イラスト理解
    https://www.jstage.jst.go.jp/article/pjsai/JSAI
    2017/0/JSAI2017_2H21/_pdf/-char/ja
    概ね
    解ける
    東中ら, “「ロボットは東⼤に⼊れるか」プロジェクトにおける
    英語科⽬の到達点と今後の課題”, 2H2-1, JSAI17
    東中ら, “「ロボットは東⼤に⼊れるか」プロジェクトの英語に
    おける意⾒要旨把握問題の解法”, 2C1-02, JSAI18
    122

    View Slide

  123. 参考︓英語以外のデータ
    • 中国語
    – HLF-RC [Cui (iFLYTEK)+, COLING16] ※リンク切れ︖
    – DuReader [He (Baidu)+, MRQA@ACL18]
    • http://ai.baidu.com/broad/subordinate?dataset=dureader
    • ⽇本語
    – 解答可能性付き読解データセット [鈴⽊(東北⼤)+,NLP18]
    • http://www.cl.ecei.tohoku.ac.jp/rcqa/
    – Multilingual SQuAD [Asai+, arXiv18][浅井(東⼤)+,NLP19]
    • https://github.com/AkariAsai/extractive_rc_by_runtime_mt
    – ロボットは東⼤に⼊れるか
    • https://21robot.org/dataset.html
    – リーディングスキルテスト
    • https://www.s4e.jp/
    123

    View Slide

  124. 代表的なleaderboardの状況
    • SQuAD 2.0 (抽出型)
    • CoQA (対話型)
    • MS MARCO (⽣成型・検索)
    124

    View Slide

  125. 「答えはありません」と回答できるか︖
    SQuAD 2.0 [Rajpurkar (Stanford)+,ACL18]
    1-21位
    までBERT
    を利⽤︕
    • BERTが⼤流⾏中
    • 読解特化モデルの⼊⼒特徴として利⽤され
    るものも多いが、単純にBERTをfine-
    tuningしても強⼒
    BERT登場
    後、3ヶ⽉
    で10%
    アップ
    https://rajpurkar.github.io/SQuAD-explorer/
    (2019/2/15)
    125

    View Slide

  126. ⼀問⼀答ではなく、対話的なQAを⾏えるか︖
    CoQA [Reddy (Stanford)+,arXiv18]
    https://stanfordnlp.github.io/coqa/
    1-7位
    までBERT
    • 対話型読解でもBERTが⼤流
    ⾏中
    • 1位はSQuAD 2.0と同じ
    • ⾊々と⼯夫して対話に特化
    したモデルよりもナイーブ
    にBERTを導⼊したモデルが
    今のところ強い
    (2019/2/15) 126

    View Slide

  127. ⼤規模なテキスト集合から読解に必要な段落を絞り込めるか︖
    MS MARCO Passage Re-ranking (2018/11)
    • 読解の前段となる(中規模)検索タスクでもBERTがトップ
    • クエリを⽂A、パッセージを⽂Bに⼊れたBERTがIRに特化した従来モ
    デルの性能を⼤きく超える
    BM25: 基本的なキーワードマッチモデル
    IR特化
    モデル
    (2019/2/15)
    http://www.msmarco.org/leaders.aspx
    127

    View Slide

  128. • BERTが⾸位ではない
    – MS MARCO: パッセージが10件&回答が範囲抽出ではなく⽣成
    • 抽出型読解などの系列ラベリング問題に⽐べると、⽣成タスクでは
    BERTの導⼊はまだ進んでいない印象
    – (ただし、すぐ進むとは思われる)
    – 特徴として︖BERTを使うものが3位に来ている
    http://www.msmarco.org/leaders.aspx
    回答を⽣成できるか︖
    MS MARCO [Nguyen (Microsoft)+,CoCo@NIPS16]
    [Bajaj (Microsoft)+,arXiv18]
    (2019/2/15)
    128

    View Slide

  129. このセクションのまとめ
    • SQuAD以降、より実践的な問題設定へ拡張されている
    – 複数のテキスト(+α)から、
    複数の⽂章の深い理解に基づいて、
    テキストの部分範囲に限定されない柔軟な回答を志向している
    • BERTですべて解決されたわけではない
    – ⻑⽂・複数⽂書の理解や、回答の⽣成
    – その⼀⽅、範囲抽出や回答選択(分類問題)はBERTの得意分野
    129

    View Slide

  130. ⽬次
    • 機械読解とは何か
    • SQuADとはどのようなデータセットか
    • 機械読解を⾏うモデルとはどのようなものか
    • ニューラル読解はどの程度のレベルにあるのか
    • データセットの発展と研究の⽅向性
    • NTTにおける実⽤化・研究の取り組み
    • 今後の展望
    130

    View Slide

  131. NTTにおける取り組み例
    • 技術を磨く⼀環として、コンペに積極的に参加中
    • MS MARCO v2の機械読解2タスクで現在⾸位
    http://www.msmarco.org/leaders.aspx
    ※21機関中1位(2019/03/09) 131

    View Slide

  132. NTTにおける取り組み例
    132
    • 根拠抽出+マルチホップ読解のHotpotQA、対話型機械読
    解のQuACでも⾸位獲得
    ※6チーム中⾸位
    (2019/03/09)
    https://quac.ai/
    ※6チーム中⾸位
    (2019/03/09)
    https://hotpotqa.github.io/

    View Slide

  133. 検索
    FAQ集
    実⽤化への展望︓コンタクトセンタAI
    お客様
    電話
    チャット
    コンタクトセンタ
    質問
    契約書・マニュアルなど
    検索+読解
    オペレータ
    応答
    質問
    ⽀援
    AI
    • コンタクトセンタAIへの機械読解の導⼊に向けて様々な
    課題に取り組み中
    L 抽出のみでは
    回答不能な質問
    L AI回答の根拠
    がわからない
    L 質問意図
    が不明確
    L ⻑さや回答ス
    タイルに制約 L ⽂書が⼤量に
    ある 133

    View Slide

  134. ⼤規模機械読解
    [⻄⽥京介+,NLP18][Nishida+, CIKM18]
    ⼤規模テキスト集合
    (知識源)
    【質問】あんしん保険の弁護⼠費⽤
    特約はどのような場合に対象外にな
    りますか︖
    【応答】事故の相⼿が不明である場
    合など、相⼿の⽅に法律上の損害賠
    償請求を⾏うことができない時
    読解(回答抽出)
    検索
    あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保
    険契約者が怪我などをされたり、⾃らが所有する⾃動⾞・家
    屋などの財物を壊されたりすることによって、相⼿の⽅に法
    律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、
    弁護⼠などへの法律相談・書類作成費⽤などを保険⾦として
    お⽀払いする特約です。ただし、保険⾦のお⽀払い対象とな
    る費⽤に関しては、当社の同意を得た上で⽀出された費⽤に
    限ります。また、事故の相⼿が不明である場合など、相⼿の
    ⽅に法律上の損害賠償請求を⾏うことができない時は、本特
    約は対象外となりますのでご注意ください。
    関連テキスト
    あんしん保険の弁護⼠費⽤特約は、⾃動⾞事故などにより保
    険契約者が怪我などをされたり、⾃らが所有する⾃動⾞・家
    屋などの財物を壊されたりすることによって、相⼿の⽅に法
    律上の損害賠償請求をするために⽀出された弁護⼠費⽤や、
    弁護⼠などへの法律相談・書類作成費⽤などを保険⾦として
    お⽀払いする特約です。ただし、保険⾦のお⽀払い対象とな
    る費⽤に関しては、当社の同意を得た上で⽀出された費⽤に
    限ります。また、事故の相⼿が不明である場合など、相⼿の
    ⽅に法律上の損害賠償請求を⾏うことができない時は、本特
    約は対象外となりますのでご注意ください。
    • 多数のテキストから読解を⾏うシステムの提案
    • キーワード検索+ニューラルリランキング+読解のマルチタスク学習
    • Wikipedia全体を知識源としたSQuAD fullでSOTAを達成(当時)
    ⻄⽥京介ら, “情報検索とのマルチタスク学習による⼤規模機械読解”,⾔語処理学会第24回年次⼤会, D5-2, March 2018.
    Kyosuke Nishida et al.: Retrieve-and-Read: Multi-task Learning of Information Retrieval and Reading Comprehension. CIKM 2018:
    647-656
    134

    View Slide

  135. 複数スタイルによる⽣成型読解
    [⻄⽥京介+,NLP19 B1-1(3/13)]
    少量のテキスト知識源
    【質問】レッカー移動はいつ
    でも対応して貰えるの︖
    【⾃然な⽂章で応答】はい、レッカー移動
    は24時間365⽇対応可能です。
    読解(⽣成)
    • 回答スタイルを制御可能な⽣成型モデルの提案
    • MS MARCO Q&Aタスク、NLGタスクの2つでSOTA
    保険契約の対象となる⾞が事故・故障・トラブル等で⾛⾏不能になっ
    た場合に、専⽤デスクにお電話頂ければ、業者を⼿配して牽引や応急
    処置を⾏うサービス特約です。基本契約に必ず付帯されます。
    ⾞両牽引サービスと付帯サービス(応急対応サービス、燃料切れ時ガ
    ソリン給油サービス、臨時宿泊サービス、トラブル相談サービス)か
    らなり、24時間365⽇対応致しております。各サービスについての詳
    細は以下の表をご覧下さい。(JAF会員の⽅にはサービスに追加の優
    遇措置が設けられております。)
    【簡潔に応答】はい
    応答時に
    スタイルを
    指定可能
    Kyosuke Nishida et al.: Multi-style Generative Reading Comprehension. CoRR abs/1901.02262 (2019)
    ⻄⽥京介ら: "回答スタイルを制御可能な⽣成型機械読解",⾔語処理学会第25回年次⼤会(NLP2019), B1-1, March 2019. 135

    View Slide

  136. 複数スタイルによる⽣成型読解
    [Nishida+, arXiv19] [⻄⽥京介+,NLP19 B1-1(3/13)]
    • Transformerベースのpointer-generator。パッセージのリランキン
    グと回答不能性の学習をマルチタスク学習
    • 複数スタイルのデータを同時に学習することで精度向上
    語彙、質問・パッセージからのコピー
    をステップ毎に、指定スタイル(先頭
    トークンで指定)に応じて制御
    https://arxiv.org/pdf/1901.02262.pdf
    136

    View Slide

  137. 根拠を抽出可能な抽出型読解
    [⻄⽥光甫+,NLP19 B1-3(3/13)]
    • はい/いいえ/回答範囲の抽出を⾏う際、根拠となる⽂を複数提⽰可能
    • HotpotQA [Yang, Qi, Zhang+,EMNLP18]の2タスクでSOTA
    【質問】おじいちゃんの癌が
    ⾒つかったのですが私の保険
    で⼊院費⽤をもらえますか︖
    【根拠】⼆親等以内の親族の放射線治療は
    ⼊院給付⾦⽇額の10 倍を補償します.
    【応答】はい.
    【根拠】放射線治療は癌の主要な治療法の
    ひとつである.
    回答&
    根拠⽂の発⾒
    知識源となるテキスト集合
    ⻄⽥光甫ら, "抽出型要約との同時学習による回答根拠を提⽰可能な機械読解",⾔語処理学会第25回年次⼤会(NLP2019),
    B1-3, March 2019.
    137

    View Slide

  138. クエリ・出⼒⻑を指定した⽂書要約
    [⻫藤いつみ+,NLP19 P2-11(3/14)]
    • 要約の焦点を与えるクエリおよび出⼒⻑の指定を⾏う要約
    • クエリだけ、⻑さだけの指定も可
    【質問】レッカー移動はいつ
    でも対応してもらえるの︖
    【⻑さ】30単語
    【応答】はい、⾞両牽引サービスは24時
    間365⽇対応致しております。専⽤デスク
    にお電話頂ければ、業者を⼿配します。
    保険契約の対象となる⾞が事故・故障・トラブル等で⾛⾏
    不能になった場合に、専⽤デスクにお電話頂ければ、業者
    を⼿配して牽引や応急処置を⾏うサービス特約です。基本
    契約に必ず付帯されます。
    ⾞両牽引サービスと付帯サービス(応急対応サービス、燃
    料切れ時ガソリン給油サービス、臨時宿泊サービス、トラ
    ブル相談サービス)からなり、24時間365⽇対応致してお
    ります。各サービスについての詳細は以下の表をご覧下さ
    い。(JAF会員の⽅にはサービスに追加の優遇措置が設け
    られております。)
    要約対象テキスト
    クエリと⻑さを
    考慮して要約
    ⻫藤ら, "クエリ・出⼒⻑を考慮可能な⽂書要約モデル", ⾔語処理学会第25回年次⼤会(NLP2019), P2-11,
    March 2019.
    138

    View Slide

  139. 質問の意図を明確にする改訂質問⽣成
    [⼤塚淳史+,DEIM18&19][Otsuka+, RCQA@AAAI19]
    • 質問が曖昧な場合に、質問対象テキストに基づいて具体的な質問を⽣成
    パケットプランの解約について
    2年間同⼀回線の継続利⽤が条件と
    なり、契約期間内での回線解約・
    定期契約のない料⾦プランへの変
    更時などには、9,500円の解約⾦
    がかかります。ただし、更新⽉の
    ときには無料になります。
    【質問】
    解約⾦はいくら︖
    契約期間内での回線解約・定期契
    約のない料⾦プランへの変更時の
    解約料⾦はいくら︖
    具体的な質問1
    A. 9500円
    更新⽉のときの解約⾦はいくら︖
    A. 無料
    具体的な質問2
    ⼤塚ら, ”質問の意図を特定するニューラル質問⽣成モデル", 第10回データ⼯学と情報マネジメントに関する
    フォーラム(DEIM2018), F1-4, March 2018.
    Atsushi Otsuka et al., "Specific Question Generation for Reading Comprehension", in Proceedings of the
    AAAI 2019 Reasoning for Complex QA (RCQA) Workshop, Honolulu, Hawaii, USA, January 2019.
    ⼤塚ら, ”問い返し可能な質問応答︓読解と質問⽣成の同時学習モデル", 第11回データ⼯学と情報マネジメントに
    関するフォーラム(DEIM2019), A3-3, March 2019. 139

    View Slide

  140. 質問の意図を明確にする改訂質問⽣成
    [⼤塚淳史+,DEIM18&19][Otsuka+, RCQA@AAAI19]
    改訂質問2
    改訂質問1
    140

    View Slide

  141. NTTにおける取り組み例
    • 機械読解をチャットボット応対への導⼊を検討(トライアルレベル)
    ボットの回答と共に、
    マニュアル上の回答部分
    をハイライトして表⽰
    質問を⼊⼒すると
    ボットが回答
    141

    View Slide

  142. ⽬次
    • 機械読解とは何か
    • SQuADとはどのようなデータセットか
    • 機械読解を⾏うモデルとはどのようなものか
    • ニューラル読解はどの程度のレベルにあるのか
    • データセットの発展と研究の⽅向性
    • NTTにおける実⽤化・研究の取り組み
    • 今後の展望
    – ⾃然⾔語理解へ
    – ⾃然⾔語理解を超えて
    142

    View Slide

  143. 個別のタスクから⾃然⾔語理解へ
    • 特にBERTの登場以降、⾃然⾔語理解タスクの全般に利⽤
    可能な技術への注⽬が⾼まる
    • ⾃然⾔語理解の共通的な⾔語モデルと知識ベースを基に、
    どうやって応⽤タスクに少サンプルで適応するか︖
    • タスク間でも⾃然⾔語理解能⼒を共有できないか︖
    ⾔語モデル・知識ベース
    読解 含意 換⾔ 要約 翻訳
    対話
    143

    View Slide

  144. General Linguistic Intelligence
    [Yogatama(DeepMind)+,arXiv(2019/01/31)]
    BERTを事前学習しても
    SQuADに適応するには
    万単位のサンプルが必要
    BERTの構造でゼロから
    学習すると80000サンプル
    (1epoch)では全く⾜りない
    他の読解タスクで教師あり
    学習しても、結局、万単位
    のサンプルが必要
    Dani Yogatama et al. : Learning and Evaluating General Linguistic Intelligence. CoRR abs/1901.11373 (2019)
    https://arxiv.org/pdf/1901.11373.pdf
    過去に獲得した⾔語知能を⾼速に新タスクへ適応できるか︖
    SQuADの精度
    SQuADの学習サンプル数
    144

    View Slide

  145. General Linguistic Intelligence
    [Yogatama(DeepMind)+,arXiv(2019/01/31)]
    SQuAD学習モデル
    を他データで評価
    すると性能低い
    è 汎⽤的な能⼒を
    獲得できていない
    SQuADと⼀緒にマ
    ルチタスク学習す
    ると性能は良い
    F1(EM)
    F1
    BERT→SQuADの状態でTriviaQAを追加
    学習させると、SQuADの能⼒は⼤きく
    落ちる(Catastrophic forgetting)
    読解の精度
    TriviaQAの学習サンプル数
    145

    View Slide

  146. Natural Language Decathlon (decaNLP)
    [McCann(Salesforce)+, arXiv18]
    • 様々なNLPのタスクをすべて"QA"としてマルチタスク学習
    Bryan McCann et al.: The Natural Language Decathlon: Multitask Learning as
    Question Answering. CoRR abs/1806.08730 (2018)
    https://arxiv.org/pdf/1806.08730
    機械読解
    機械翻訳
    ⽂書要約
    含意認識
    感情分類
    その他5タスク
    146

    View Slide

  147. GPT-2 [Radford+, OpenAI Tech.Rep. 2019/02/14]
    • 超⼤規模コーパス(800万件Web⽂書)に基づく、
    超⼤型サイズ(48層1600次元)のGPT(単⽅向Transformer)
    • ⾔語モデル単体としてSOTA + zero-shotで様々なタスクにある程度
    適応可能
    テキストコーパスに⾃然に含まれてい
    る英⇔仏の翻訳に関するテキスト
    è Zero-shot翻訳を可能にする
    ⾔語モデルとして下記タスクを解く
    • 読解
    – ⽂書+質問+“A:” → 回答
    – CoQAで55 F1
    • 要約
    – 元⽂+“TL;DR:” → 要約⽂
    – CNN/DMで26.58 Rouge-L
    • 翻訳
    – 元⽂+“english sentence =“ → 訳⽂
    – WMT14 Fr->Enで11.5 BLEU
    https://d4mucfpksywv.cloudfront.net/better-language-models/language-
    models.pdf
    Alex Radfordet al.: Language Models are Unsupervised Multitask Learners, OpenAI Tech. Report, 2019.
    147

    View Slide

  148. MT-DNN (BigBird)
    [Liu&He(Microsoft)+,arXiv 2019/02/01]
    • BERTのfine-tuningをマルチタスク化することでGLUEにてBERT越え
    Xiaodong Liu et al.: Multi-Task Deep Neural Networks
    for Natural Language Understanding. CoRR
    abs/1901.11504 (2019)
    https://arxiv.org/pdf/1901.11373.pdf
    https://gluebenchmark.com/leaderboard
    Pre-trained
    BERT
    Multi-task
    Fine-tuning
    148

    View Slide

  149. 外部知識の活⽤
    [Mihaylov+, ACL18][Bauer&Wang+,EMNLP18]
    • ConceptNetをcommonsenseの
    外部知識として読解に組み込む
    è まだ⼤きな性能改善には繋がっていない
    Todor Mihaylov, Anette Frank: Knowledgeable Reader: Enhancing Cloze-Style Reading Comprehension with External Commonsense
    Knowledge. ACL (1) 2018: 821-832
    Lisa Bauer, Yicheng Wang, Mohit Bansal: Commonsense for Generative Multi-Hop Question Answering Tasks. EMNLP 2018: 4220-
    4230
    Robert Speer, Joshua Chin, Catherine Havasi: ConceptNet 5.5: An Open Multilingual Graph of General Knowledge. AAAI 2017:
    4444-4451
    commonsense reasoing [Bauer&Wang+, EMNLP18]
    http://aclweb.org/anthology/D18-1454
    Knowledgeable Reader [Mihaylov+,ACL18]
    http://aclweb.org/anthology/P18-1076
    各単語にsingle-hopで
    知識を埋め込み
    各単語にmulti-hopで
    知識を埋め込み
    149

    View Slide

  150. ⾃然⾔語理解を超えて
    150
    • テキストの意味理解を超えたスキルを必要とする
    質問応答への展望
    – 数学・集計・論理などの演算能⼒
    – 図・表・データベースの理解
    ⾃然⾔語理解
    演算能⼒
    DB・表 図

    View Slide

  151. DROP [Dua(UCI)+,arXiv(2019/03/01)]
    151
    • 加算、減算、カウ
    ント、ソートなど
    演算能⼒が必要な
    読解データセット
    • 演算もニューラル
    に任せるべきなの
    か︖
    Dheeru Dua et al.: DROP: A Reading
    Comprehension Benchmark Requiring
    Discrete Reasoning Over Paragraphs,
    arXiv
    https://arxiv.org/pdf/1903.00161.pdf

    View Slide

  152. Spider [Yu(Yale U)+,EMNLP18]
    152
    • 複雑なクエリを含む
    Text-to-SQL (Semantic
    Parsing)のデータセット
    • 機械読解の研究として、
    知識源がテキスト+デー
    タベースに拡張された設
    定に拡張できるか︖
    https://arxiv.org/pdf/1809.08887
    Tao Yu et al.: Spider: A Large-Scale Human-Labeled
    Dataset for Complex and Cross-Domain Semantic Parsing
    and Text-to-SQL Task. EMNLP 2018: 3911-3921

    View Slide

  153. DVQA [Kafle(Adobe)+,CVPR18]
    153
    • 図で可視化された
    データの理解
    • ⼈⼯的に⽣成
    • ラベルテキストの
    ⽂字認識も必要
    • テキストとビジュ
    アル、数値演算を
    どう融合させる
    か︖
    Kushal Kafle, Brian L. Price, Scott Cohen, Christopher Kanan:
    DVQA: Understanding Data Visualizations via Question Answering.
    CVPR 2018: 5648-5656
    http://openaccess.thecvf.com/content_cvpr_
    2018/papers/Kafle_DVQA_Understanding_D
    ata_CVPR_2018_paper.pdf

    View Slide

  154. Visual Commonsense Reasoning
    [Zellers (U Washington)+, arXiv18]
    • ⾔語+常識+ビジョンの理解
    • ⾔語モデルと画像特徴量だけで
    ⽴ち向かえるのか︖
    Rowan Zellers, Yonatan Bisk, Ali Farhadi, Yejin Choi:
    From Recognition to Cognition: Visual Commonsense Reasoning. CoRR abs/1811.10830 (2018)
    画像と質問に対して、
    回答と理由を選択
    154

    View Slide

  155. おわりに
    機械読解とは、テキストを知識源とした
    質問応答タスクで、⾃然⾔語理解への挑戦
    ニューラル機械読解は、まだ⼈間のレベルを超えていない。
    現状のモデルはパターンマッチング的な挙動
    データが不⾜しているのか︖ モデルが未熟なのか︖
    BERTは凄いが、全てが解決したわけではない。
    機械読解においては複数⽂・⻑⽂理解や回答⽣成が課題
    SQuAD以降、より現実的な設定のデータセットが次々に
    (30件以上)発表されている。何が重要な課題か︖
    ⾔語モデル/知識ベース/他データセットをどのように
    読解へ転移・適応させるか︖⾔語を超えた理解との融合は︖
    155

    View Slide

  156. 謝辞
    • 今回のチュートリアルに際して、菅原 朔さん(東⼤ /
    理研AIP)に機械読解データセットやモデルに関して、
    ⼤変貴重なご意⾒を伺いました。⼼より感謝致します。
    • ⽇頃よりディスカッション頂いている皆様に感謝します。
    – NTTメディアインテリジェンス研究所の皆様
    ⻫藤いつみさん、⼤塚淳史さん、⻄⽥光甫さん、⼤杉康仁さん、
    ⻑⾕川拓さん、野本成央さん、浅野久⼦さん、富⽥準⼆さん
    – インターンシップにて機械読解に取り組んで頂いた
    皆様
    篠⽥⼀聡さん、Wang Haoさん、千々和⼤輝さん、伊藤淳さん
    156

    View Slide

  157. Copyright@2019 NTT corp. All Rights Reserved.
    ご清聴ありがとうございました
    ⽇本電信電話株式会社
    NTTメディアインテリジェンス研究所
    ⻄⽥ 京介
    E-mail: [email protected]
    Twitter: @kyoun

    View Slide