【YANS2022 チュートリアル】対話システムのすすめ

by Ryuichiro Higashinaka

Slide 1

Slide 1 text

【チュートリアル】対話システムのすすめ名古屋大学情報学研究科東中竜一郎 1 2022.8.29@YANS2022 （公開用）

Slide 2

Slide 2 text

2 略歴関わったイベント • 大阪府池田市出身 • 2001年慶応義塾大学大学院修士課程修了 • 2001年NTT入社 • 2004年英国シェフィールド大学客員研究員 • 2008年慶応義塾大学大学院博士課程修了 • 2020年名古屋大学情報学研究科 • 対話システムシンポジウム • NTCIR Short Text Conversation • 対話破綻検出チャレンジ • 対話システムライブコンペティション • 対話ロボットコンペティション関わったプロジェクト書籍 • しゃべってコンシェル（質問応答機能） • 雑談対話API • マツコロイド（雑談機能） • ロボットは東大に入れるか（英語）

Slide 3

Slide 3 text

3 ① 対話システムとは ② タスク指向型対話システム ③ 非タスク指向型対話システム ④ 対話システムの評価 ⑤ 対話とは ⑥ 対話システムのすすめ

Slide 4

Slide 4 text

4 対話システムとは

Slide 5

Slide 5 text

対話システムとは • 人間と対話を行うシステム – 対話：自然言語で情報の授受を繰り返し外界に作用を及ぼすダイナミックなプロセス • ギリシャ語の「logos」（言葉）と「dia」（〜を通して） 5 1960～70年代 1980年代 1990年代 2000年代 2010年代～対話システムの中心技術パタンマッチプランニングフレーム表現音声認識・音声合成機械学習ビッグデータ深層学習主なタスク指向型対話システム SHRDLU Baseball LUNAR GUS VOYAGER ATIS Communicator Let’s go Siri Alexa MultiWOZ 主な非タスク指向型対話システム ELIZA PARRY CONVERSE A.L.I.C.E. REA Meena BlenderBot Alexa Prize

Slide 6

Slide 6 text

対話システムの意義 • 複雑な情報を素早く，簡便に入力できる – 任意の量の情報を任意の単位で伝えられる • 相手に合わせた情報提供 • 他の作業と同時に行うことができる – アイズフリー・ハンズフリー • 使い方を学ばなくても使える – デジタルデバイド – 理想だが，実際はそうでもないことが多い • コミュニケーション支援 – カウンセリング，独居高齢者支援，面接訓練 • 認知科学・人間科学への貢献 – 構成論的に人間のことを知る 6 https://www.youtube.com/watch?v=_rDkb1K1si8 https://www.zukunftsinstitut.de/artikel/technologie/social-robots-der-einaeugige-kommt/

Slide 7

Slide 7 text

対話システムの類型 • タスクの有無 – タスク指向型，非タスク指向型 • 人数 – 一人，二人，多人数 • モダリティ – 音声，タッチパネル，ジェスチャ • 主導権 – システム，ユーザ，混合主導 • 身体性 – バーチャルエージェント型，ロボット型 7 http://www.pcl.cs.waseda.ac.jp/projects/robots/robita/ https://www.youtube.com/watch?v=sPcbo4d5_vI

Slide 8

Slide 8 text

8 ② タスク指向型対話システム ③ 非タスク指向型対話システム ④ 対話システムの評価 ⑤ 対話とは ⑥ 対話システムのすすめ

Slide 9

Slide 9 text

9 タスク指向型対話システム

Slide 10

Slide 10 text

タスク指向型対話システムの構成 10 対話管理バックエンドデータベース音声認識言語理解対話状態追跡言語生成音声合成対話状態行動選択ユーザお手頃なイタリアンに行きたいんだけど Domain=Restaurant Inform, foodtype=Italian Price_range=cheap Request-area エリアはどちらですか？エリアはどちらですか？エリア料理タイプイタリアン価格帯安めフレーム

Slide 11

Slide 11 text

11 発話理解（NLU）対話状態追跡（DST) • 目的は対話行為の推定 • インテント推定 • スロット抽出 • 目的はフレーム（信念状態）の推定 • 対話行為レベル／ワードレベルの状態追跡 • 分類，生成，スパン抽出の手法行動選択（Policy）発話生成（NLG） • 目的は，信念状態からシステムの次の対話行為を推定 • MDP・POMDPでモデル化し，強化学習を利用して学習することが多い • ワードレベルの行動選択を行う場合もある（発話を直接生成） • 目的は，対話行為から発話の表層を生成 • テンプレートによる手法 • RNNやTransformerベースの手法 TripPy https://arxiv.org/a bs/2005.02877

Slide 12

Slide 12 text

End-to-Endモデル • 従来モデル – 長所：各モジュールのみに着目して研究を進めることが可能 – 短所：前のモジュールのエラーが後段のモジュールに伝播 • 全体で一つのネットワークにすることで，全体最適化 12 言語モデル（GPT-2）を用いて，文脈から，信念状態（フレーム），システムの対話行為，システムの発話文字列を順次生成 SFN: https://arxiv.org/abs/1907.10016 SimpleTOD: https://arxiv.org/abs/2005.00796

Slide 13

Slide 13 text

13 ③ 非タスク指向型対話システム ④ 対話システムの評価 ⑤ 対話とは ⑥ 対話システムのすすめ

Slide 14

Slide 14 text

14 非タスク指向型対話システム

Slide 15

Slide 15 text

非タスク指向型対話システムの構成 15 ルールベース抽出（選択）ベース生成（深層学習）ベース統合的な手法お酒 * 飲め * かお酒好きです元気？？元気いっぱいだよリプライ入力：元気ですか？関連度：高出力：元気いっぱいだよ抽出デコーダエンコーダ入力：こんにちは出力：こんにちはー対話データ

Slide 16

Slide 16 text

生成ベースの課題 • 多様性 – dull responseへの対応 • 「そうですね」「分かりません」 – 相互情報量の利用 – unlikelihood training – 強化学習の適用 • グラウンディング – ウィキペディアなどの外部知識 – 知識グラフ，個性 – 抽出ベースの手法との融合 • 制御性 – 感情，スタイル，話題 • ハルシネーション 16 DCM DIT HBY 解釈不能 0.003 0.000 0.000 文法エラー 0.030 0.001 0.000 用法エラー 0.044 0.013 0.000 誤情報 0.002 0.565 0.300 質問無視 0.244 0.177 0.014 依頼無視 0.003 0.003 0.000 提案無視 0.009 0.000 0.000 挨拶無視 0.002 0.002 0.000 期待無視 0.012 0.002 0.067 発話意図不明確 0.334 0.170 0.094 話題遷移エラー 0.054 0.047 0.028 情報不足 0.130 0.002 0.033 自己矛盾 0.023 0.004 0.272 相手の発話との矛盾 0.020 0.006 0.083 繰り返し 0.052 0.008 0.094 社会性欠如 0.015 0.000 0.000 常識欠如 0.025 0.001 0.014 https://doi.org/10.5715/jnlp.29.443

Slide 17

Slide 17 text

結局，統合的な手法？ 17 Gunrock 2018 マツコロイド 2014 Alquist 2021 BB3 2022 タスク対話指向型の構成に似てきた？

Slide 18

Slide 18 text

18 ④ 対話システムの評価 ⑤ 対話とは ⑥ 対話システムのすすめ

Slide 19

Slide 19 text

19 対話システムの評価

Slide 20

Slide 20 text

対話システム評価の観点 • オフライン評価とオンライン評価 • 発話，対話，システム単位の評価 • 主観評価と自動評価 • 絶対評価と相対評価 • モジュール評価とシステム評価 • 人間評価とシミュレーション評価 • ラボ評価と実ユーザ評価 • Intrinsic評価とExtrinsic評価 20 https://arxiv.org/pdf/1909.03087.pdf https://arxiv.org/pdf/2208.03188.pdf 対話単位で相対評価を行う ACUTE- EVAL BB3では，実ユーザが発話レベルのユーザ評価を行う

Slide 21

Slide 21 text

タスク指向型対話システムの評価 • 対話単位の評価 – 主観評価尺度 • 独自項目，SASSI – 自動評価尺度 • タスク達成率 • 達成時間・ターン数 • Inform Precision/Recall/F1 – 情報提供の精度 • Book Rate – 情報検索の精度 • モジュール評価 • 評価尺度の学習 – PARADISE 21 •システム応答の正確性（System response accuracy） • 好ましさ（Likeability） • 認知的負荷（Cognitive demand） • 煩わしさ（Annoyance） • 可視性・理解可能性（Habitability） • 応答速度（Speed）モジュール評価尺度 NLU Intent (Slot) Precision/Recall/F1 DST Slot Accuracy, Joint Goal Accuracy Policy NLUと同じ NLG BLEU, Inform Rate, Success Rate ユーザ満足度をタスクの難易度と対話の特徴から推定するモデルをあらかじめ学習して評価に用いる [Hone and Graham, 2001] [Walker+, 2001]

Slide 22

Slide 22 text

非タスク指向型対話システムの評価 • 主観評価尺度 • 自動評価尺度 – Referenced metrics • BLUE, BERTScore • 人手評価との相関が低い – Unreferenced metrics • USR, FED – Trainable metrics • ADEM • RUBER 22 DialoGPTを用いて，システム応答の後の発話にポジティブな発話がどの程度出現するか，ネガティブな発話がどの程度出現するかで評価 https://arxiv.org/abs/2203.10012

Slide 23

Slide 23 text

23 ⑤ 対話とは ⑥ 対話システムのすすめ

Slide 24

Slide 24 text

24 対話とは

Slide 25

Slide 25 text

対話の理論 • 言語行為論 • ターンと話者交代 – TRP，順番交代規則 • 隣接ペアと連鎖組織 • 談話構造 • 共通基盤 • 対話の協調的原則 – グライスの公準，ポライトネス 25 基礎から分かる会話コミュニケーションの分析法高梨克也，2016

Slide 26

Slide 26 text

26 ⑥ 対話システムのすすめ

Slide 27

Slide 27 text

27 対話システムのすすめ

Slide 28

Slide 28 text

対話システムのこれから 28 不定形タスク音声コマンドスロットフィリング定型タスク価値観の共有一問一答話題の共有情報の共有タスク指向型対話非タスク指向型対話（雑談対話）タスクの例機器操作予約タスク検索タスク情報推薦コールセンタ応対ニュース・物語伝達教育・相談議論交渉企画立案必要となる技術の例単発話理解話題理解フレームベースの理解・生成大規模言語モデル共通基盤構築物語理解・生成フレームを超えた理解・生成価値観理解意図・欲求生成社会理解環境理解現状今後の方向性信頼できる人工知能

Slide 29

Slide 29 text

今後重要となる考え方 • 「自然言語で情報の授受を繰り返し外界に作用を及ぼすダイナミックなプロセス」 – 対話は過程であって結果ではない • 対話の結果だけを再現するのは（あまり）意味がない • 過程を重視してきた「対話の理論」を取りいれていくべき 29 http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.618.pdf https://www.frontiersin.org/articles/10.3389/fpsyg.2021.580955/full

Slide 30

Slide 30 text

まとめ • 対話システムのチュートリアル – タスク指向・非タスク指向型対話システム，評価，対話の理論 • 対話システムの研究はまだまだこれから – 対話の過程の工学的研究は始まったばかりでブルーオーシャン • 対話システムの研究を一緒にやりましょう！ 30