Slide 1

Slide 1 text

【チュートリアル】 対話システムのすすめ 名古屋大学 情報学研究科 東中竜一郎 1 2022.8.29@YANS2022 (公開用)

Slide 2

Slide 2 text

2 略歴 関わったイベント • 大阪府池田市出身 • 2001年慶応義塾大学大学院修士課程修了 • 2001年NTT入社 • 2004年英国シェフィールド大学客員研究員 • 2008年慶応義塾大学大学院博士課程修了 • 2020年名古屋大学情報学研究科 • 対話システムシンポジウム • NTCIR Short Text Conversation • 対話破綻検出チャレンジ • 対話システムライブコンペティション • 対話ロボットコンペティション 関わったプロジェクト 書籍 • しゃべってコンシェル(質問応答機能) • 雑談対話API • マツコロイド(雑談機能) • ロボットは東大に入れるか(英語)

Slide 3

Slide 3 text

3 ① 対話システム とは ② タスク指向型 対話システム ③ 非タスク指向型 対話システム ④ 対話システム の評価 ⑤ 対話とは ⑥ 対話システム のすすめ

Slide 4

Slide 4 text

4 対話システムとは

Slide 5

Slide 5 text

対話システムとは • 人間と対話を行うシステム – 対話:自然言語で情報の授受を繰り返し外界に作用を及ぼすダイナ ミックなプロセス • ギリシャ語の「logos」(言葉)と「dia」(〜を通して) 5 1960~70年代 1980年代 1990年代 2000年代 2010年代~ 対話システムの中 心技術 パタンマッチ プランニング フレーム表現 音声認識・音声 合成 機械学習 ビッグデータ 深層学習 主なタスク指向型 対話システム SHRDLU Baseball LUNAR GUS VOYAGER ATIS Communicator Let’s go Siri Alexa MultiWOZ 主な非タスク指向 型対話システム ELIZA PARRY CONVERSE A.L.I.C.E. REA Meena BlenderBot Alexa Prize

Slide 6

Slide 6 text

対話システムの意義 • 複雑な情報を素早く,簡便に入力できる – 任意の量の情報を任意の単位で伝えられる • 相手に合わせた情報提供 • 他の作業と同時に行うことができる – アイズフリー・ハンズフリー • 使い方を学ばなくても使える – デジタルデバイド – 理想だが,実際はそうでもないことが多い • コミュニケーション支援 – カウンセリング,独居高齢者支援,面接訓練 • 認知科学・人間科学への貢献 – 構成論的に人間のことを知る 6 https://www.youtube.com/watch?v=_rDkb1K1si8 https://www.zukunftsinstitut.de/artikel/technologie/social-robots-der-einaeugige-kommt/

Slide 7

Slide 7 text

対話システムの類型 • タスクの有無 – タスク指向型,非タスク指向型 • 人数 – 一人,二人,多人数 • モダリティ – 音声,タッチパネル,ジェスチャ • 主導権 – システム,ユーザ,混合主導 • 身体性 – バーチャルエージェント型,ロボット型 7 http://www.pcl.cs.waseda.ac.jp/projects/robots/robita/ https://www.youtube.com/watch?v=sPcbo4d5_vI

Slide 8

Slide 8 text

8 ② タスク指向型 対話システム ③ 非タスク指向型 対話システム ④ 対話システム の評価 ⑤ 対話とは ⑥ 対話システム のすすめ

Slide 9

Slide 9 text

9 タスク指向型対話システム

Slide 10

Slide 10 text

タスク指向型対話システムの構成 10 対話管理 バックエンド データベース 音声 認識 言語 理解 対話状 態追跡 言語 生成 音声 合成 対話 状態 行動 選択 ユーザ お手頃なイタリアンに行 きたいんだけど Domain=Restaurant Inform, foodtype=Italian Price_range=cheap Request-area エリアはどちらですか? エリアはどちらですか? エリア 料理タイプ イタリアン 価格帯 安め フレーム

Slide 11

Slide 11 text

11 発話理解(NLU) 対話状態追跡(DST) • 目的は対話行為の推定 • インテント推定 • スロット抽出 • 目的はフレーム(信念状態)の推定 • 対話行為レベル/ワードレベルの状態追跡 • 分類,生成,スパン抽出の手法 行動選択(Policy) 発話生成(NLG) • 目的は,信念状態からシステムの次の対話行 為を推定 • MDP・POMDPでモデル化し,強化学習を利 用して学習することが多い • ワードレベルの行動選択 を行う場合もある (発話を直接生成) • 目的は,対話行為から発話の表層を生成 • テンプレートによる手法 • RNNやTransformerベースの手法 TripPy https://arxiv.org/a bs/2005.02877

Slide 12

Slide 12 text

End-to-Endモデル • 従来モデル – 長所:各モジュールのみに着目して研究を進めることが可能 – 短所:前のモジュールのエラーが後段のモジュールに伝播 • 全体で一つのネットワークにすることで,全体最適化 12 言語モデル(GPT-2)を用いて,文脈から,信念状態(フレー ム),システムの対話行為,システムの発話文字列を順次生成 SFN: https://arxiv.org/abs/1907.10016 SimpleTOD: https://arxiv.org/abs/2005.00796

Slide 13

Slide 13 text

13 ③ 非タスク指向型 対話システム ④ 対話システム の評価 ⑤ 対話とは ⑥ 対話システム のすすめ

Slide 14

Slide 14 text

14 非タスク指向型対話システム

Slide 15

Slide 15 text

非タスク指向型対話システムの構成 15 ルールベース 抽出(選択)ベース 生成(深層学習)ベース 統合的な手法 お酒 * 飲め * か お酒好きです 元気?? 元気いっぱいだよ リプライ 入力:元気ですか? 関連度:高 出力:元気いっぱいだよ 抽出 デコーダ エンコーダ 入力:こんにちは 出力:こんにちはー 対話 データ

Slide 16

Slide 16 text

生成ベースの課題 • 多様性 – dull responseへの対応 • 「そうですね」「分かりません」 – 相互情報量の利用 – unlikelihood training – 強化学習の適用 • グラウンディング – ウィキペディアなどの外部知識 – 知識グラフ,個性 – 抽出ベースの手法との融合 • 制御性 – 感情,スタイル,話題 • ハルシネーション 16 DCM DIT HBY 解釈不能 0.003 0.000 0.000 文法エラー 0.030 0.001 0.000 用法エラー 0.044 0.013 0.000 誤情報 0.002 0.565 0.300 質問無視 0.244 0.177 0.014 依頼無視 0.003 0.003 0.000 提案無視 0.009 0.000 0.000 挨拶無視 0.002 0.002 0.000 期待無視 0.012 0.002 0.067 発話意図不明確 0.334 0.170 0.094 話題遷移エラー 0.054 0.047 0.028 情報不足 0.130 0.002 0.033 自己矛盾 0.023 0.004 0.272 相手の発話との矛盾 0.020 0.006 0.083 繰り返し 0.052 0.008 0.094 社会性欠如 0.015 0.000 0.000 常識欠如 0.025 0.001 0.014 https://doi.org/10.5715/jnlp.29.443

Slide 17

Slide 17 text

結局,統合的な手法? 17 Gunrock 2018 マツコロイド 2014 Alquist 2021 BB3 2022 タスク対話指向型の構成に似てきた?

Slide 18

Slide 18 text

18 ④ 対話システム の評価 ⑤ 対話とは ⑥ 対話システム のすすめ

Slide 19

Slide 19 text

19 対話システムの評価

Slide 20

Slide 20 text

対話システム評価の観点 • オフライン評価とオンライン評価 • 発話,対話,システム単位の評価 • 主観評価と自動評価 • 絶対評価と相対評価 • モジュール評価とシステム評価 • 人間評価とシミュレーション評価 • ラボ評価と実ユーザ評価 • Intrinsic評価とExtrinsic評価 20 https://arxiv.org/pdf/1909.03087.pdf https://arxiv.org/pdf/2208.03188.pdf 対話単位で 相対評価を 行う ACUTE- EVAL BB3では, 実ユーザが 発話レベル のユーザ評 価を行う

Slide 21

Slide 21 text

タスク指向型対話システムの評価 • 対話単位の評価 – 主観評価尺度 • 独自項目,SASSI – 自動評価尺度 • タスク達成率 • 達成時間・ターン数 • Inform Precision/Recall/F1 – 情報提供の精度 • Book Rate – 情報検索の精度 • モジュール評価 • 評価尺度の学習 – PARADISE 21 •システム応答の正確性(System response accuracy) • 好ましさ(Likeability) • 認知的負荷(Cognitive demand) • 煩わしさ(Annoyance) • 可視性・理解可能性(Habitability) • 応答速度(Speed) モジュール 評価尺度 NLU Intent (Slot) Precision/Recall/F1 DST Slot Accuracy, Joint Goal Accuracy Policy NLUと同じ NLG BLEU, Inform Rate, Success Rate ユーザ満足度をタスクの難易度と 対話の特徴から推定するモデルを あらかじめ学習して評価に用いる [Hone and Graham, 2001] [Walker+, 2001]

Slide 22

Slide 22 text

非タスク指向型対話システムの評価 • 主観評価尺度 • 自動評価尺度 – Referenced metrics • BLUE, BERTScore • 人手評価との相関が低い – Unreferenced metrics • USR, FED – Trainable metrics • ADEM • RUBER 22 DialoGPTを用いて,システム応答の後の発話にポジティブな発話が どの程度出現するか,ネガティブな発話がどの程度出現するかで評価 https://arxiv.org/abs/2203.10012

Slide 23

Slide 23 text

23 ⑤ 対話とは ⑥ 対話システム のすすめ

Slide 24

Slide 24 text

24 対話とは

Slide 25

Slide 25 text

対話の理論 • 言語行為論 • ターンと話者交代 – TRP,順番交代規則 • 隣接ペアと連鎖組織 • 談話構造 • 共通基盤 • 対話の協調的原則 – グライスの公準,ポライトネス 25 基礎から分かる会話コミュニケーションの分析法 高梨克也,2016

Slide 26

Slide 26 text

26 ⑥ 対話システム のすすめ

Slide 27

Slide 27 text

27 対話システムのすすめ

Slide 28

Slide 28 text

対話システムのこれから 28 不定形タスク 音声コマンド スロット フィリング 定型タスク 価値観の共有 一問一答 話題の共有 情報の共有 タスク指向型対話 非タスク指向型対話(雑談対話) タスクの例 機器操作 予約タスク 検索タスク 情報推薦 コールセンタ応対 ニュース・物語伝達 教育・相談 議論 交渉 企画立案 必要となる技 術の例 単発話理解 話題理解 フレームベースの理解・生成 大規模言語モデル 共通基盤構築 物語理解・生成 フレームを超えた理解・生成 価値観理解 意図・欲求生成 社会理解 環境理解 現状 今後の方向性 信頼できる人工知能

Slide 29

Slide 29 text

今後重要となる考え方 • 「自然言語で情報の授受を繰り返し外界に作用を及ぼすダイ ナミックなプロセス」 – 対話は過程であって結果ではない • 対話の結果だけを再現するのは(あまり)意味がない • 過程を重視してきた「対話の理論」を取りいれていくべき 29 http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.618.pdf https://www.frontiersin.org/articles/10.3389/fpsyg.2021.580955/full

Slide 30

Slide 30 text

まとめ • 対話システムのチュートリアル – タスク指向・非タスク指向型対話システム,評価,対話の理論 • 対話システムの研究はまだまだこれから – 対話の過程の工学的研究は始まったばかりでブルーオーシャン • 対話システムの研究を一緒にやりましょう! 30