Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【YANS2022 チュートリアル】対話システムのすすめ

【YANS2022 チュートリアル】対話システムのすすめ

2022/08/29-30 に開催されたNLP若手の会 (YANS) 第17回シンポジウム (2022)のチュートリアルの資料です.権利等の関係からシステム紹介の動画のページは省いています.

Ryuichiro Higashinaka

August 30, 2022
Tweet

Other Decks in Research

Transcript

  1. 2 略歴 関わったイベント • 大阪府池田市出身 • 2001年慶応義塾大学大学院修士課程修了 • 2001年NTT入社 •

    2004年英国シェフィールド大学客員研究員 • 2008年慶応義塾大学大学院博士課程修了 • 2020年名古屋大学情報学研究科 • 対話システムシンポジウム • NTCIR Short Text Conversation • 対話破綻検出チャレンジ • 対話システムライブコンペティション • 対話ロボットコンペティション 関わったプロジェクト 書籍 • しゃべってコンシェル(質問応答機能) • 雑談対話API • マツコロイド(雑談機能) • ロボットは東大に入れるか(英語)
  2. 3 ① 対話システム とは ② タスク指向型 対話システム ③ 非タスク指向型 対話システム

    ④ 対話システム の評価 ⑤ 対話とは ⑥ 対話システム のすすめ
  3. 対話システムとは • 人間と対話を行うシステム – 対話:自然言語で情報の授受を繰り返し外界に作用を及ぼすダイナ ミックなプロセス • ギリシャ語の「logos」(言葉)と「dia」(〜を通して) 5 1960~70年代

    1980年代 1990年代 2000年代 2010年代~ 対話システムの中 心技術 パタンマッチ プランニング フレーム表現 音声認識・音声 合成 機械学習 ビッグデータ 深層学習 主なタスク指向型 対話システム SHRDLU Baseball LUNAR GUS VOYAGER ATIS Communicator Let’s go Siri Alexa MultiWOZ 主な非タスク指向 型対話システム ELIZA PARRY CONVERSE A.L.I.C.E. REA Meena BlenderBot Alexa Prize
  4. 対話システムの意義 • 複雑な情報を素早く,簡便に入力できる – 任意の量の情報を任意の単位で伝えられる • 相手に合わせた情報提供 • 他の作業と同時に行うことができる –

    アイズフリー・ハンズフリー • 使い方を学ばなくても使える – デジタルデバイド – 理想だが,実際はそうでもないことが多い • コミュニケーション支援 – カウンセリング,独居高齢者支援,面接訓練 • 認知科学・人間科学への貢献 – 構成論的に人間のことを知る 6 https://www.youtube.com/watch?v=_rDkb1K1si8 https://www.zukunftsinstitut.de/artikel/technologie/social-robots-der-einaeugige-kommt/
  5. 対話システムの類型 • タスクの有無 – タスク指向型,非タスク指向型 • 人数 – 一人,二人,多人数 •

    モダリティ – 音声,タッチパネル,ジェスチャ • 主導権 – システム,ユーザ,混合主導 • 身体性 – バーチャルエージェント型,ロボット型 7 http://www.pcl.cs.waseda.ac.jp/projects/robots/robita/ https://www.youtube.com/watch?v=sPcbo4d5_vI
  6. タスク指向型対話システムの構成 10 対話管理 バックエンド データベース 音声 認識 言語 理解 対話状

    態追跡 言語 生成 音声 合成 対話 状態 行動 選択 ユーザ お手頃なイタリアンに行 きたいんだけど Domain=Restaurant Inform, foodtype=Italian Price_range=cheap Request-area エリアはどちらですか? エリアはどちらですか? エリア 料理タイプ イタリアン 価格帯 安め フレーム
  7. 11 発話理解(NLU) 対話状態追跡(DST) • 目的は対話行為の推定 • インテント推定 • スロット抽出 •

    目的はフレーム(信念状態)の推定 • 対話行為レベル/ワードレベルの状態追跡 • 分類,生成,スパン抽出の手法 行動選択(Policy) 発話生成(NLG) • 目的は,信念状態からシステムの次の対話行 為を推定 • MDP・POMDPでモデル化し,強化学習を利 用して学習することが多い • ワードレベルの行動選択 を行う場合もある (発話を直接生成) • 目的は,対話行為から発話の表層を生成 • テンプレートによる手法 • RNNやTransformerベースの手法 TripPy https://arxiv.org/a bs/2005.02877
  8. End-to-Endモデル • 従来モデル – 長所:各モジュールのみに着目して研究を進めることが可能 – 短所:前のモジュールのエラーが後段のモジュールに伝播 • 全体で一つのネットワークにすることで,全体最適化 12

    言語モデル(GPT-2)を用いて,文脈から,信念状態(フレー ム),システムの対話行為,システムの発話文字列を順次生成 SFN: https://arxiv.org/abs/1907.10016 SimpleTOD: https://arxiv.org/abs/2005.00796
  9. 非タスク指向型対話システムの構成 15 ルールベース 抽出(選択)ベース 生成(深層学習)ベース 統合的な手法 <category> <pattern>お酒 * 飲め

    * か</pattern> <template>お酒好きです</template> </category> 元気?? 元気いっぱいだよ リプライ 入力:元気ですか? 関連度:高 出力:元気いっぱいだよ 抽出 デコーダ エンコーダ 入力:こんにちは 出力:こんにちはー 対話 データ
  10. 生成ベースの課題 • 多様性 – dull responseへの対応 • 「そうですね」「分かりません」 – 相互情報量の利用

    – unlikelihood training – 強化学習の適用 • グラウンディング – ウィキペディアなどの外部知識 – 知識グラフ,個性 – 抽出ベースの手法との融合 • 制御性 – 感情,スタイル,話題 • ハルシネーション 16 DCM DIT HBY 解釈不能 0.003 0.000 0.000 文法エラー 0.030 0.001 0.000 用法エラー 0.044 0.013 0.000 誤情報 0.002 0.565 0.300 質問無視 0.244 0.177 0.014 依頼無視 0.003 0.003 0.000 提案無視 0.009 0.000 0.000 挨拶無視 0.002 0.002 0.000 期待無視 0.012 0.002 0.067 発話意図不明確 0.334 0.170 0.094 話題遷移エラー 0.054 0.047 0.028 情報不足 0.130 0.002 0.033 自己矛盾 0.023 0.004 0.272 相手の発話との矛盾 0.020 0.006 0.083 繰り返し 0.052 0.008 0.094 社会性欠如 0.015 0.000 0.000 常識欠如 0.025 0.001 0.014 https://doi.org/10.5715/jnlp.29.443
  11. 対話システム評価の観点 • オフライン評価とオンライン評価 • 発話,対話,システム単位の評価 • 主観評価と自動評価 • 絶対評価と相対評価 •

    モジュール評価とシステム評価 • 人間評価とシミュレーション評価 • ラボ評価と実ユーザ評価 • Intrinsic評価とExtrinsic評価 20 https://arxiv.org/pdf/1909.03087.pdf https://arxiv.org/pdf/2208.03188.pdf 対話単位で 相対評価を 行う ACUTE- EVAL BB3では, 実ユーザが 発話レベル のユーザ評 価を行う
  12. タスク指向型対話システムの評価 • 対話単位の評価 – 主観評価尺度 • 独自項目,SASSI – 自動評価尺度 •

    タスク達成率 • 達成時間・ターン数 • Inform Precision/Recall/F1 – 情報提供の精度 • Book Rate – 情報検索の精度 • モジュール評価 • 評価尺度の学習 – PARADISE 21 •システム応答の正確性(System response accuracy) • 好ましさ(Likeability) • 認知的負荷(Cognitive demand) • 煩わしさ(Annoyance) • 可視性・理解可能性(Habitability) • 応答速度(Speed) モジュール 評価尺度 NLU Intent (Slot) Precision/Recall/F1 DST Slot Accuracy, Joint Goal Accuracy Policy NLUと同じ NLG BLEU, Inform Rate, Success Rate ユーザ満足度をタスクの難易度と 対話の特徴から推定するモデルを あらかじめ学習して評価に用いる [Hone and Graham, 2001] [Walker+, 2001]
  13. 非タスク指向型対話システムの評価 • 主観評価尺度 • 自動評価尺度 – Referenced metrics • BLUE,

    BERTScore • 人手評価との相関が低い – Unreferenced metrics • USR, FED – Trainable metrics • ADEM • RUBER 22 DialoGPTを用いて,システム応答の後の発話にポジティブな発話が どの程度出現するか,ネガティブな発話がどの程度出現するかで評価 https://arxiv.org/abs/2203.10012
  14. 対話の理論 • 言語行為論 • ターンと話者交代 – TRP,順番交代規則 • 隣接ペアと連鎖組織 •

    談話構造 • 共通基盤 • 対話の協調的原則 – グライスの公準,ポライトネス 25 基礎から分かる会話コミュニケーションの分析法 高梨克也,2016
  15. 対話システムのこれから 28 不定形タスク 音声コマンド スロット フィリング 定型タスク 価値観の共有 一問一答 話題の共有

    情報の共有 タスク指向型対話 非タスク指向型対話(雑談対話) タスクの例 機器操作 予約タスク 検索タスク 情報推薦 コールセンタ応対 ニュース・物語伝達 教育・相談 議論 交渉 企画立案 必要となる技 術の例 単発話理解 話題理解 フレームベースの理解・生成 大規模言語モデル 共通基盤構築 物語理解・生成 フレームを超えた理解・生成 価値観理解 意図・欲求生成 社会理解 環境理解 現状 今後の方向性 信頼できる人工知能