2022/08/29-30 に開催されたNLP若手の会 (YANS) 第17回シンポジウム (2022)のチュートリアルの資料です.権利等の関係からシステム紹介の動画のページは省いています.
【チュートリアル】対話システムのすすめ名古屋大学情報学研究科東中竜一郎1[email protected](公開用)
View Slide
2略歴 関わったイベント• 大阪府池田市出身• 2001年慶応義塾大学大学院修士課程修了• 2001年NTT入社• 2004年英国シェフィールド大学客員研究員• 2008年慶応義塾大学大学院博士課程修了• 2020年名古屋大学情報学研究科• 対話システムシンポジウム• NTCIR Short Text Conversation• 対話破綻検出チャレンジ• 対話システムライブコンペティション• 対話ロボットコンペティション関わったプロジェクト 書籍• しゃべってコンシェル(質問応答機能)• 雑談対話API• マツコロイド(雑談機能)• ロボットは東大に入れるか(英語)
3①対話システムとは②タスク指向型対話システム③非タスク指向型対話システム④対話システムの評価⑤対話とは⑥対話システムのすすめ
4対話システムとは
対話システムとは• 人間と対話を行うシステム– 対話:自然言語で情報の授受を繰り返し外界に作用を及ぼすダイナミックなプロセス• ギリシャ語の「logos」(言葉)と「dia」(〜を通して)51960~70年代 1980年代 1990年代 2000年代 2010年代~対話システムの中心技術パタンマッチプランニングフレーム表現 音声認識・音声合成機械学習ビッグデータ深層学習主なタスク指向型対話システムSHRDLUBaseballLUNARGUS VOYAGERATISCommunicatorLet’s go SiriAlexaMultiWOZ主な非タスク指向型対話システムELIZAPARRYCONVERSEA.L.I.C.E.REA MeenaBlenderBotAlexa Prize
対話システムの意義• 複雑な情報を素早く,簡便に入力できる– 任意の量の情報を任意の単位で伝えられる• 相手に合わせた情報提供• 他の作業と同時に行うことができる– アイズフリー・ハンズフリー• 使い方を学ばなくても使える– デジタルデバイド– 理想だが,実際はそうでもないことが多い• コミュニケーション支援– カウンセリング,独居高齢者支援,面接訓練• 認知科学・人間科学への貢献– 構成論的に人間のことを知る6https://www.youtube.com/watch?v=_rDkb1K1si8https://www.zukunftsinstitut.de/artikel/technologie/social-robots-der-einaeugige-kommt/
対話システムの類型• タスクの有無– タスク指向型,非タスク指向型• 人数– 一人,二人,多人数• モダリティ– 音声,タッチパネル,ジェスチャ• 主導権– システム,ユーザ,混合主導• 身体性– バーチャルエージェント型,ロボット型7http://www.pcl.cs.waseda.ac.jp/projects/robots/robita/https://www.youtube.com/watch?v=sPcbo4d5_vI
8②タスク指向型対話システム③非タスク指向型対話システム④対話システムの評価⑤対話とは⑥対話システムのすすめ
9タスク指向型対話システム
タスク指向型対話システムの構成10対話管理バックエンドデータベース音声認識言語理解対話状態追跡言語生成音声合成対話状態 行動選択ユーザお手頃なイタリアンに行きたいんだけどDomain=RestaurantInform, foodtype=ItalianPrice_range=cheapRequest-areaエリアはどちらですか?エリアはどちらですか?エリア料理タイプ イタリアン価格帯 安めフレーム
11発話理解(NLU) 対話状態追跡(DST)• 目的は対話行為の推定• インテント推定• スロット抽出• 目的はフレーム(信念状態)の推定• 対話行為レベル/ワードレベルの状態追跡• 分類,生成,スパン抽出の手法行動選択(Policy) 発話生成(NLG)• 目的は,信念状態からシステムの次の対話行為を推定• MDP・POMDPでモデル化し,強化学習を利用して学習することが多い• ワードレベルの行動選択を行う場合もある(発話を直接生成)• 目的は,対話行為から発話の表層を生成• テンプレートによる手法• RNNやTransformerベースの手法TripPyhttps://arxiv.org/abs/2005.02877
End-to-Endモデル• 従来モデル– 長所:各モジュールのみに着目して研究を進めることが可能– 短所:前のモジュールのエラーが後段のモジュールに伝播• 全体で一つのネットワークにすることで,全体最適化12言語モデル(GPT-2)を用いて,文脈から,信念状態(フレーム),システムの対話行為,システムの発話文字列を順次生成SFN: https://arxiv.org/abs/1907.10016SimpleTOD: https://arxiv.org/abs/2005.00796
13③非タスク指向型対話システム④対話システムの評価⑤対話とは⑥対話システムのすすめ
14非タスク指向型対話システム
非タスク指向型対話システムの構成15ルールベース 抽出(選択)ベース生成(深層学習)ベース 統合的な手法お酒 * 飲め * かお酒好きです元気?? 元気いっぱいだよリプライ入力:元気ですか?関連度:高出力:元気いっぱいだよ抽出デコーダエンコーダ入力:こんにちは出力:こんにちはー対話データ
生成ベースの課題• 多様性– dull responseへの対応• 「そうですね」「分かりません」– 相互情報量の利用– unlikelihood training– 強化学習の適用• グラウンディング– ウィキペディアなどの外部知識– 知識グラフ,個性– 抽出ベースの手法との融合• 制御性– 感情,スタイル,話題• ハルシネーション16DCM DIT HBY解釈不能 0.003 0.000 0.000文法エラー 0.030 0.001 0.000用法エラー 0.044 0.013 0.000誤情報 0.002 0.565 0.300質問無視 0.244 0.177 0.014依頼無視 0.003 0.003 0.000提案無視 0.009 0.000 0.000挨拶無視 0.002 0.002 0.000期待無視 0.012 0.002 0.067発話意図不明確 0.334 0.170 0.094話題遷移エラー 0.054 0.047 0.028情報不足 0.130 0.002 0.033自己矛盾 0.023 0.004 0.272相手の発話との矛盾 0.020 0.006 0.083繰り返し 0.052 0.008 0.094社会性欠如 0.015 0.000 0.000常識欠如 0.025 0.001 0.014https://doi.org/10.5715/jnlp.29.443
結局,統合的な手法?17Gunrock2018マツコロイド2014Alquist2021BB32022タスク対話指向型の構成に似てきた?
18④対話システムの評価⑤対話とは⑥対話システムのすすめ
19対話システムの評価
対話システム評価の観点• オフライン評価とオンライン評価• 発話,対話,システム単位の評価• 主観評価と自動評価• 絶対評価と相対評価• モジュール評価とシステム評価• 人間評価とシミュレーション評価• ラボ評価と実ユーザ評価• Intrinsic評価とExtrinsic評価20https://arxiv.org/pdf/1909.03087.pdfhttps://arxiv.org/pdf/2208.03188.pdf対話単位で相対評価を行うACUTE-EVALBB3では,実ユーザが発話レベルのユーザ評価を行う
タスク指向型対話システムの評価• 対話単位の評価– 主観評価尺度• 独自項目,SASSI– 自動評価尺度• タスク達成率• 達成時間・ターン数• Inform Precision/Recall/F1– 情報提供の精度• Book Rate– 情報検索の精度• モジュール評価• 評価尺度の学習– PARADISE21•システム応答の正確性(System response accuracy)• 好ましさ(Likeability)• 認知的負荷(Cognitive demand)• 煩わしさ(Annoyance)• 可視性・理解可能性(Habitability)• 応答速度(Speed)モジュール 評価尺度NLU Intent (Slot) Precision/Recall/F1DST Slot Accuracy, Joint Goal AccuracyPolicy NLUと同じNLG BLEU, Inform Rate, Success Rateユーザ満足度をタスクの難易度と対話の特徴から推定するモデルをあらかじめ学習して評価に用いる[Hone and Graham, 2001][Walker+, 2001]
非タスク指向型対話システムの評価• 主観評価尺度• 自動評価尺度– Referenced metrics• BLUE, BERTScore• 人手評価との相関が低い– Unreferenced metrics• USR, FED– Trainable metrics• ADEM• RUBER22DialoGPTを用いて,システム応答の後の発話にポジティブな発話がどの程度出現するか,ネガティブな発話がどの程度出現するかで評価https://arxiv.org/abs/2203.10012
23⑤対話とは⑥対話システムのすすめ
24対話とは
対話の理論• 言語行為論• ターンと話者交代– TRP,順番交代規則• 隣接ペアと連鎖組織• 談話構造• 共通基盤• 対話の協調的原則– グライスの公準,ポライトネス25基礎から分かる会話コミュニケーションの分析法高梨克也,2016
26⑥対話システムのすすめ
27対話システムのすすめ
対話システムのこれから28不定形タスク音声コマンドスロットフィリング定型タスク価値観の共有一問一答 話題の共有 情報の共有タスク指向型対話非タスク指向型対話(雑談対話)タスクの例 機器操作 予約タスク検索タスク情報推薦コールセンタ応対ニュース・物語伝達教育・相談議論交渉企画立案必要となる技術の例単発話理解 話題理解フレームベースの理解・生成大規模言語モデル共通基盤構築物語理解・生成フレームを超えた理解・生成価値観理解意図・欲求生成社会理解環境理解現状今後の方向性信頼できる人工知能
今後重要となる考え方• 「自然言語で情報の授受を繰り返し外界に作用を及ぼすダイナミックなプロセス」– 対話は過程であって結果ではない• 対話の結果だけを再現するのは(あまり)意味がない• 過程を重視してきた「対話の理論」を取りいれていくべき29http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.618.pdfhttps://www.frontiersin.org/articles/10.3389/fpsyg.2021.580955/full
まとめ• 対話システムのチュートリアル– タスク指向・非タスク指向型対話システム,評価,対話の理論• 対話システムの研究はまだまだこれから– 対話の過程の工学的研究は始まったばかりでブルーオーシャン• 対話システムの研究を一緒にやりましょう!30