Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【YANS2022 チュートリアル】対話システムのすすめ
Search
Ryuichiro Higashinaka
August 30, 2022
Research
6
8.4k
【YANS2022 チュートリアル】対話システムのすすめ
2022/08/29-30 に開催されたNLP若手の会 (YANS) 第17回シンポジウム (2022)のチュートリアルの資料です.権利等の関係からシステム紹介の動画のページは省いています.
Ryuichiro Higashinaka
August 30, 2022
Tweet
Share
Other Decks in Research
See All in Research
請求書仕分け自動化での物体検知モデル活用 / Utilization of Object Detection Models in Automated Invoice Sorting
sansan_randd
0
110
医療支援AI開発における臨床と情報学の連携を円滑に進めるために
moda0
0
150
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
240
博士学位論文予備審査 / Scaling Telemetry Workloads in Cloud Applications: Techniques for Instrumentation, Storage, and Mining
yuukit
1
1.7k
打率7割を実現する、プロダクトディスカバリーの7つの極意(pmconf2024)
geshi0820
0
330
20241226_くまもと公共交通新時代シンポジウム
trafficbrain
0
420
Weekly AI Agents News! 11月号 論文のアーカイブ
masatoto
0
300
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment
satai
3
120
Bluesky Game Dev
trezy
0
150
AIトップカンファレンスからみるData-Centric AIの研究動向 / Research Trends in Data-Centric AI: Insights from Top AI Conferences
tsurubee
3
1.7k
精度を無視しない推薦多様化の評価指標
kuri8ive
1
360
Weekly AI Agents News! 12月号 プロダクト/ニュースのアーカイブ
masatoto
0
330
Featured
See All Featured
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Designing for humans not robots
tammielis
250
25k
Adopting Sorbet at Scale
ufuk
74
9.2k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Making the Leap to Tech Lead
cromwellryan
133
9.1k
RailsConf 2023
tenderlove
29
1k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Raft: Consensus for Rubyists
vanstee
137
6.8k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
30
4.6k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Transcript
【チュートリアル】 対話システムのすすめ 名古屋大学 情報学研究科 東中竜一郎 1 2022.8.29@YANS2022 (公開用)
2 略歴 関わったイベント • 大阪府池田市出身 • 2001年慶応義塾大学大学院修士課程修了 • 2001年NTT入社 •
2004年英国シェフィールド大学客員研究員 • 2008年慶応義塾大学大学院博士課程修了 • 2020年名古屋大学情報学研究科 • 対話システムシンポジウム • NTCIR Short Text Conversation • 対話破綻検出チャレンジ • 対話システムライブコンペティション • 対話ロボットコンペティション 関わったプロジェクト 書籍 • しゃべってコンシェル(質問応答機能) • 雑談対話API • マツコロイド(雑談機能) • ロボットは東大に入れるか(英語)
3 ① 対話システム とは ② タスク指向型 対話システム ③ 非タスク指向型 対話システム
④ 対話システム の評価 ⑤ 対話とは ⑥ 対話システム のすすめ
4 対話システムとは
対話システムとは • 人間と対話を行うシステム – 対話:自然言語で情報の授受を繰り返し外界に作用を及ぼすダイナ ミックなプロセス • ギリシャ語の「logos」(言葉)と「dia」(〜を通して) 5 1960~70年代
1980年代 1990年代 2000年代 2010年代~ 対話システムの中 心技術 パタンマッチ プランニング フレーム表現 音声認識・音声 合成 機械学習 ビッグデータ 深層学習 主なタスク指向型 対話システム SHRDLU Baseball LUNAR GUS VOYAGER ATIS Communicator Let’s go Siri Alexa MultiWOZ 主な非タスク指向 型対話システム ELIZA PARRY CONVERSE A.L.I.C.E. REA Meena BlenderBot Alexa Prize
対話システムの意義 • 複雑な情報を素早く,簡便に入力できる – 任意の量の情報を任意の単位で伝えられる • 相手に合わせた情報提供 • 他の作業と同時に行うことができる –
アイズフリー・ハンズフリー • 使い方を学ばなくても使える – デジタルデバイド – 理想だが,実際はそうでもないことが多い • コミュニケーション支援 – カウンセリング,独居高齢者支援,面接訓練 • 認知科学・人間科学への貢献 – 構成論的に人間のことを知る 6 https://www.youtube.com/watch?v=_rDkb1K1si8 https://www.zukunftsinstitut.de/artikel/technologie/social-robots-der-einaeugige-kommt/
対話システムの類型 • タスクの有無 – タスク指向型,非タスク指向型 • 人数 – 一人,二人,多人数 •
モダリティ – 音声,タッチパネル,ジェスチャ • 主導権 – システム,ユーザ,混合主導 • 身体性 – バーチャルエージェント型,ロボット型 7 http://www.pcl.cs.waseda.ac.jp/projects/robots/robita/ https://www.youtube.com/watch?v=sPcbo4d5_vI
8 ② タスク指向型 対話システム ③ 非タスク指向型 対話システム ④ 対話システム の評価
⑤ 対話とは ⑥ 対話システム のすすめ
9 タスク指向型対話システム
タスク指向型対話システムの構成 10 対話管理 バックエンド データベース 音声 認識 言語 理解 対話状
態追跡 言語 生成 音声 合成 対話 状態 行動 選択 ユーザ お手頃なイタリアンに行 きたいんだけど Domain=Restaurant Inform, foodtype=Italian Price_range=cheap Request-area エリアはどちらですか? エリアはどちらですか? エリア 料理タイプ イタリアン 価格帯 安め フレーム
11 発話理解(NLU) 対話状態追跡(DST) • 目的は対話行為の推定 • インテント推定 • スロット抽出 •
目的はフレーム(信念状態)の推定 • 対話行為レベル/ワードレベルの状態追跡 • 分類,生成,スパン抽出の手法 行動選択(Policy) 発話生成(NLG) • 目的は,信念状態からシステムの次の対話行 為を推定 • MDP・POMDPでモデル化し,強化学習を利 用して学習することが多い • ワードレベルの行動選択 を行う場合もある (発話を直接生成) • 目的は,対話行為から発話の表層を生成 • テンプレートによる手法 • RNNやTransformerベースの手法 TripPy https://arxiv.org/a bs/2005.02877
End-to-Endモデル • 従来モデル – 長所:各モジュールのみに着目して研究を進めることが可能 – 短所:前のモジュールのエラーが後段のモジュールに伝播 • 全体で一つのネットワークにすることで,全体最適化 12
言語モデル(GPT-2)を用いて,文脈から,信念状態(フレー ム),システムの対話行為,システムの発話文字列を順次生成 SFN: https://arxiv.org/abs/1907.10016 SimpleTOD: https://arxiv.org/abs/2005.00796
13 ③ 非タスク指向型 対話システム ④ 対話システム の評価 ⑤ 対話とは ⑥
対話システム のすすめ
14 非タスク指向型対話システム
非タスク指向型対話システムの構成 15 ルールベース 抽出(選択)ベース 生成(深層学習)ベース 統合的な手法 <category> <pattern>お酒 * 飲め
* か</pattern> <template>お酒好きです</template> </category> 元気?? 元気いっぱいだよ リプライ 入力:元気ですか? 関連度:高 出力:元気いっぱいだよ 抽出 デコーダ エンコーダ 入力:こんにちは 出力:こんにちはー 対話 データ
生成ベースの課題 • 多様性 – dull responseへの対応 • 「そうですね」「分かりません」 – 相互情報量の利用
– unlikelihood training – 強化学習の適用 • グラウンディング – ウィキペディアなどの外部知識 – 知識グラフ,個性 – 抽出ベースの手法との融合 • 制御性 – 感情,スタイル,話題 • ハルシネーション 16 DCM DIT HBY 解釈不能 0.003 0.000 0.000 文法エラー 0.030 0.001 0.000 用法エラー 0.044 0.013 0.000 誤情報 0.002 0.565 0.300 質問無視 0.244 0.177 0.014 依頼無視 0.003 0.003 0.000 提案無視 0.009 0.000 0.000 挨拶無視 0.002 0.002 0.000 期待無視 0.012 0.002 0.067 発話意図不明確 0.334 0.170 0.094 話題遷移エラー 0.054 0.047 0.028 情報不足 0.130 0.002 0.033 自己矛盾 0.023 0.004 0.272 相手の発話との矛盾 0.020 0.006 0.083 繰り返し 0.052 0.008 0.094 社会性欠如 0.015 0.000 0.000 常識欠如 0.025 0.001 0.014 https://doi.org/10.5715/jnlp.29.443
結局,統合的な手法? 17 Gunrock 2018 マツコロイド 2014 Alquist 2021 BB3 2022
タスク対話指向型の構成に似てきた?
18 ④ 対話システム の評価 ⑤ 対話とは ⑥ 対話システム のすすめ
19 対話システムの評価
対話システム評価の観点 • オフライン評価とオンライン評価 • 発話,対話,システム単位の評価 • 主観評価と自動評価 • 絶対評価と相対評価 •
モジュール評価とシステム評価 • 人間評価とシミュレーション評価 • ラボ評価と実ユーザ評価 • Intrinsic評価とExtrinsic評価 20 https://arxiv.org/pdf/1909.03087.pdf https://arxiv.org/pdf/2208.03188.pdf 対話単位で 相対評価を 行う ACUTE- EVAL BB3では, 実ユーザが 発話レベル のユーザ評 価を行う
タスク指向型対話システムの評価 • 対話単位の評価 – 主観評価尺度 • 独自項目,SASSI – 自動評価尺度 •
タスク達成率 • 達成時間・ターン数 • Inform Precision/Recall/F1 – 情報提供の精度 • Book Rate – 情報検索の精度 • モジュール評価 • 評価尺度の学習 – PARADISE 21 •システム応答の正確性(System response accuracy) • 好ましさ(Likeability) • 認知的負荷(Cognitive demand) • 煩わしさ(Annoyance) • 可視性・理解可能性(Habitability) • 応答速度(Speed) モジュール 評価尺度 NLU Intent (Slot) Precision/Recall/F1 DST Slot Accuracy, Joint Goal Accuracy Policy NLUと同じ NLG BLEU, Inform Rate, Success Rate ユーザ満足度をタスクの難易度と 対話の特徴から推定するモデルを あらかじめ学習して評価に用いる [Hone and Graham, 2001] [Walker+, 2001]
非タスク指向型対話システムの評価 • 主観評価尺度 • 自動評価尺度 – Referenced metrics • BLUE,
BERTScore • 人手評価との相関が低い – Unreferenced metrics • USR, FED – Trainable metrics • ADEM • RUBER 22 DialoGPTを用いて,システム応答の後の発話にポジティブな発話が どの程度出現するか,ネガティブな発話がどの程度出現するかで評価 https://arxiv.org/abs/2203.10012
23 ⑤ 対話とは ⑥ 対話システム のすすめ
24 対話とは
対話の理論 • 言語行為論 • ターンと話者交代 – TRP,順番交代規則 • 隣接ペアと連鎖組織 •
談話構造 • 共通基盤 • 対話の協調的原則 – グライスの公準,ポライトネス 25 基礎から分かる会話コミュニケーションの分析法 高梨克也,2016
26 ⑥ 対話システム のすすめ
27 対話システムのすすめ
対話システムのこれから 28 不定形タスク 音声コマンド スロット フィリング 定型タスク 価値観の共有 一問一答 話題の共有
情報の共有 タスク指向型対話 非タスク指向型対話(雑談対話) タスクの例 機器操作 予約タスク 検索タスク 情報推薦 コールセンタ応対 ニュース・物語伝達 教育・相談 議論 交渉 企画立案 必要となる技 術の例 単発話理解 話題理解 フレームベースの理解・生成 大規模言語モデル 共通基盤構築 物語理解・生成 フレームを超えた理解・生成 価値観理解 意図・欲求生成 社会理解 環境理解 現状 今後の方向性 信頼できる人工知能
今後重要となる考え方 • 「自然言語で情報の授受を繰り返し外界に作用を及ぼすダイ ナミックなプロセス」 – 対話は過程であって結果ではない • 対話の結果だけを再現するのは(あまり)意味がない • 過程を重視してきた「対話の理論」を取りいれていくべき
29 http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.618.pdf https://www.frontiersin.org/articles/10.3389/fpsyg.2021.580955/full
まとめ • 対話システムのチュートリアル – タスク指向・非タスク指向型対話システム,評価,対話の理論 • 対話システムの研究はまだまだこれから – 対話の過程の工学的研究は始まったばかりでブルーオーシャン •
対話システムの研究を一緒にやりましょう! 30