Slide 21
Slide 21 text
タスク指向型対話システムの評価
• 対話単位の評価
– 主観評価尺度
• 独自項目,SASSI
– 自動評価尺度
• タスク達成率
• 達成時間・ターン数
• Inform Precision/Recall/F1
– 情報提供の精度
• Book Rate
– 情報検索の精度
• モジュール評価
• 評価尺度の学習
– PARADISE
21
•システム応答の正確性(System response accuracy)
• 好ましさ(Likeability)
• 認知的負荷(Cognitive demand)
• 煩わしさ(Annoyance)
• 可視性・理解可能性(Habitability)
• 応答速度(Speed)
モジュール 評価尺度
NLU Intent (Slot) Precision/Recall/F1
DST Slot Accuracy, Joint Goal Accuracy
Policy NLUと同じ
NLG BLEU, Inform Rate, Success Rate
ユーザ満足度をタスクの難易度と
対話の特徴から推定するモデルを
あらかじめ学習して評価に用いる
[Hone and Graham, 2001]
[Walker+, 2001]