Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: Smooth Turn-taking by a Robot Using an On...

sadahry
December 22, 2022

論文紹介: Smooth Turn-taking by a Robot Using an Online Continuous Model to Generate Turn-taking Cues

継続的なターン終了予測モデルの設計と、フィラーによるターン終了キューを含めたターントークの印象評価

sadahry

December 22, 2022
Tweet

More Decks by sadahry

Other Decks in Technology

Transcript

  1. 論文概要 Lala, Divesh, Koji Inoue, and Tatsuya Kawahara. ‘Smooth Turn-Taking

    by a Robot Using an Online Continuous Model to Generate Turn-Taking Cues’. In 2019 International Conference on Multimodal Interaction, 226–34. Suzhou China: ACM, 2019. https://doi.org/10.1145/3340555.3353727. • 発話タイミングに関する研究 • 予測遅延への対処法の検討 • IPU-base modelとcontinuous model(後述)のハイブリッドモデルを提案 • continuous modelを新たに構築して評価 ◦ IPU-base modelは既往研究のものを利用 • 映像による印象評価により、 continuous modelの有用性を検証 ◦ continuous modelによりfillerとgazeを生成すると有意に好印象であることを示した ▪ 発話タイミング(IPU-basedとgazeのみと比較) ▪ 人間らしさ(gazeのみと比較)
  2. IPU-based modelとcontinuous model IPU-based model*1 • IPU末(≒200ms以上の沈黙)からターン終了かどうかを予測 • 音声認識結果(ASR)を用いることが一般的 •

    精度は比較的高い • 欠点: 必ず遅延してしまう continuous model*2 • 常に(e.g.,100msごとに)ターン終了かどうかを予測 • 音声データをそのまま利用することが一般的 • 欠点:精度が低くなる • (昨今だと音声認識も速いので ASRも使える気がする..) *1 *2
  3. (参考) 人同士の発話タイミング • 一般に、人同士の発話タイミングの平均は先行対話の 100-200ms • 言語によって差異あり Tanya Stivers, Nicholas

    J Enfield, Penelope Brown, Christina Englert, Makoto Hayashi, Trine Heinemann, Gertie Hoymann, Federico Rossano, Jan Peter De Ruiter, Kyung-Eun Yoon, et al. 2009. Universals and cultural variation in turn-taking in conversation. Proceedings of the National Academy of Sciences 106, 26 (2009), 10587–10592. 日本
  4. • IPU-based modelとcontinuous modelのハイブリッドモデルを提案 *1 ◦ continuous modelでキューを生成してIPU-based modelで正確に予測する ◦

    IPU-based modelはMasumura et al. 2018 (F1 score = 0.821)を利用 ▪ (自身のコーパスに適用したら (F1 score = 0.592)になっちゃったらしい ) 提案モデル(概要) Ryo Masumura, Tomohiro Tanaka, Atsushi Ando, Ryo Ishii, Ryuichiro Higashinaka, and Yushi Aono. 2018. Neural Dialogue Context Online End-of-Turn Detection. In Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue. Association for Computational Linguistics, 224–228. *1
  5. • ERICAでWoZにより対話したデータ • 様々なシチュエーション ◦ 面接、デート、傾聴対話 ..etc ◦ 各セッションは5~20分 •

    参加者の年齢や性別は様々 • 目線のセンサー(Kinect)データも含まれる • フィラー、相槌、IPUはアノテーション済 学習データ 画像: 井上 昂治, ラーラー ディベッシュ, 山本 賢太, 中村 静, 高梨 克也, 河原 達也, アンドロイドERICAの傾聴対話システム –人間による傾聴との比較評価 –, 人工知 能学会論文誌, 2021, 36 巻, 5 号, p. H-L51_1-12, 公開日 2021/09/01, Online ISSN 1346-8030, Print ISSN 1346-0714, https://doi.org/10.1527/tjsai.36-5_H-L51, https://www.jstage.jst.go.jp/article/tjsai/36/5/36_36-5_H-L51/_article/-char/ja,
  6. • ERICAモデル(Operator model)と参加者モデル(Subject model)を別々に構築 • LSTMで構築 ◦ 128 nodes and

    3 layers ◦ batch size: 32, dropout: 20% • 特徴量は以下 ◦ 音声特徴量*1は100msごとにフレーム抽出 ▪ (フレーム内の) F0 が前値の 80-120% 以内ではない場合は unvoiced • 50ms以内にunvoicedが含まれるフレームは除外 ◦ (Subject modelのみ) 目線情報を30msで抽出 ▪ 隠れ層で音声とlatent fusion • 500ms以内にターン終了となる場合を positiveに ◦ Operator model: 13,125/105,719 (12.41%) as positive ◦ Subject model: 10,699/116,401 (9.19%) as positive 提案モデル(continuous model) *1
  7. • 精度は高くない*1 ◦ あくまで「ターン終了しそう」を予測するため • 「連続で終了を予測したケース」を正に *2 ◦ consecutive positive

    predictions(cpp) ◦ Correct: ターン中の初回cpp予測がターン終了 ◦ Wrong: cpp予測がcorrect以外 ◦ Missed: cpp予測がされなかった • precisionとrecallの最適なバランスで cppを選択*3 ◦ Operator model: cpp=3 ◦ Subject model: cpp=2 ◦ (ハイブリッドモデルなら recallのがよさそう...) 予測結果と手法の改善 *1 *2 *3
  8. • cppを最適に設定したモデルで評価 • 学習データから以下条件すべてを満たすものを抽出 ◦ 短い応答で内容が把握できる会話 ◦ 相槌が含まれない ◦ (話し手はERICA(Operator),

    参加者の両方から抽出 ) • 51 サンプル (24 ターン終了,27 ターン維持) • 会話はそのままにERICAの返答有無と返答方法を変更 ◦ IPU-based: IPU-based modelがターン終了の予測に 100msかかると想定、予測したら 700ms後に返答 ◦ Gaze: continuous modelがターン終了を予測したタイ ミングで目をそらし、 700ms後に返答 ◦ G+F: continuous modelがターン終了を予測したタイミ ングで目をそらしてフィラー、続けて予測した場合には 5 秒以上経過していたらフィラー、 700ms後に返答 ▪ フィラー: ah 67%, etto 33% ◦ 返答音声の合成方法は共通 ◦ continuous modelの推論時間と音声合成時間は除外 • ERICAが正面を見ている映像 *1を2モデル比較して、どちらが 優れているのか3項目で評価してもらう ◦ 項目: Timing, Interest, Human-like. 性能評価 *1
  9. • continuous model G+Fが有意に好印象であることを示した *1 ◦ IPU vs G+F -

    Timing ◦ Gaze vs G+F - Timing ◦ Gaze vs G+F - Human-like • 印象評価では予測の成否と印象評価が異なっていた ◦ ターン維持の予測失敗例でも、話し手が質問のような 言葉を投げかけたときにフィラーを出しており、質問へ 興味があるように見えた。会話の継続を促すような表現 となっていた ◦ 面接での自己アピールを問われた時にフィラー (ah)を 出していたため、評価が最も低くなっていた 評価結果 *1
  10. • 予測遅延対策として IPU-base modelとcontinuous modelのハイブリッドモデルを提案 ◦ IPU-base modelは既存の手法 ◦ continuous

    modelを新たに構築 • continuous modelの予測精度は高くないため consecutive positive predictions(cpp)を導入 ◦ モデルの予測精度precisionとrecallの最適なバランスで cppを選択 • continuous modelのターン終了予測時に目を逸らしてフィラーするモデルで印象評価 (G+F) ◦ IPU-based modelと目をそらすのみの continuous modelより有意に高評価 ◦ G+Fモデルがハイブリッドモデルとして適していることを示した • 印象評価では予測の成否と印象評価が異なっていた ◦ タスクのシチュエーションに合わせた対応が必要 まとめ