Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: Smooth Turn-taking by a Robot Using an On...

Avatar for sadahry sadahry
December 22, 2022

論文紹介: Smooth Turn-taking by a Robot Using an Online Continuous Model to Generate Turn-taking Cues

継続的なターン終了予測モデルの設計と、フィラーによるターン終了キューを含めたターントークの印象評価

Avatar for sadahry

sadahry

December 22, 2022
Tweet

More Decks by sadahry

Other Decks in Technology

Transcript

  1. 論文概要 Lala, Divesh, Koji Inoue, and Tatsuya Kawahara. ‘Smooth Turn-Taking

    by a Robot Using an Online Continuous Model to Generate Turn-Taking Cues’. In 2019 International Conference on Multimodal Interaction, 226–34. Suzhou China: ACM, 2019. https://doi.org/10.1145/3340555.3353727. • 発話タイミングに関する研究 • 予測遅延への対処法の検討 • IPU-base modelとcontinuous model(後述)のハイブリッドモデルを提案 • continuous modelを新たに構築して評価 ◦ IPU-base modelは既往研究のものを利用 • 映像による印象評価により、 continuous modelの有用性を検証 ◦ continuous modelによりfillerとgazeを生成すると有意に好印象であることを示した ▪ 発話タイミング(IPU-basedとgazeのみと比較) ▪ 人間らしさ(gazeのみと比較)
  2. IPU-based modelとcontinuous model IPU-based model*1 • IPU末(≒200ms以上の沈黙)からターン終了かどうかを予測 • 音声認識結果(ASR)を用いることが一般的 •

    精度は比較的高い • 欠点: 必ず遅延してしまう continuous model*2 • 常に(e.g.,100msごとに)ターン終了かどうかを予測 • 音声データをそのまま利用することが一般的 • 欠点:精度が低くなる • (昨今だと音声認識も速いので ASRも使える気がする..) *1 *2
  3. (参考) 人同士の発話タイミング • 一般に、人同士の発話タイミングの平均は先行対話の 100-200ms • 言語によって差異あり Tanya Stivers, Nicholas

    J Enfield, Penelope Brown, Christina Englert, Makoto Hayashi, Trine Heinemann, Gertie Hoymann, Federico Rossano, Jan Peter De Ruiter, Kyung-Eun Yoon, et al. 2009. Universals and cultural variation in turn-taking in conversation. Proceedings of the National Academy of Sciences 106, 26 (2009), 10587–10592. 日本
  4. • IPU-based modelとcontinuous modelのハイブリッドモデルを提案 *1 ◦ continuous modelでキューを生成してIPU-based modelで正確に予測する ◦

    IPU-based modelはMasumura et al. 2018 (F1 score = 0.821)を利用 ▪ (自身のコーパスに適用したら (F1 score = 0.592)になっちゃったらしい ) 提案モデル(概要) Ryo Masumura, Tomohiro Tanaka, Atsushi Ando, Ryo Ishii, Ryuichiro Higashinaka, and Yushi Aono. 2018. Neural Dialogue Context Online End-of-Turn Detection. In Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue. Association for Computational Linguistics, 224–228. *1
  5. • ERICAでWoZにより対話したデータ • 様々なシチュエーション ◦ 面接、デート、傾聴対話 ..etc ◦ 各セッションは5~20分 •

    参加者の年齢や性別は様々 • 目線のセンサー(Kinect)データも含まれる • フィラー、相槌、IPUはアノテーション済 学習データ 画像: 井上 昂治, ラーラー ディベッシュ, 山本 賢太, 中村 静, 高梨 克也, 河原 達也, アンドロイドERICAの傾聴対話システム –人間による傾聴との比較評価 –, 人工知 能学会論文誌, 2021, 36 巻, 5 号, p. H-L51_1-12, 公開日 2021/09/01, Online ISSN 1346-8030, Print ISSN 1346-0714, https://doi.org/10.1527/tjsai.36-5_H-L51, https://www.jstage.jst.go.jp/article/tjsai/36/5/36_36-5_H-L51/_article/-char/ja,
  6. • ERICAモデル(Operator model)と参加者モデル(Subject model)を別々に構築 • LSTMで構築 ◦ 128 nodes and

    3 layers ◦ batch size: 32, dropout: 20% • 特徴量は以下 ◦ 音声特徴量*1は100msごとにフレーム抽出 ▪ (フレーム内の) F0 が前値の 80-120% 以内ではない場合は unvoiced • 50ms以内にunvoicedが含まれるフレームは除外 ◦ (Subject modelのみ) 目線情報を30msで抽出 ▪ 隠れ層で音声とlatent fusion • 500ms以内にターン終了となる場合を positiveに ◦ Operator model: 13,125/105,719 (12.41%) as positive ◦ Subject model: 10,699/116,401 (9.19%) as positive 提案モデル(continuous model) *1
  7. • 精度は高くない*1 ◦ あくまで「ターン終了しそう」を予測するため • 「連続で終了を予測したケース」を正に *2 ◦ consecutive positive

    predictions(cpp) ◦ Correct: ターン中の初回cpp予測がターン終了 ◦ Wrong: cpp予測がcorrect以外 ◦ Missed: cpp予測がされなかった • precisionとrecallの最適なバランスで cppを選択*3 ◦ Operator model: cpp=3 ◦ Subject model: cpp=2 ◦ (ハイブリッドモデルなら recallのがよさそう...) 予測結果と手法の改善 *1 *2 *3
  8. • cppを最適に設定したモデルで評価 • 学習データから以下条件すべてを満たすものを抽出 ◦ 短い応答で内容が把握できる会話 ◦ 相槌が含まれない ◦ (話し手はERICA(Operator),

    参加者の両方から抽出 ) • 51 サンプル (24 ターン終了,27 ターン維持) • 会話はそのままにERICAの返答有無と返答方法を変更 ◦ IPU-based: IPU-based modelがターン終了の予測に 100msかかると想定、予測したら 700ms後に返答 ◦ Gaze: continuous modelがターン終了を予測したタイ ミングで目をそらし、 700ms後に返答 ◦ G+F: continuous modelがターン終了を予測したタイミ ングで目をそらしてフィラー、続けて予測した場合には 5 秒以上経過していたらフィラー、 700ms後に返答 ▪ フィラー: ah 67%, etto 33% ◦ 返答音声の合成方法は共通 ◦ continuous modelの推論時間と音声合成時間は除外 • ERICAが正面を見ている映像 *1を2モデル比較して、どちらが 優れているのか3項目で評価してもらう ◦ 項目: Timing, Interest, Human-like. 性能評価 *1
  9. • continuous model G+Fが有意に好印象であることを示した *1 ◦ IPU vs G+F -

    Timing ◦ Gaze vs G+F - Timing ◦ Gaze vs G+F - Human-like • 印象評価では予測の成否と印象評価が異なっていた ◦ ターン維持の予測失敗例でも、話し手が質問のような 言葉を投げかけたときにフィラーを出しており、質問へ 興味があるように見えた。会話の継続を促すような表現 となっていた ◦ 面接での自己アピールを問われた時にフィラー (ah)を 出していたため、評価が最も低くなっていた 評価結果 *1
  10. • 予測遅延対策として IPU-base modelとcontinuous modelのハイブリッドモデルを提案 ◦ IPU-base modelは既存の手法 ◦ continuous

    modelを新たに構築 • continuous modelの予測精度は高くないため consecutive positive predictions(cpp)を導入 ◦ モデルの予測精度precisionとrecallの最適なバランスで cppを選択 • continuous modelのターン終了予測時に目を逸らしてフィラーするモデルで印象評価 (G+F) ◦ IPU-based modelと目をそらすのみの continuous modelより有意に高評価 ◦ G+Fモデルがハイブリッドモデルとして適していることを示した • 印象評価では予測の成否と印象評価が異なっていた ◦ タスクのシチュエーションに合わせた対応が必要 まとめ