[論文紹介] Extrovert or Introvert? GAN-Based Humanoid Upper-Body Gesture Generation for Different Impressions

[論文紹介] Extrovert or Introvert? GAN-Based Humanoid Upper-Body Gesture Generation for
Different Impressions Bowen Wu, Chaoran Liu, Carlos Toshinori Ishi, Jiaqi Shi, Hiroshi Ishiguro International Journal of Social Robotics (2023 published)

2 ロボットジェスチャへの印象非言語行動の重要性親近感・受容性: 動作が自然であるほど、ロボットへの親近感や社会的受容性が高まる認知科学の知見: 動作の速さや大きさなどが、ユーザの外/内向性といった印象形成に深く関与する印象を制御できれば、ロボットの役割や対話相手に合
わせた最適な動作の提供が期待できる

3 ジェスチャ生成技術の発展 Speech-driven ジェスチャ生成手法 LSTM, VAE, GANベースのモデルが提案されており、ルールベースと比較して動作の自然さが向上し、未知の音声入力に対する汎用性も向上既存手法の課題 •
印象制御の欠如: ユーザーがロボットに抱く印象(外向性など)を直接・意図的に制御する機能がない • ラベル付きデータ収集の困難さ: 抽条件付き学習を行うための多様な印象ラベルが必要であるが、あらゆる性格の組み合わせ（Big Five等）を網羅するデータ収集はコストがかかる

4 研究目的音声入力+ 外向的といった印象ラベルを条件として与え、生成されるジェスチャの個性を制御する印象制御の実現動作特徴からラベルを自動生成する「疑似ラベル付け」手法を提案するラベル付き動作データの構築
最終的に、提案システムで生成したジェスチャをヒューマノイドロボット (CommU)に実装し、その有効性を検証する

5 提案手法 1. 特性ラベル割り当て外向性に関連するジェスチャーの特徴に基づいて、各サンプルに特性ラベルを割り当て 2. generative adversarial networks (GANs)の学習
抽出された発話特徴と特性ラベルを入力として、ジェスチャーを生成するこの際、擬似ラベル付きサンプルを使用してGANを訓練する概要図

6 疑似ラベル作成特徴量の定義: 外向性と相関する2つの動作特徴を定義 • 速度：全関節の平均移動距離/動作時間ここで、時間𝑡 におけるジョイント𝑘の座標(𝑥𝑡 𝑘,
𝑦𝑡 𝑘, 𝑧𝑡 𝑘), ジョイント総数𝐾,動作時間𝑇 • 振れ幅: 最大移動距離の両手平均ここで、𝑙ℎと𝑟ℎはそれぞれ左手と右手の位置で, 𝑑𝑖𝑠𝑡(∙,∙)は3Dの2点間距離クラスタリングによるラベル付け: 上記特徴量に基づきk-means(k=3)でlow/mid/highに分類 𝑆𝑝𝑒𝑒𝑑 = 𝑎𝑚𝑝 =

7 発話特徴抽出「いつ話しているか」「抑揚」に着目特徴量の定義: 2つの特徴量を抽出 • 基本周波数(F0) • 大きさ(db単位)

8 ジェスチャ生成モデル Bi-directional gated recurrent unit(bi-GRU) ジェネレータ • 入力: 特性ラベル,
発話特徴量, ノイズ • 出力: 3D関節回転角の系列損失関数 𝐿 = 𝐿𝑎𝑑𝑣 + 𝛼𝐿𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑖𝑡𝑦 • 𝐿𝑎𝑑𝑣 (敵対的損失): WGAN-GPを使用し、生成動作が指定ラベルの分布に従うよう学習 • 𝐿𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑖𝑡𝑦 (連続性損失): Huber損失を使用し、フレーム間の急激な変化を抑制し、慣れらかな動作となるよう学習提案モデルの概要

9 実験設定データセット • 発話・ジェスチャのデータセット（1047発話) [Takeuchi et al., 2017]
• インタビュー形式 • Train:957, validation: 45, Test: 45 • 音声特徴量(F0、パワー)と上半身の関節12点 • 背骨2点、首、頭、肩、上腕、前腕、掌比較手法 • Gg: 正解データ(人間の動作) • Gb: ベースライン(ラベルなしの通常のGAN) 提案手法 • Gl: “Low”ラベルで生成 • Gm: “Mid”ラベルで生成 • Gh: “High”ラベルで生成 Takeuchi K, Kubota S, Suzuki K, Hasegawa D, Sakuta H (2017) Creating a gesture-speech dataset for speech-based automatic gesture generation. In: International conference on human- computer interaction. Springer, pp 198–202

10 疑似ラベルの効果異なる特性ラベルの入力により、提案モデルが速度と振幅が異なるジェスチャを生成

11 可視化 CommU 自由度が制限されているためリターゲティングして動作を適用仮想アバター生成された関節角度を関節構成に基づいて最も近いジョイントにマッピング

12 ユーザ評価実験参加者 • クラウドソーシングにて各条件で約50名募集条件条件1: アバターの動作動画(音声あり) 条件2: アバターの動作動画(音声なし)
条件3: CommUの動作動画(音声あり) 条件4: CommUの動作動画(音声なし) 質問項目 • 社交的(Sociable) • 熱狂的（Enthusiastic） • 控えめ (Reserved) *逆転項目 • 静か (Quiet) *逆転項目 →これらを平均して外向性スコアを算出評価尺度: 7段階リッカート尺度

13 ユーザ評価：アバターでの外向性評価 • (条件1,2) Gl,Gm, Ghで単調増加 • (条件1) 最も外向的なGhはGgよりも有意に外向的ではない(𝑝
= 0.18) →提案モデルは知覚される外向性を弱めることしかできない • (条件2) 音声なしの場合GhはGgよりも外向的とされ、音声の影響なしに知覚される外向性を制御したペアワイズ検定( ∗∗∗ 𝑝 < 0.001)

14 ユーザ評価：アバターでの外向性評価 • 「社交的・熱狂的」はGlからGhで増加、「控えめ・静か」は下降し、外向性スコアと傾向が一致 • 「熱狂的」への影響が大きい条件1(with-audio)の4項目結果 (∗ 𝑝
< 0.05,∗∗ 𝑝 < 0.01, ∗∗∗ 𝑝 < 0.001)

15 ユーザ評価： CommUでの外向性評価 • (条件3) Gm,とGhで有意差見られず(𝑝 = 0.053)、2クラスの外向性しか生成できないことを示す • (条件3)
最も外向的なGhはGgよりも有意に外向的ではない(𝑝 = 0.26) →提案モデルは知覚される外向性を弱めることしかできない • (条件4) 音声なしの場合GhはGgよりも外向的とされ、音声の影響なしに知覚される外向性を制御したペアワイズ検定( ∗∗∗ 𝑝 < 0.001)

16 ユーザ評価： CommUでの外向性評価 • 4項目すべてでGlとGhの間で有意差が確認 • CommUでは「社交的」への影響が他と比較して小さい • 外向性スコア評価と同様にGmとGhの間に有意差は認められず条件3(with-audio)の4項目結果
(∗ 𝑝 < 0.05,∗∗ 𝑝 < 0.01, ∗∗∗ 𝑝 < 0.001)

17 考察物理的制約の影響 CommUは仮想アバタに比べて自由度やモータの最大速度が低く設定されている →この上限が”High”ラベルによる外向性表現を抑制した可能性外向性における様々な観点動作特徴量（速度、振れ幅）と外向性に関する項目の関係が、異なるスケールを持つか、特定の項目にのみ影響を与える可能性がある

[論文紹介] Extrovert or Introvert? GAN-Based Humano...

[論文紹介] Extrovert or Introvert? GAN-Based Humanoid Upper-Body Gesture Generation for Different Impressions

shiba4839

More Decks by shiba4839

Other Decks in Research

Featured

Transcript