Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介] Extrovert or Introvert? GAN-Based Humano...

[論文紹介] Extrovert or Introvert? GAN-Based Humanoid Upper-Body Gesture Generation for Different Impressions

修士2年11月の頃に行った研究紹介の資料です。私の研究で、個性に基づく対話動作生成について取り組んでいるので、その関連研究としてこの論文を読みました。

Avatar for shiba4839

shiba4839

March 29, 2026

More Decks by shiba4839

Other Decks in Research

Transcript

  1. [論文紹介] Extrovert or Introvert? GAN-Based Humanoid Upper-Body Gesture Generation for

    Different Impressions Bowen Wu, Chaoran Liu, Carlos Toshinori Ishi, Jiaqi Shi, Hiroshi Ishiguro International Journal of Social Robotics (2023 published)
  2. 3 ジェスチャ生成技術の発展 Speech-driven ジェスチャ生成手法 LSTM, VAE, GANベースのモデルが提案されており、ルールベースと比較して動作の 自然さが向上し、未知の音声入力に対する汎用性も向上 既存手法の課題 •

    印象制御の欠如: ユーザーがロボットに抱く印象(外向性など)を直接・意図的に制御する機能がない • ラベル付きデータ収集の困難さ: 抽条件付き学習を行うための多様な印象ラベルが必要であるが、あらゆる性格の組み 合わせ(Big Five等)を網羅するデータ収集はコストがかかる
  3. 5 提案手法 1. 特性ラベル割り当て 外向性に関連するジェスチャーの特徴に基づいて、各サンプルに特性ラベルを割り当て 2. generative adversarial networks (GANs)の学習

    抽出された発話特徴と特性ラベルを入力として、ジェスチャーを生成する この際、擬似ラベル付きサンプルを使用してGANを訓練する 概要図
  4. 6 疑似ラベル作成 特徴量の定義: 外向性と相関する2つの動作特徴を定義 • 速度: 全関節の平均移動距離/動作時間 ここで、時間𝑡 におけるジョイント𝑘の座標(𝑥𝑡 𝑘,

    𝑦𝑡 𝑘, 𝑧𝑡 𝑘), ジョイント総数𝐾,動作時間𝑇 • 振れ幅: 最大移動距離の両手平均 ここで、𝑙ℎと𝑟ℎはそれぞれ左手と右手の位置で, 𝑑𝑖𝑠𝑡(∙,∙)は3Dの2点間距離 クラスタリングによるラベル付け: 上記特徴量に基づきk-means(k=3)でlow/mid/highに分類 𝑆𝑝𝑒𝑒𝑑 = 𝑎𝑚𝑝 =
  5. 8 ジェスチャ生成モデル Bi-directional gated recurrent unit(bi-GRU) ジェネレータ • 入力: 特性ラベル,

    発話特徴量, ノイズ • 出力: 3D関節回転角の系列 損失関数 𝐿 = 𝐿𝑎𝑑𝑣 + 𝛼𝐿𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑖𝑡𝑦 • 𝐿𝑎𝑑𝑣 (敵対的損失): WGAN-GPを使用し、生成 動作が指定ラベルの分布に従うよう学習 • 𝐿𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑖𝑡𝑦 (連続性損失): Huber損失を使用し、 フレーム間の急激な変化を抑制し、慣れらかな 動作となるよう学習 提案モデルの概要
  6. 9 実験設定 データセット • 発話・ジェスチャのデータセット (1047発話) [Takeuchi et al., 2017]

    • インタビュー形式 • Train:957, validation: 45, Test: 45 • 音声特徴量(F0、パワー)と上半身の関節12点 • 背骨2点、首、頭、肩、上腕、前腕、掌 比較手法 • Gg: 正解データ(人間の動作) • Gb: ベースライン(ラベルなしの通常のGAN) 提案手法 • Gl: “Low”ラベルで生成 • Gm: “Mid”ラベルで生成 • Gh: “High”ラベルで生成 Takeuchi K, Kubota S, Suzuki K, Hasegawa D, Sakuta H (2017) Creating a gesture-speech dataset for speech-based automatic gesture generation. In: International conference on human- computer interaction. Springer, pp 198–202
  7. 12 ユーザ評価実験 参加者 • クラウドソーシングにて各条件で約50名募集 条件 条件1: アバターの動作動画(音声あり) 条件2: アバターの動作動画(音声なし)

    条件3: CommUの動作動画(音声あり) 条件4: CommUの動作動画(音声なし) 質問項目 • 社交的(Sociable) • 熱狂的(Enthusiastic) • 控えめ (Reserved) *逆転項目 • 静か (Quiet) *逆転項目 →これらを平均して外向性スコアを算出 評価尺度: 7段階リッカート尺度
  8. 13 ユーザ評価: アバターでの外向性評価 • (条件1,2) Gl,Gm, Ghで単調増加 • (条件1) 最も外向的なGhはGgよりも有意に外向的ではない(𝑝

    = 0.18) →提案モデルは知覚される外向性を弱めることしかできない • (条件2) 音声なしの場合GhはGgよりも外向的とされ、音声の影響なしに知覚される外向性を制御した ペアワイズ検定( ∗∗∗ 𝑝 < 0.001)
  9. 15 ユーザ評価: CommUでの外向性評価 • (条件3) Gm,とGhで有意差見られず(𝑝 = 0.053)、2クラスの外向性しか生成できないことを示す • (条件3)

    最も外向的なGhはGgよりも有意に外向的ではない(𝑝 = 0.26) →提案モデルは知覚される外向性を弱めることしかできない • (条件4) 音声なしの場合GhはGgよりも外向的とされ、音声の影響なしに知覚される外向性を制御した ペアワイズ検定( ∗∗∗ 𝑝 < 0.001)