Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Extrovert or Introvert? GAN-Based Humano...
Search
shiba4839
March 29, 2026
Research
9
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[論文紹介] Extrovert or Introvert? GAN-Based Humanoid Upper-Body Gesture Generation for Different Impressions
修士2年11月の頃に行った研究紹介の資料です。私の研究で、個性に基づく対話動作生成について取り組んでいるので、その関連研究としてこの論文を読みました。
shiba4839
March 29, 2026
More Decks by shiba4839
See All by shiba4839
[論文紹介] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting
shiba4839
0
640
[輪講] Foundations of Cryptography 2.4章
shiba4839
0
73
[論文紹介] MoFusion: A Frame for Denoising-Diffusion-based Motion Synthesis
shiba4839
0
99
[論文紹介] Attention Is All You Need
shiba4839
0
120
Other Decks in Research
See All in Research
定数整数除算・剰余算最適化再考
herumi
1
120
「なんとなく」の顧客理解から脱却する ──顧客の解像度を武器にするインサイトマネジメント
tajima_kaho
10
7.6k
はじまりの クエスチョンブック —余暇と豊かさにあふれた社会とは?
culturaltransition
PRO
0
510
多様なデータを許容し学習し続ける模倣学習 / Advanced Imitation Learning for VLA
prinlab
0
210
Claude Code × autoresearch 実践
mathbullet
0
150
Anthropic が提案する LLM の内部状態を自然言語で説明可能にした Natural Language Autoencoders / Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations
shunk031
0
120
Ghost in the 7‑Zip: The Shadow of Residential Proxies Creeping into Your Life
nttcom
0
1k
National high-resolution cropland classification of Japan with agricultural census information and multi-temporal multi-modality datasets
satai
3
280
AIを叩き台として、 「検証」から「共創」へと進化するリサーチ
mela_dayo
0
280
[BlackHatAsia2026] Hidden Telemetry: Uncovering TraceLogging ETW Providers You're Not Using (Yet)
asuna_jp
1
510
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
480
Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering
anatolykr
0
190
Featured
See All Featured
We Are The Robots
honzajavorek
0
240
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
940
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5.9k
How to make the Groovebox
asonas
2
2.2k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
860
Documentation Writing (for coders)
carmenintech
77
5.4k
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
140
Thoughts on Productivity
jonyablonski
76
5.2k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
Google's AI Overviews - The New Search
badams
0
1k
How to Talk to Developers About Accessibility
jct
2
230
Transcript
[論文紹介] Extrovert or Introvert? GAN-Based Humanoid Upper-Body Gesture Generation for
Different Impressions Bowen Wu, Chaoran Liu, Carlos Toshinori Ishi, Jiaqi Shi, Hiroshi Ishiguro International Journal of Social Robotics (2023 published)
2 ロボットジェスチャへの印象 非言語行動の重要性 親近感・受容性: 動作が自然であるほど、ロボットへの 親近感や社会的受容性が高まる 認知科学の知見: 動作の速さや大きさなどが、ユーザ の外/内向性といった印象形成に深く関与する 印象を制御できれば、ロボットの役割や対話相手に合
わせた最適な動作の提供が期待できる
3 ジェスチャ生成技術の発展 Speech-driven ジェスチャ生成手法 LSTM, VAE, GANベースのモデルが提案されており、ルールベースと比較して動作の 自然さが向上し、未知の音声入力に対する汎用性も向上 既存手法の課題 •
印象制御の欠如: ユーザーがロボットに抱く印象(外向性など)を直接・意図的に制御する機能がない • ラベル付きデータ収集の困難さ: 抽条件付き学習を行うための多様な印象ラベルが必要であるが、あらゆる性格の組み 合わせ(Big Five等)を網羅するデータ収集はコストがかかる
4 研究目的 音声入力+ 外向的といった印象 ラベルを条件として与え、生成される ジェスチャの個性を制御する 印象制御の実現 動作特徴からラベルを自動生成する 「疑似ラベル付け」手法を提案する ラベル付き動作データの構築
最終的に、提案システムで生成したジェスチャをヒューマノイドロボット (CommU)に実装し、その有効性を検証する
5 提案手法 1. 特性ラベル割り当て 外向性に関連するジェスチャーの特徴に基づいて、各サンプルに特性ラベルを割り当て 2. generative adversarial networks (GANs)の学習
抽出された発話特徴と特性ラベルを入力として、ジェスチャーを生成する この際、擬似ラベル付きサンプルを使用してGANを訓練する 概要図
6 疑似ラベル作成 特徴量の定義: 外向性と相関する2つの動作特徴を定義 • 速度: 全関節の平均移動距離/動作時間 ここで、時間𝑡 におけるジョイント𝑘の座標(𝑥𝑡 𝑘,
𝑦𝑡 𝑘, 𝑧𝑡 𝑘), ジョイント総数𝐾,動作時間𝑇 • 振れ幅: 最大移動距離の両手平均 ここで、𝑙ℎと𝑟ℎはそれぞれ左手と右手の位置で, 𝑑𝑖𝑠𝑡(∙,∙)は3Dの2点間距離 クラスタリングによるラベル付け: 上記特徴量に基づきk-means(k=3)でlow/mid/highに分類 𝑆𝑝𝑒𝑒𝑑 = 𝑎𝑚𝑝 =
7 発話特徴抽出 「いつ話しているか」「抑揚」に着目 特徴量の定義: 2つの特徴量を抽出 • 基本周波数(F0) • 大きさ(db単位)
8 ジェスチャ生成モデル Bi-directional gated recurrent unit(bi-GRU) ジェネレータ • 入力: 特性ラベル,
発話特徴量, ノイズ • 出力: 3D関節回転角の系列 損失関数 𝐿 = 𝐿𝑎𝑑𝑣 + 𝛼𝐿𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑖𝑡𝑦 • 𝐿𝑎𝑑𝑣 (敵対的損失): WGAN-GPを使用し、生成 動作が指定ラベルの分布に従うよう学習 • 𝐿𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑖𝑡𝑦 (連続性損失): Huber損失を使用し、 フレーム間の急激な変化を抑制し、慣れらかな 動作となるよう学習 提案モデルの概要
9 実験設定 データセット • 発話・ジェスチャのデータセット (1047発話) [Takeuchi et al., 2017]
• インタビュー形式 • Train:957, validation: 45, Test: 45 • 音声特徴量(F0、パワー)と上半身の関節12点 • 背骨2点、首、頭、肩、上腕、前腕、掌 比較手法 • Gg: 正解データ(人間の動作) • Gb: ベースライン(ラベルなしの通常のGAN) 提案手法 • Gl: “Low”ラベルで生成 • Gm: “Mid”ラベルで生成 • Gh: “High”ラベルで生成 Takeuchi K, Kubota S, Suzuki K, Hasegawa D, Sakuta H (2017) Creating a gesture-speech dataset for speech-based automatic gesture generation. In: International conference on human- computer interaction. Springer, pp 198–202
10 疑似ラベルの効果 異なる特性ラベルの入力により、提案モデルが速度と振幅が異なるジェスチャを生成
11 可視化 CommU 自由度が制限されているためリターゲティ ングして動作を適用 仮想アバター 生成された関節角度を関節構成に基づいて 最も近いジョイントにマッピング
12 ユーザ評価実験 参加者 • クラウドソーシングにて各条件で約50名募集 条件 条件1: アバターの動作動画(音声あり) 条件2: アバターの動作動画(音声なし)
条件3: CommUの動作動画(音声あり) 条件4: CommUの動作動画(音声なし) 質問項目 • 社交的(Sociable) • 熱狂的(Enthusiastic) • 控えめ (Reserved) *逆転項目 • 静か (Quiet) *逆転項目 →これらを平均して外向性スコアを算出 評価尺度: 7段階リッカート尺度
13 ユーザ評価: アバターでの外向性評価 • (条件1,2) Gl,Gm, Ghで単調増加 • (条件1) 最も外向的なGhはGgよりも有意に外向的ではない(𝑝
= 0.18) →提案モデルは知覚される外向性を弱めることしかできない • (条件2) 音声なしの場合GhはGgよりも外向的とされ、音声の影響なしに知覚される外向性を制御した ペアワイズ検定( ∗∗∗ 𝑝 < 0.001)
14 ユーザ評価: アバターでの外向性評価 • 「社交的・熱狂的」はGlからGhで増加、「控えめ・静か」は下降し、外向性スコアと傾向が一致 • 「熱狂的」への影響が大きい 条件1(with-audio)の4項目結果 (∗ 𝑝
< 0.05,∗∗ 𝑝 < 0.01, ∗∗∗ 𝑝 < 0.001)
15 ユーザ評価: CommUでの外向性評価 • (条件3) Gm,とGhで有意差見られず(𝑝 = 0.053)、2クラスの外向性しか生成できないことを示す • (条件3)
最も外向的なGhはGgよりも有意に外向的ではない(𝑝 = 0.26) →提案モデルは知覚される外向性を弱めることしかできない • (条件4) 音声なしの場合GhはGgよりも外向的とされ、音声の影響なしに知覚される外向性を制御した ペアワイズ検定( ∗∗∗ 𝑝 < 0.001)
16 ユーザ評価: CommUでの外向性評価 • 4項目すべてでGlとGhの間で有意差が確認 • CommUでは「社交的」への影響が他と比較して小さい • 外向性スコア評価と同様にGmとGhの間に有意差は認められず 条件3(with-audio)の4項目結果
(∗ 𝑝 < 0.05,∗∗ 𝑝 < 0.01, ∗∗∗ 𝑝 < 0.001)
17 考察 物理的制約の影響 CommUは仮想アバタに比べて自由度やモータの最大速度が低く設定されている →この上限が”High”ラベルによる外向性表現を抑制した可能性 外向性における様々な観点 動作特徴量(速度、振れ幅)と外向性に関する項目の関係が、異なるスケールを持つか、 特定の項目にのみ影響を与える可能性がある