Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Extrovert or Introvert? GAN-Based Humano...
Search
shiba4839
March 29, 2026
Research
0
0
Share
[論文紹介] Extrovert or Introvert? GAN-Based Humanoid Upper-Body Gesture Generation for Different Impressions
修士2年11月の頃に行った研究紹介の資料です。私の研究で、個性に基づく対話動作生成について取り組んでいるので、その関連研究としてこの論文を読みました。
shiba4839
March 29, 2026
More Decks by shiba4839
See All by shiba4839
[論文紹介] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting
shiba4839
0
570
[輪講] Foundations of Cryptography 2.4章
shiba4839
0
62
[論文紹介] MoFusion: A Frame for Denoising-Diffusion-based Motion Synthesis
shiba4839
0
87
[論文紹介] Attention Is All You Need
shiba4839
0
77
Other Decks in Research
See All in Research
病院向け生成AIプロダクト開発の実践と課題
hagino3000
0
590
Dwangoでの漫画データ活用〜漫画理解と動画作成〜@コミック工学シンポジウム2025
kzmssk
0
200
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
440
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
360
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
300
LOSの検討(λ Kansai 2026 in Winter)
motopu
0
110
視覚から身体性を持つAIへ: 巧緻な動作の3次元理解
tkhkaeio
1
230
台湾モデルに学ぶ詐欺広告対策:市民参加の必要性
dd2030
0
290
COFFEE-Japan PROJECT Impact Report(海ノ向こうコーヒー)
ontheslope
0
1.2k
一般道の交通量減少と速度低下についての全国分析と熊本市におけるケーススタディ(20251122 土木計画学研究発表会)
trafficbrain
0
190
2026-01-30-MandSL-textbook-jp-cos-lod
yegusa
1
860
Sequences of Logits Reveal the Low Rank Structure of Language Models
sansantech
PRO
0
120
Featured
See All Featured
Test your architecture with Archunit
thirion
1
2.2k
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.1k
Bash Introduction
62gerente
615
210k
We Have a Design System, Now What?
morganepeng
55
8.1k
KATA
mclloyd
PRO
35
15k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
WENDY [Excerpt]
tessaabrams
9
37k
Docker and Python
trallard
47
3.8k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
800
The World Runs on Bad Software
bkeepers
PRO
72
12k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
110
Transcript
[論文紹介] Extrovert or Introvert? GAN-Based Humanoid Upper-Body Gesture Generation for
Different Impressions Bowen Wu, Chaoran Liu, Carlos Toshinori Ishi, Jiaqi Shi, Hiroshi Ishiguro International Journal of Social Robotics (2023 published)
2 ロボットジェスチャへの印象 非言語行動の重要性 親近感・受容性: 動作が自然であるほど、ロボットへの 親近感や社会的受容性が高まる 認知科学の知見: 動作の速さや大きさなどが、ユーザ の外/内向性といった印象形成に深く関与する 印象を制御できれば、ロボットの役割や対話相手に合
わせた最適な動作の提供が期待できる
3 ジェスチャ生成技術の発展 Speech-driven ジェスチャ生成手法 LSTM, VAE, GANベースのモデルが提案されており、ルールベースと比較して動作の 自然さが向上し、未知の音声入力に対する汎用性も向上 既存手法の課題 •
印象制御の欠如: ユーザーがロボットに抱く印象(外向性など)を直接・意図的に制御する機能がない • ラベル付きデータ収集の困難さ: 抽条件付き学習を行うための多様な印象ラベルが必要であるが、あらゆる性格の組み 合わせ(Big Five等)を網羅するデータ収集はコストがかかる
4 研究目的 音声入力+ 外向的といった印象 ラベルを条件として与え、生成される ジェスチャの個性を制御する 印象制御の実現 動作特徴からラベルを自動生成する 「疑似ラベル付け」手法を提案する ラベル付き動作データの構築
最終的に、提案システムで生成したジェスチャをヒューマノイドロボット (CommU)に実装し、その有効性を検証する
5 提案手法 1. 特性ラベル割り当て 外向性に関連するジェスチャーの特徴に基づいて、各サンプルに特性ラベルを割り当て 2. generative adversarial networks (GANs)の学習
抽出された発話特徴と特性ラベルを入力として、ジェスチャーを生成する この際、擬似ラベル付きサンプルを使用してGANを訓練する 概要図
6 疑似ラベル作成 特徴量の定義: 外向性と相関する2つの動作特徴を定義 • 速度: 全関節の平均移動距離/動作時間 ここで、時間𝑡 におけるジョイント𝑘の座標(𝑥𝑡 𝑘,
𝑦𝑡 𝑘, 𝑧𝑡 𝑘), ジョイント総数𝐾,動作時間𝑇 • 振れ幅: 最大移動距離の両手平均 ここで、𝑙ℎと𝑟ℎはそれぞれ左手と右手の位置で, 𝑑𝑖𝑠𝑡(∙,∙)は3Dの2点間距離 クラスタリングによるラベル付け: 上記特徴量に基づきk-means(k=3)でlow/mid/highに分類 𝑆𝑝𝑒𝑒𝑑 = 𝑎𝑚𝑝 =
7 発話特徴抽出 「いつ話しているか」「抑揚」に着目 特徴量の定義: 2つの特徴量を抽出 • 基本周波数(F0) • 大きさ(db単位)
8 ジェスチャ生成モデル Bi-directional gated recurrent unit(bi-GRU) ジェネレータ • 入力: 特性ラベル,
発話特徴量, ノイズ • 出力: 3D関節回転角の系列 損失関数 𝐿 = 𝐿𝑎𝑑𝑣 + 𝛼𝐿𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑖𝑡𝑦 • 𝐿𝑎𝑑𝑣 (敵対的損失): WGAN-GPを使用し、生成 動作が指定ラベルの分布に従うよう学習 • 𝐿𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑖𝑡𝑦 (連続性損失): Huber損失を使用し、 フレーム間の急激な変化を抑制し、慣れらかな 動作となるよう学習 提案モデルの概要
9 実験設定 データセット • 発話・ジェスチャのデータセット (1047発話) [Takeuchi et al., 2017]
• インタビュー形式 • Train:957, validation: 45, Test: 45 • 音声特徴量(F0、パワー)と上半身の関節12点 • 背骨2点、首、頭、肩、上腕、前腕、掌 比較手法 • Gg: 正解データ(人間の動作) • Gb: ベースライン(ラベルなしの通常のGAN) 提案手法 • Gl: “Low”ラベルで生成 • Gm: “Mid”ラベルで生成 • Gh: “High”ラベルで生成 Takeuchi K, Kubota S, Suzuki K, Hasegawa D, Sakuta H (2017) Creating a gesture-speech dataset for speech-based automatic gesture generation. In: International conference on human- computer interaction. Springer, pp 198–202
10 疑似ラベルの効果 異なる特性ラベルの入力により、提案モデルが速度と振幅が異なるジェスチャを生成
11 可視化 CommU 自由度が制限されているためリターゲティ ングして動作を適用 仮想アバター 生成された関節角度を関節構成に基づいて 最も近いジョイントにマッピング
12 ユーザ評価実験 参加者 • クラウドソーシングにて各条件で約50名募集 条件 条件1: アバターの動作動画(音声あり) 条件2: アバターの動作動画(音声なし)
条件3: CommUの動作動画(音声あり) 条件4: CommUの動作動画(音声なし) 質問項目 • 社交的(Sociable) • 熱狂的(Enthusiastic) • 控えめ (Reserved) *逆転項目 • 静か (Quiet) *逆転項目 →これらを平均して外向性スコアを算出 評価尺度: 7段階リッカート尺度
13 ユーザ評価: アバターでの外向性評価 • (条件1,2) Gl,Gm, Ghで単調増加 • (条件1) 最も外向的なGhはGgよりも有意に外向的ではない(𝑝
= 0.18) →提案モデルは知覚される外向性を弱めることしかできない • (条件2) 音声なしの場合GhはGgよりも外向的とされ、音声の影響なしに知覚される外向性を制御した ペアワイズ検定( ∗∗∗ 𝑝 < 0.001)
14 ユーザ評価: アバターでの外向性評価 • 「社交的・熱狂的」はGlからGhで増加、「控えめ・静か」は下降し、外向性スコアと傾向が一致 • 「熱狂的」への影響が大きい 条件1(with-audio)の4項目結果 (∗ 𝑝
< 0.05,∗∗ 𝑝 < 0.01, ∗∗∗ 𝑝 < 0.001)
15 ユーザ評価: CommUでの外向性評価 • (条件3) Gm,とGhで有意差見られず(𝑝 = 0.053)、2クラスの外向性しか生成できないことを示す • (条件3)
最も外向的なGhはGgよりも有意に外向的ではない(𝑝 = 0.26) →提案モデルは知覚される外向性を弱めることしかできない • (条件4) 音声なしの場合GhはGgよりも外向的とされ、音声の影響なしに知覚される外向性を制御した ペアワイズ検定( ∗∗∗ 𝑝 < 0.001)
16 ユーザ評価: CommUでの外向性評価 • 4項目すべてでGlとGhの間で有意差が確認 • CommUでは「社交的」への影響が他と比較して小さい • 外向性スコア評価と同様にGmとGhの間に有意差は認められず 条件3(with-audio)の4項目結果
(∗ 𝑝 < 0.05,∗∗ 𝑝 < 0.01, ∗∗∗ 𝑝 < 0.001)
17 考察 物理的制約の影響 CommUは仮想アバタに比べて自由度やモータの最大速度が低く設定されている →この上限が”High”ラベルによる外向性表現を抑制した可能性 外向性における様々な観点 動作特徴量(速度、振れ幅)と外向性に関する項目の関係が、異なるスケールを持つか、 特定の項目にのみ影響を与える可能性がある