Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Data Augmentation Based on Cross-Modal Back Tra...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 04, 2021
Technology
0
1k
Data Augmentation Based on Cross-Modal Back Translation for Multimodal Language Understanding for Fetching Instruction
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 04, 2021
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations
keio_smilab
PRO
0
54
[Journal club] FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction
keio_smilab
PRO
0
80
[Journal club] Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
keio_smilab
PRO
0
130
[Journal club] GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering
keio_smilab
PRO
0
74
[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation
keio_smilab
PRO
0
170
[RSJ25] LILAC: Language‑Conditioned Object‑Centric Optical Flow for Open‑Loop Trajectory Generation
keio_smilab
PRO
0
130
[RSJ25] Multilingual Scene Text-Aware Multimodal Retrieval for Everyday Objects Based on Deep State Space Models
keio_smilab
PRO
0
100
[RSJ25] Everyday Object Manipulation Based on Scene Text-Aware Multimodal Retrieval
keio_smilab
PRO
1
94
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
170
Other Decks in Technology
See All in Technology
LINEギフト・LINEコマース領域の開発
lycorptech_jp
PRO
0
330
FFMとJVMの実装から学ぶJavaのインテグリティ
kazumura
0
150
JAWS-UG SRE支部 #14 LT
okaru
0
110
仕様は“書く”より“語る” - 分断を超えたチーム開発の実践 / 20251115 Naoki Takahashi
shift_evolve
PRO
1
1.1k
プロジェクトの空気を読んで開発してくれるPerlのAIツールがほしい
kfly8
2
110
巨大モノリスのリプレイス──機能整理とハイブリッドアーキテクチャで挑んだ再構築戦略
zozotech
PRO
0
180
改竄して学ぶコンテナサプライチェーンセキュリティ ~コンテナイメージの完全性を目指して~/tampering-container-supplychain-security
mochizuki875
1
360
【M3】攻めのセキュリティの実践!プロアクティブなセキュリティ対策の実践事例
axelmizu
0
170
マルチドライブアーキテクチャ: 複数の駆動力でプロダクトを前進させる
knih
0
4.8k
Axon Frameworkのイベントストアを独自拡張した話
zozotech
PRO
0
210
ステートレスなLLMでステートフルなAI agentを作る - YAPC::Fukuoka 2025
gfx
8
1.4k
PostgreSQL で列データ”ファイル”を利用する ~Arrow/Parquet を統合したデータベースの作成~
kaigai
0
130
Featured
See All Featured
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
980
Into the Great Unknown - MozCon
thekraken
40
2.2k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
Code Reviewing Like a Champion
maltzj
527
40k
Making the Leap to Tech Lead
cromwellryan
135
9.6k
Leading Effective Engineering Teams in the AI Era
addyosmani
8
1.1k
A Tale of Four Properties
chriscoyier
162
23k
Large-scale JavaScript Application Architecture
addyosmani
514
110k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.7k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.1k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
24
1.6k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
192
56k
Transcript
慶應義塾大学 飯田紡,九曜克之,石川慎太朗,杉浦孔明 物体指示理解タスクにおける クロスモーダル言語生成に基づくデータ拡張
背景︓⽣活⽀援ロボットに⾃然⾔語で命令できれば便利 2 ⽣活⽀援ロボット • 障がいを持つ⼈々を物理的に⽀援可能 • 在宅介護者不⾜を克服 スムーズな対話に基づいて ⽣活⽀援タスクを実⾏できれば便利 例)「机の上の飲み物を取ってきて」
対象物体の特定が困難なシーンが存在 3 対象物体の特定が困難な場合がある • 表現が曖昧 • 対象物体候補が複数存在 命令⽂中の参照表現を理解する必要がある “Grab the
red can near to white bottle and put it in the lower left box.” どっちの ⽸︖
問題設定︓物体操作指⽰理解 4 MLU-FI (Multimodal Language Understanding for Fetching Instruction) 命令⽂と画像をもとに,命令⽂中の移動対象物体を特定
⼊⼒︓対象物体候補の領域, 画像中の各物体の領域, 命令⽂ 出⼒︓候補領域中の物体が対象物体である確率の予測値 の物体は命令⽂中の移動対象物体︖ コンテキスト領域 候補領域 move the pink toy animal. 対象物体
関連研究︓物体指⽰理解における既存⼿法はサンプル効率が悪い 6 • [Hatori+ ICRA18] – 物体のピッキングタスクにおける指⽰理解⼿法 • MTCM, MTCM-AB
[Magassouba+ ICRA19, 20] – 命令⽂と全体画像から対象物体を特定 • Target-dependent UNITER[Ishikawa+ RAL & IROS21] – 全体画像の代わりに物体領域を⼊⼒し物体間の関係を学習 1⽂につき 正例: 1物体, 負例: 正例以外の物体全て ⼤量の負例サンプルを使⽤していなかった “Grab the red can near to white bottle and put it in the lower left box.”
提案⼿法︓クロスモーダル逆翻訳データ拡張 8 良い命令⽂のみをデータ拡張に使⽤ 良い命令⽂︓理解モジュールの出⼒! " # $ %!"#$ がしきい値!以上 "
#!"# = % & $%&' ()) | ( ) *()) % & $%&' ()) ≥ ! !: インデックス
⽣成モジュールにより⽣成した命令⽂の例 12 “grab the yellow color object near the white
bottle and put it in the upper right.” “move the green mug cup to the box with the teddy bear.”
提案⼿法における⽣成モジュール 13 Case Relation Transformer[Kambara+ RAL & IROS21] ⼊⼒︓対象領域 コンテキスト領域(対象以外の物体領域)
⽬標領域 出⼒︓対象物体を⽬標領域に移動させる命令⽂ CRB (Case Relation Block)と Transformerにより • 物体間の位置関係をモデル化 • 参照表現を含む⽂を⽣成可能
Target-dependent UNITER[Ishikawa+ RAL & IROS21] ⼊⼒︓候補領域 コンテキスト領域 命令⽂ 出⼒︓候補領域が命令⽂の対象物体である確率の予測値(() *)
提案⼿法における理解モジュール 14 物体間の関係をモデル化 命令⽂中の参照表現理解
実験設定︓データ数ごとのMLU-FIタスクにおける提案⼿法の性能評価 15 PFN-PIC データセット[Hatori+ 18] 画像と画像中の物体に関する命令⽂から構成 4つの箱に物体を無作為に配置 訓練データ数.+,を変化させて データ拡張の効果を確認 .+,
= 4000, 6000, 10000, 63330 (全⽂) が命令⽂中の対象物体かどうかの分類精度により性能評価 “Move the yellow container to the top left box.”
.!"#︓提案⼿法で⽣成した命令⽂数 .!"# = 0 : ベースライン⼿法 (Target-dependent UNITER) ⾊は拡張前の訓練データ数 ⾊ごとに.!"#
= 0のときと⽐較 定量的結果︓⼩規模データでは精度向上し⼤規模データでは同等の精度 16
定量的結果︓⼩規模データでは精度向上し⼤規模データでは同等の精度 17 .!"#︓提案⼿法で⽣成した命令⽂数 .!"# = 0 : ベースライン⼿法 (Target-dependent UNITER)
⾊は拡張前の訓練データ数 ⾊ごとに.!"# = 0のときと⽐較 訓練データ数 : 4000 データ拡張(正例): 2000
定量的結果︓⼩規模データでは精度向上し⼤規模データでは同等の精度 18 .!"#︓提案⼿法で⽣成した命令⽂数 .!"# = 0 : ベースライン⼿法 (Target-dependent UNITER)
⾊は拡張前の訓練データ数 ⾊ごとに.!"# = 0のときと⽐較 訓練データ数 : 4000 データ拡張(正例): 4000
.!"# = 0 : ベースライン⼿法 (Target-dependent UNITER) 訓練データ数.-.が少ない時 データ拡張により精度向上 訓練データ数.-.が多い時
ベースラインとほぼ同等 定量的結果︓⼩規模データでは精度向上し⼤規模データでは同等の精度 19 訓練データ数︓少
.!"# = 0 : ベースライン⼿法 (Target-dependent UNITER) 訓練データ数.-.が少ない時 データ拡張により精度向上 訓練データ数.-.が多い時
ベースラインとほぼ同等 定量的結果︓⼩規模データでは精度向上し⼤規模データでは同等の精度 20 訓練データ数︓多
定性的結果︓成功例 22 “move the black coffee mug to the upper
left box.” ! " # = 0.999 ! " # = 3.15 ×10%& “move the pink toy animal to the lower left hand side of the box.” ほぼ正確に対象領域であると判定 ほぼ正確に対象領域ではないと判定
⼊⼒の領域数./012を変化させて検証 ./012 = 20︓候補領域に近い順20個に制限 訓練データ数.+,が少ない時 ⼊⼒領域数の制限がモデルの性能向上に寄与 Ablation Studies︓⼩規模データでは⼊⼒領域数の制限により精度向上 23 Acc
[%] .'()* .+, 20 全て 4000 92.4 ± 0.7 91.7 ± 0.9 6000 93.4 ± 0.6 93.2 ± 0.5 10000 93.2 ± 0.5 93.7 ± 0.5 63330 96.6 ± 1.1 97.1 ± 0.3
背景︓⽣活⽀援ロボットに⾃然⾔語で命令できれば便利 提案︓クロスモーダル逆翻訳データ拡張によるデータ拡張⼿法 結果︓標準データセットにおいて、ベースライン⼿法を精度で上回る まとめ 25