Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
jsai2023 erikuroda
Search
Eri KURODA
June 03, 2023
Research
1
240
jsai2023 erikuroda
Presentation materials for JSAI2023.
Eri KURODA
June 03, 2023
Tweet
Share
More Decks by Eri KURODA
See All by Eri KURODA
ICMLC2025_erikuroda
erikuroda
0
9
erikuroda 4th ph.d defense
erikuroda
0
11
SCIS-ISIS2024_erikuroda
erikuroda
0
35
JSAI2024 erikuroda
erikuroda
0
80
2023DFKI, UdS talk
erikuroda
0
22
DS2023_erikuroda
erikuroda
0
74
PRML2023 S9-5 EriKuroda
erikuroda
0
190
230530 AIRC Eri Kuroda
erikuroda
0
110
Other Decks in Research
See All in Research
NLP2025参加報告会 LT資料
hargon24
1
270
eAI (Engineerable AI) プロジェクトの全体像 / Overview of eAI Project
ishikawafyu
0
440
A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images
satai
3
280
IM2024
mamoruk
0
250
コーパスを丸呑みしたモデルから言語の何がわかるか
eumesy
PRO
11
3.5k
ウッドスタックチャン:木材を用いた小型エージェントロボットの開発と印象評価 / ec75-sato
yumulab
1
150
NeurIPS 2024 参加報告 & 論文紹介 (SACPO, Ctrl-G)
reisato12345
0
410
Satellite Sunroof: High-res Digital Surface Models and Roof Segmentation for Global Solar Mapping
satai
3
270
DPUを用いたマルチタスクDNN表情認識システムのFPGA実装
takuto_andtt
0
140
DeepSeek を利用する上でのリスクと安全性の考え方
schroneko
3
1.3k
20241226_くまもと公共交通新時代シンポジウム
trafficbrain
0
500
Introduction of NII S. Koyama's Lab (AY2025)
skoyamalab
0
250
Featured
See All Featured
Building Adaptive Systems
keathley
41
2.5k
Stop Working from a Prison Cell
hatefulcrawdad
268
20k
Music & Morning Musume
bryan
47
6.5k
Embracing the Ebb and Flow
colly
85
4.6k
What's in a price? How to price your products and services
michaelherold
245
12k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
21k
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.5k
Adopting Sorbet at Scale
ufuk
76
9.3k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Optimizing for Happiness
mojombo
377
70k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.3k
Transcript
予測符号化を模した 物理環境の予測推論モデル ◦ ⿊⽥ 彗莉1, 2・⼩林⼀郎 1 1︓お茶の⽔⼥⼦⼤学 2︓⽇本学術振興会 37
Pages 1G4-OS-21a-05 JSAI2023
2
3
4
1 5
2 6
7 1 2 ⾞が来る前に急いで渡る ⾞が通り過ぎてから渡る
8 どこから判断しているか 距離を⾒積もる 速度(速さ) • ⾃分がどれくらいの速さで歩く/ ⾛れるか • ⾞が曲がるのか/曲がらないのか •
急激に加速してこないかどうか ⾃分が事故にあうか/あわないか これまでの経験や常識から判断
9 背景・⽬的 • 認識と予測 Ø 物体が次に起こることを予測し、⾏動を決定 Ø やり取りや観察から仕組みや背景を学ぶ → 出来事の重要な点が⼤事
→ 常識の基本 • ⾔語による理解 Ø 実世界と⾔語を結ぶことでより詳細に理解 Ø 実世界と結びついた⾔語を⽤い、 記号操作をすることでヒトの知能を表現 ヒトの実世界認識 しかし • 実世界認識予測を対象にした機械学習 Ø ⼊⼒(観測)を画像 → ヒトの視覚に相当 Ø 画像特徴量の予測を実世界の予測とみなしている • ヒトのように物体の物理特性や、物理法則をもとに した予測をしていない • 実世界における物体を「認識し、物理特性を理解し、 予測する」ことが⾔語と結びついていない • 実環境の物体の物理法則をもとに、物理的な変化点取得と予測ができる予測推論モデルを提案 • 実世界と⾔語を結びつけるために、推論内容を⾔語として表現 ⽬的
10 概要 CLEVRER 次ステップの変化 点のタイミングを 正しく⽰せるか 提案モデル グラフ構造 物理特性の集合を表現 PredNet
VTA, graph VTA 画像 視覚から実世界を⾒たとき 推論内容を⾔語 として⽣成 実験1 実験2 物体検出 速度・加速度 画像特徴量など
11 PredNet [Lotter+, 2016] • 深層学習を⽤いた、動画像から次の画像を予測する研究 • ⼤脳⽪質における予測符号化の 処理を模倣 •
脳内の情報処理機構を表現 実画像 予測画像 時刻t → 予測符号化 • 予測値と観測値の誤差を算出 • 誤差をボトムアップに伝達 • 誤差を最⼩化する予測値を出⼒ • 予測値をトップダウンに伝達 以上を繰り返す仕組み
12 Variational Temporal Abstraction [Kim+, 19] ⻘い道を歩いたとき ⾚い道を歩いたとき 全イベント ⼤事な箇所
(変化点) 全イベント ⼤事な箇所 (変化点)
13 Variational Temporal Abstraction [Kim+, 19] 𝑍 を遷移させるタイミングを決めるのが難しい 問題点 ヒト︓易
↔ モデル︓難 観測(⼊⼒) 観測抽象度 時間的抽象度
14 Variational Temporal Abstraction [Kim+, 19] それまでの観測と⽐較して, 潜在状態の変化の⼤きさで𝑚のフラグ (0 or
1)を決定 フラグの導⼊
15 提案モデル 𝐸!"_ℓ%& 𝐸!"_ℓ ⊝ ⊝ 𝑅!"_ℓ%& 𝑥" Input #
𝐴!"_ℓ%& 𝐴!"_ℓ%& # 𝐴!"_ℓ 𝐴!"_ℓ 𝐸'"_ℓ%& 𝐸'"_ℓ ⊝ ⊝ 𝑅'"_ℓ%& 𝑅'"_ℓ # 𝐴'"_ℓ%& 𝐴'"_ℓ%& # 𝐴'"_ℓ 𝐴!"_ℓ img Output 𝑑𝑖𝑓𝑓 !" 𝑅!"_ℓ 𝑑𝑖𝑓𝑓'" 𝑚( Output 𝑑𝑖𝑓𝑓 > 𝛼 physical training data Input Error Representation Prediction 時刻t 𝛼︓閾値 Difference 物理特性をふまえた グラフ構造の予測 画像の予測 𝑑𝑖𝑓𝑓 = 𝑑𝑖𝑓𝑓!" + 𝑑𝑖𝑓𝑓%"
データセット︓CLEVRER [Yi+,2020] • CLEVRER [Yi+, 2020] ØCoLlision Events for Video
REpresentation and Reasoning 16 動画数 20,000 個 (train:val:test=2:1:1) ビデオの⻑さ 5 秒 フレーム数 128フレーム 形状 ⽴⽅体・球・円柱 素材 メタル・ラバー ⾊ 灰,⾚,⻘,緑,茶,⽔⾊,紫,⻩⾊ イベント 出現,消失,衝突 アノテーション object id, 位置, 速度, 加速度
結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 17 物体認識 物体の
位置情報 速度 加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル
結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 18 物体認識 物体の
位置情報 速度 加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル
物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーション の1種 Ø物体の{形状,⾊,素材} データセット 19 検知前
検知後
物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーション の1種 Ø物体の{形状,⾊,素材} 位置情報 算出 •
取得したバウンディングボックスの 座標から物体の中⼼座標を算出 データセット 20 (𝑥& , 𝑦&) (𝑥' , 𝑦') 𝑐 = 𝑥, 𝑦 = ( 𝑥& + 𝑥' 2 , 𝑦& + 𝑦' 2 ) c 検知前 検知後
結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 21 物体認識 速度
加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル 物体の 位置情報
速度・加速度 データセット physical training dataset 22 velocity acceleration 𝑎!" =
(𝑣!" − 𝑣!# )/(𝑒𝑡"#$%&×𝑡) 𝑎'" = (𝑣'" − 𝑣'# )/(𝑒𝑡"#$%&×𝑡) ※ 𝑒𝑡()*+, = 5/128 フレーム間の経過時間 𝑣!" = (𝑥( − 𝑥()*)/𝑒𝑡"#$%& 𝑣'" = (𝑦( − 𝑦()* )/𝑒𝑡"#$%&
速度・加速度 物体間の位置関係のフラグ データセット physical training dataset 23 velocity acceleration 𝑎!"
= (𝑣!" − 𝑣!# )/(𝑒𝑡"#$%&×𝑡) 𝑎'" = (𝑣'" − 𝑣'# )/(𝑒𝑡"#$%&×𝑡) ※ 𝑒𝑡()*+, = 5/128 フレーム間の経過時間 𝑣!" = (𝑥( − 𝑥()*)/𝑒𝑡"#$%& 𝑣'" = (𝑦( − 𝑦()* )/𝑒𝑡"#$%& x flag “5” flag “-5” flag “-1” main object others main object = (𝑥&'%( , 𝑦&'%( ) others = (𝑥)"*+, , 𝑦)"*+, ) 𝑥-%.. = 𝑥)"*+, − 𝑥&'%( 𝑦-%.. = 𝑦)"*+, − 𝑦&'%( 𝑥-%.. 𝑦-%.. + + − − flag “5” flag “1” flag “-1” flag “-5” y flag “1”
グラフ構造 • ノード情報 Ø物体の形状,⾊,素材 埋め込みベクトル • node2vec [Grover+, 2016] データセット
physical training dataset 24 [[0.54, 0.29, 0.61…], [[0.82, 0.91, 0.15…], … [[0.14, 0.35, 0.69…]] 埋め込みベクトル例
物体の 位置情報 データセット physical training dataset • 環境の物理特性から作成したデータセット 25 物体認識
グラフ構造 結合 埋め込み ベクトル 速度 加速度 物体同⼠の 位置⽅向のフラグ physical training data
実験1︓予測変化点の抽出 実験2︓⾔語⽣成 実験概要 26
実験1︓予測変化点の抽出 ⽬的 • イベントの予測変化点を正しく 抽出できるか 設定 • データセット Ø CLEVRER
Ø physical training data • 対象範囲︓6パターン×10フレーム • 衝突・消失・出現など物体の 物理的な変化が起きている状況 実験概要 27
実験1︓精度算出⽅法 • アノテーションの衝突情報とフラグの⽴つタイミングの精度(%)を調査 例 • collision→19 frame,⽬で⾒ると → 21 frame
• 正解 19〜21 frame と設定 • フラグ︓18,19,20,22 → 精度︓2/4×100=50 (%) 28 19 フレーム⽬ 20 フレーム⽬ 21 フレーム⽬
29 実験1︓結果 i ii iii iv v vi Physical data
33.3 50 50 33.3 66.7 50 アノテー ション 66.7 50 66.7 40 50 50 精度 実画像 予測画像 t=1 t=12 m=1 m=0 m=0 m=1 m=1 m=0 m=1 m=1 衝突 精度︓2/6*100=33.3% 範囲iの結果 m=0 m=1
30 実験1︓結果 i ii iii iv v vi Physical data
33.3 50 50 33.3 66.7 50 アノテー ション 66.7 50 66.7 40 50 50 精度 実画像 予測画像 t=1 t=12 m=1 m=0 m=0 m=1 m=1 m=0 m=1 m=1 衝突 精度︓2/6*100=33.3% 範囲iの結果 m=0 m=1 physical training dataでの精度 アノテーションデータの精度と同等の精度で予測
実験1︓予測変化点の抽出 ⽬的 • 予測画像の変化点を正しく抽出 できるか 設定 • データセット ØCLEVRER Øphysical
training data • 対象範囲︓6パターン×10フレーム • 衝突・消失・出現など物体の 物理的な変化が起きている状況 実験2︓⾔語⽣成 ⽬的 • 実世界と⾔語を結びつけるために、 推論内容を⾔語として表現 設定 • データセット Øグラフの埋め込みベクトルと⾔語 データのペアデータ • 衝突の状況に限定 実験概要 31
実験2︓テンプレートの作成 • 9種類のテンプレート Ø3(衝突前・衝突・衝突後)×3(⽂章の種類)=9 種類 • 物体の種類 Ø衝突した 2 つの物体それぞれ
「{ 灰, ⾚, ⻘, 緑, 茶, ⽔, 紫, ⻩ } ⾊の { 球, 円柱, ⽴⽅体 }」 32 「⻘⾊の球と灰⾊の球がぶつかる」 「⻘⾊の球が灰⾊の球にはじかれる」 「灰⾊の球が⻘⾊の球にはじかれる」 衝突 衝突前 「⻘⾊の球と灰⾊の球が近づく」 「⻘⾊の球が灰⾊の球に近づく」 「灰⾊の球が⻘⾊の球に近づく」 衝突後 「⻘⾊の球と灰⾊の球が離れる」 「⻘⾊の球から灰⾊の球が離れる」 「灰⾊の球から⻘⾊の球が離れる」 ⽂章テンプレート例︓衝突する物体(⻘⾊の球・灰⾊の球) 5フレーム 5フレーム 衝突前(5フレーム前) 「AとBが近づく」 「AがBに近づく」 「BがAに近づく」 衝突 「AとBがぶつかる」 「AがBにはじかれる」 「BがAにはじかれる」 衝突後(5フレーム後) 「AとBが離れる」 「AからBが離れる」 「BからAが離れる」
33 実験2︓⾔語⽣成モデル test 学習済み Decoderモデル 予測内容を ⽰した⽣成⽂ pred graph embedding
input # 𝐴!"_ℓ Decoder Softmax <bos> w1 w2 wt <eos> … w1 w2 wt … Decoder学習モデル text ペアデータ train Linear graph embedding 219,303 ペア 10,965 個
34 実験2︓⽣成結果 i ii iv vi 実画像 予測画像 「緑⾊の球と⾚⾊の円柱がぶつかる」 「緑⾊の球が⾚⾊の円柱にはじかれる」
「⾚⾊の円柱が緑⾊の球にはじかれる」 正解⽂ 緑⾊の円柱が⾚⾊の円柱に はじかれる ⽣成⽂ 実画像 予測画像 「灰⾊の球と⻘⾊の円柱がぶつかる」 「灰⾊の球が⻘⾊の円柱にはじかれる」 「⻘⾊の円柱が灰⾊の球にはじかれる」 灰⾊の球が⻘⾊の⽴⽅体に はじかれる 実画像 予測画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 ⽔⾊の⽴⽅体が⻘⾊の球に ぶつかる 実画像 予測画像 「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状✕ 物体の⾊◦,形状◦ 物体の⾊◦,形状✕ 物体の⾊✕,形状✕ 正解⽂ ⽣成⽂ 正解⽂ ⽣成⽂ 正解⽂ ⽣成⽂
35 実験2︓範囲viの結果の考察 vi れる」 れる」 柱に る」 れる」 れる」 体に
実画像 予測画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 ⽔⾊の⽴⽅体が⻘⾊の球に ぶつかる 予測画像 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状◦ 物体の⾊✕,形状✕ 正解⽂ ⽣成⽂ ⽣成⽂ 物体の⾊・形状ともに誤った理由 20フレーム前 15フレーム前 10フレーム前 5フレーム前 衝突の25フレーム前 衝突 「⽔⾊の⽴⽅体」と「⻘⾊の球」 がぶつかっていると判定されて しまった可能性
Ex2︓ BLEU 36 BLEU@2 BLEU@3 BLEU@4 score 79.7 74.5 68.8
3⽂に対する平均点を取ったため、 やや低いスコアになった可能性 i ii iv vi 実画像 予測画像 「緑⾊の球と⾚⾊の円柱がぶつかる」 「緑⾊の球が⾚⾊の円柱にはじかれる」 「⾚⾊の円柱が緑⾊の球にはじかれる」 正解⽂ 緑⾊の円柱が⾚⾊の円柱に はじかれる ⽣成⽂ 実画像 「灰⾊の球と⻘⾊の円柱がぶつかる」 「灰⾊の球が⻘⾊の円柱にはじかれる」 「⻘⾊の円柱が灰⾊の球にはじかれる」 実画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 実画像 予測画像 「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状✕ 物体の⾊◦,形状◦ 正解⽂ 正解⽂ 正解⽂ ⽣成⽂
まとめ • ヒト脳の階層構造を模した予測推論モデル ØPredNetの階層構造に変化点mの構造を追加 Ø実験結果から、予測内容についても変化点の タイミングを取得可能 • 実世界と⾔語を結びつけるために、 推論内容を⾔語として表現 Ø実世界と結びついた⾔語を⽤いて記号操作を
することで、ヒトの知能を表現 Ø実験結果から、推論内容を⾔語⽣成可能 今後の課題 • 実世界に近いデータの使⽤ Øヒトの実環境(実⽣活)に近い データセット • ⾔語による認識・推論・予測 まとめ・課題 37