Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
jsai2023 erikuroda
Search
Eri KURODA
June 03, 2023
Research
1
200
jsai2023 erikuroda
Presentation materials for JSAI2023.
Eri KURODA
June 03, 2023
Tweet
Share
More Decks by Eri KURODA
See All by Eri KURODA
SCIS-ISIS2024_erikuroda
erikuroda
0
6
JSAI2024 erikuroda
erikuroda
0
52
2023DFKI, UdS talk
erikuroda
0
12
DS2023_erikuroda
erikuroda
0
35
PRML2023 S9-5 EriKuroda
erikuroda
0
150
230530 AIRC Eri Kuroda
erikuroda
0
84
Other Decks in Research
See All in Research
研究の進め方 ランダムネスとの付き合い方について
joisino
PRO
55
19k
Large Vision Language Model (LVLM) に関する最新知見まとめ (Part 1)
onely7
18
3.1k
論文紹介/Expectations over Unspoken Alternatives Predict Pragmatic Inferences
chemical_tree
1
260
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
150
医療支援AI開発における臨床と情報学の連携を円滑に進めるために
moda0
0
110
ダイナミックプライシング とその実例
skmr2348
3
400
授業評価アンケートのテキストマイニング
langstat
1
360
工学としてのSRE再訪 / Revisiting SRE as Engineering
yuukit
19
11k
MIRU2024_招待講演_RALF_in_CVPR2024
udonda
1
330
20240820: Minimum Bayes Risk Decoding for High-Quality Text Generation Beyond High-Probability Text
de9uch1
0
120
2024/10/30 産総研AIセミナー発表資料
keisuke198619
1
330
言語処理学会30周年記念事業留学支援交流会@YANS2024:「学生のための短期留学」
a1da4
1
240
Featured
See All Featured
Designing Experiences People Love
moore
138
23k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
250
21k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
700
The Art of Programming - Codeland 2020
erikaheidi
52
13k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
6.8k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Designing for humans not robots
tammielis
250
25k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.9k
A better future with KSS
kneath
238
17k
Designing for Performance
lara
604
68k
A designer walks into a library…
pauljervisheath
203
24k
Bash Introduction
62gerente
608
210k
Transcript
予測符号化を模した 物理環境の予測推論モデル ◦ ⿊⽥ 彗莉1, 2・⼩林⼀郎 1 1︓お茶の⽔⼥⼦⼤学 2︓⽇本学術振興会 37
Pages 1G4-OS-21a-05 JSAI2023
2
3
4
1 5
2 6
7 1 2 ⾞が来る前に急いで渡る ⾞が通り過ぎてから渡る
8 どこから判断しているか 距離を⾒積もる 速度(速さ) • ⾃分がどれくらいの速さで歩く/ ⾛れるか • ⾞が曲がるのか/曲がらないのか •
急激に加速してこないかどうか ⾃分が事故にあうか/あわないか これまでの経験や常識から判断
9 背景・⽬的 • 認識と予測 Ø 物体が次に起こることを予測し、⾏動を決定 Ø やり取りや観察から仕組みや背景を学ぶ → 出来事の重要な点が⼤事
→ 常識の基本 • ⾔語による理解 Ø 実世界と⾔語を結ぶことでより詳細に理解 Ø 実世界と結びついた⾔語を⽤い、 記号操作をすることでヒトの知能を表現 ヒトの実世界認識 しかし • 実世界認識予測を対象にした機械学習 Ø ⼊⼒(観測)を画像 → ヒトの視覚に相当 Ø 画像特徴量の予測を実世界の予測とみなしている • ヒトのように物体の物理特性や、物理法則をもとに した予測をしていない • 実世界における物体を「認識し、物理特性を理解し、 予測する」ことが⾔語と結びついていない • 実環境の物体の物理法則をもとに、物理的な変化点取得と予測ができる予測推論モデルを提案 • 実世界と⾔語を結びつけるために、推論内容を⾔語として表現 ⽬的
10 概要 CLEVRER 次ステップの変化 点のタイミングを 正しく⽰せるか 提案モデル グラフ構造 物理特性の集合を表現 PredNet
VTA, graph VTA 画像 視覚から実世界を⾒たとき 推論内容を⾔語 として⽣成 実験1 実験2 物体検出 速度・加速度 画像特徴量など
11 PredNet [Lotter+, 2016] • 深層学習を⽤いた、動画像から次の画像を予測する研究 • ⼤脳⽪質における予測符号化の 処理を模倣 •
脳内の情報処理機構を表現 実画像 予測画像 時刻t → 予測符号化 • 予測値と観測値の誤差を算出 • 誤差をボトムアップに伝達 • 誤差を最⼩化する予測値を出⼒ • 予測値をトップダウンに伝達 以上を繰り返す仕組み
12 Variational Temporal Abstraction [Kim+, 19] ⻘い道を歩いたとき ⾚い道を歩いたとき 全イベント ⼤事な箇所
(変化点) 全イベント ⼤事な箇所 (変化点)
13 Variational Temporal Abstraction [Kim+, 19] 𝑍 を遷移させるタイミングを決めるのが難しい 問題点 ヒト︓易
↔ モデル︓難 観測(⼊⼒) 観測抽象度 時間的抽象度
14 Variational Temporal Abstraction [Kim+, 19] それまでの観測と⽐較して, 潜在状態の変化の⼤きさで𝑚のフラグ (0 or
1)を決定 フラグの導⼊
15 提案モデル 𝐸!"_ℓ%& 𝐸!"_ℓ ⊝ ⊝ 𝑅!"_ℓ%& 𝑥" Input #
𝐴!"_ℓ%& 𝐴!"_ℓ%& # 𝐴!"_ℓ 𝐴!"_ℓ 𝐸'"_ℓ%& 𝐸'"_ℓ ⊝ ⊝ 𝑅'"_ℓ%& 𝑅'"_ℓ # 𝐴'"_ℓ%& 𝐴'"_ℓ%& # 𝐴'"_ℓ 𝐴!"_ℓ img Output 𝑑𝑖𝑓𝑓 !" 𝑅!"_ℓ 𝑑𝑖𝑓𝑓'" 𝑚( Output 𝑑𝑖𝑓𝑓 > 𝛼 physical training data Input Error Representation Prediction 時刻t 𝛼︓閾値 Difference 物理特性をふまえた グラフ構造の予測 画像の予測 𝑑𝑖𝑓𝑓 = 𝑑𝑖𝑓𝑓!" + 𝑑𝑖𝑓𝑓%"
データセット︓CLEVRER [Yi+,2020] • CLEVRER [Yi+, 2020] ØCoLlision Events for Video
REpresentation and Reasoning 16 動画数 20,000 個 (train:val:test=2:1:1) ビデオの⻑さ 5 秒 フレーム数 128フレーム 形状 ⽴⽅体・球・円柱 素材 メタル・ラバー ⾊ 灰,⾚,⻘,緑,茶,⽔⾊,紫,⻩⾊ イベント 出現,消失,衝突 アノテーション object id, 位置, 速度, 加速度
結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 17 物体認識 物体の
位置情報 速度 加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル
結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 18 物体認識 物体の
位置情報 速度 加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル
物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーション の1種 Ø物体の{形状,⾊,素材} データセット 19 検知前
検知後
物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーション の1種 Ø物体の{形状,⾊,素材} 位置情報 算出 •
取得したバウンディングボックスの 座標から物体の中⼼座標を算出 データセット 20 (𝑥& , 𝑦&) (𝑥' , 𝑦') 𝑐 = 𝑥, 𝑦 = ( 𝑥& + 𝑥' 2 , 𝑦& + 𝑦' 2 ) c 検知前 検知後
結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 21 物体認識 速度
加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル 物体の 位置情報
速度・加速度 データセット physical training dataset 22 velocity acceleration 𝑎!" =
(𝑣!" − 𝑣!# )/(𝑒𝑡"#$%&×𝑡) 𝑎'" = (𝑣'" − 𝑣'# )/(𝑒𝑡"#$%&×𝑡) ※ 𝑒𝑡()*+, = 5/128 フレーム間の経過時間 𝑣!" = (𝑥( − 𝑥()*)/𝑒𝑡"#$%& 𝑣'" = (𝑦( − 𝑦()* )/𝑒𝑡"#$%&
速度・加速度 物体間の位置関係のフラグ データセット physical training dataset 23 velocity acceleration 𝑎!"
= (𝑣!" − 𝑣!# )/(𝑒𝑡"#$%&×𝑡) 𝑎'" = (𝑣'" − 𝑣'# )/(𝑒𝑡"#$%&×𝑡) ※ 𝑒𝑡()*+, = 5/128 フレーム間の経過時間 𝑣!" = (𝑥( − 𝑥()*)/𝑒𝑡"#$%& 𝑣'" = (𝑦( − 𝑦()* )/𝑒𝑡"#$%& x flag “5” flag “-5” flag “-1” main object others main object = (𝑥&'%( , 𝑦&'%( ) others = (𝑥)"*+, , 𝑦)"*+, ) 𝑥-%.. = 𝑥)"*+, − 𝑥&'%( 𝑦-%.. = 𝑦)"*+, − 𝑦&'%( 𝑥-%.. 𝑦-%.. + + − − flag “5” flag “1” flag “-1” flag “-5” y flag “1”
グラフ構造 • ノード情報 Ø物体の形状,⾊,素材 埋め込みベクトル • node2vec [Grover+, 2016] データセット
physical training dataset 24 [[0.54, 0.29, 0.61…], [[0.82, 0.91, 0.15…], … [[0.14, 0.35, 0.69…]] 埋め込みベクトル例
物体の 位置情報 データセット physical training dataset • 環境の物理特性から作成したデータセット 25 物体認識
グラフ構造 結合 埋め込み ベクトル 速度 加速度 物体同⼠の 位置⽅向のフラグ physical training data
実験1︓予測変化点の抽出 実験2︓⾔語⽣成 実験概要 26
実験1︓予測変化点の抽出 ⽬的 • イベントの予測変化点を正しく 抽出できるか 設定 • データセット Ø CLEVRER
Ø physical training data • 対象範囲︓6パターン×10フレーム • 衝突・消失・出現など物体の 物理的な変化が起きている状況 実験概要 27
実験1︓精度算出⽅法 • アノテーションの衝突情報とフラグの⽴つタイミングの精度(%)を調査 例 • collision→19 frame,⽬で⾒ると → 21 frame
• 正解 19〜21 frame と設定 • フラグ︓18,19,20,22 → 精度︓2/4×100=50 (%) 28 19 フレーム⽬ 20 フレーム⽬ 21 フレーム⽬
29 実験1︓結果 i ii iii iv v vi Physical data
33.3 50 50 33.3 66.7 50 アノテー ション 66.7 50 66.7 40 50 50 精度 実画像 予測画像 t=1 t=12 m=1 m=0 m=0 m=1 m=1 m=0 m=1 m=1 衝突 精度︓2/6*100=33.3% 範囲iの結果 m=0 m=1
30 実験1︓結果 i ii iii iv v vi Physical data
33.3 50 50 33.3 66.7 50 アノテー ション 66.7 50 66.7 40 50 50 精度 実画像 予測画像 t=1 t=12 m=1 m=0 m=0 m=1 m=1 m=0 m=1 m=1 衝突 精度︓2/6*100=33.3% 範囲iの結果 m=0 m=1 physical training dataでの精度 アノテーションデータの精度と同等の精度で予測
実験1︓予測変化点の抽出 ⽬的 • 予測画像の変化点を正しく抽出 できるか 設定 • データセット ØCLEVRER Øphysical
training data • 対象範囲︓6パターン×10フレーム • 衝突・消失・出現など物体の 物理的な変化が起きている状況 実験2︓⾔語⽣成 ⽬的 • 実世界と⾔語を結びつけるために、 推論内容を⾔語として表現 設定 • データセット Øグラフの埋め込みベクトルと⾔語 データのペアデータ • 衝突の状況に限定 実験概要 31
実験2︓テンプレートの作成 • 9種類のテンプレート Ø3(衝突前・衝突・衝突後)×3(⽂章の種類)=9 種類 • 物体の種類 Ø衝突した 2 つの物体それぞれ
「{ 灰, ⾚, ⻘, 緑, 茶, ⽔, 紫, ⻩ } ⾊の { 球, 円柱, ⽴⽅体 }」 32 「⻘⾊の球と灰⾊の球がぶつかる」 「⻘⾊の球が灰⾊の球にはじかれる」 「灰⾊の球が⻘⾊の球にはじかれる」 衝突 衝突前 「⻘⾊の球と灰⾊の球が近づく」 「⻘⾊の球が灰⾊の球に近づく」 「灰⾊の球が⻘⾊の球に近づく」 衝突後 「⻘⾊の球と灰⾊の球が離れる」 「⻘⾊の球から灰⾊の球が離れる」 「灰⾊の球から⻘⾊の球が離れる」 ⽂章テンプレート例︓衝突する物体(⻘⾊の球・灰⾊の球) 5フレーム 5フレーム 衝突前(5フレーム前) 「AとBが近づく」 「AがBに近づく」 「BがAに近づく」 衝突 「AとBがぶつかる」 「AがBにはじかれる」 「BがAにはじかれる」 衝突後(5フレーム後) 「AとBが離れる」 「AからBが離れる」 「BからAが離れる」
33 実験2︓⾔語⽣成モデル test 学習済み Decoderモデル 予測内容を ⽰した⽣成⽂ pred graph embedding
input # 𝐴!"_ℓ Decoder Softmax <bos> w1 w2 wt <eos> … w1 w2 wt … Decoder学習モデル text ペアデータ train Linear graph embedding 219,303 ペア 10,965 個
34 実験2︓⽣成結果 i ii iv vi 実画像 予測画像 「緑⾊の球と⾚⾊の円柱がぶつかる」 「緑⾊の球が⾚⾊の円柱にはじかれる」
「⾚⾊の円柱が緑⾊の球にはじかれる」 正解⽂ 緑⾊の円柱が⾚⾊の円柱に はじかれる ⽣成⽂ 実画像 予測画像 「灰⾊の球と⻘⾊の円柱がぶつかる」 「灰⾊の球が⻘⾊の円柱にはじかれる」 「⻘⾊の円柱が灰⾊の球にはじかれる」 灰⾊の球が⻘⾊の⽴⽅体に はじかれる 実画像 予測画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 ⽔⾊の⽴⽅体が⻘⾊の球に ぶつかる 実画像 予測画像 「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状✕ 物体の⾊◦,形状◦ 物体の⾊◦,形状✕ 物体の⾊✕,形状✕ 正解⽂ ⽣成⽂ 正解⽂ ⽣成⽂ 正解⽂ ⽣成⽂
35 実験2︓範囲viの結果の考察 vi れる」 れる」 柱に る」 れる」 れる」 体に
実画像 予測画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 ⽔⾊の⽴⽅体が⻘⾊の球に ぶつかる 予測画像 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状◦ 物体の⾊✕,形状✕ 正解⽂ ⽣成⽂ ⽣成⽂ 物体の⾊・形状ともに誤った理由 20フレーム前 15フレーム前 10フレーム前 5フレーム前 衝突の25フレーム前 衝突 「⽔⾊の⽴⽅体」と「⻘⾊の球」 がぶつかっていると判定されて しまった可能性
Ex2︓ BLEU 36 BLEU@2 BLEU@3 BLEU@4 score 79.7 74.5 68.8
3⽂に対する平均点を取ったため、 やや低いスコアになった可能性 i ii iv vi 実画像 予測画像 「緑⾊の球と⾚⾊の円柱がぶつかる」 「緑⾊の球が⾚⾊の円柱にはじかれる」 「⾚⾊の円柱が緑⾊の球にはじかれる」 正解⽂ 緑⾊の円柱が⾚⾊の円柱に はじかれる ⽣成⽂ 実画像 「灰⾊の球と⻘⾊の円柱がぶつかる」 「灰⾊の球が⻘⾊の円柱にはじかれる」 「⻘⾊の円柱が灰⾊の球にはじかれる」 実画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 実画像 予測画像 「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状✕ 物体の⾊◦,形状◦ 正解⽂ 正解⽂ 正解⽂ ⽣成⽂
まとめ • ヒト脳の階層構造を模した予測推論モデル ØPredNetの階層構造に変化点mの構造を追加 Ø実験結果から、予測内容についても変化点の タイミングを取得可能 • 実世界と⾔語を結びつけるために、 推論内容を⾔語として表現 Ø実世界と結びついた⾔語を⽤いて記号操作を
することで、ヒトの知能を表現 Ø実験結果から、推論内容を⾔語⽣成可能 今後の課題 • 実世界に近いデータの使⽤ Øヒトの実環境(実⽣活)に近い データセット • ⾔語による認識・推論・予測 まとめ・課題 37