Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
jsai2023 erikuroda
Search
Eri KURODA
June 03, 2023
Research
1
240
jsai2023 erikuroda
Presentation materials for JSAI2023.
Eri KURODA
June 03, 2023
Tweet
Share
More Decks by Eri KURODA
See All by Eri KURODA
ICMLC2025_erikuroda
erikuroda
0
9
erikuroda 4th ph.d defense
erikuroda
0
10
SCIS-ISIS2024_erikuroda
erikuroda
0
33
JSAI2024 erikuroda
erikuroda
0
79
2023DFKI, UdS talk
erikuroda
0
21
DS2023_erikuroda
erikuroda
0
72
PRML2023 S9-5 EriKuroda
erikuroda
0
190
230530 AIRC Eri Kuroda
erikuroda
0
110
Other Decks in Research
See All in Research
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
satai
3
260
[論文紹介] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting
shiba4839
0
110
DPUを用いたマルチタスクDNN表情認識システムのFPGA実装
takuto_andtt
0
140
AWS 音声基盤モデル トーク解析AI MiiTelの音声処理について
ken57
0
190
AIトップカンファレンスからみるData-Centric AIの研究動向 / Research Trends in Data-Centric AI: Insights from Top AI Conferences
tsurubee
3
2.2k
RapidPen: AIエージェントによるペネトレーションテスト 初期侵入全自動化の研究
laysakura
0
120
地理空間情報と自然言語処理:「地球の歩き方旅行記データセット」の高付加価値化を通じて
hiroki13
1
220
Principled AI ~深層学習時代における課題解決の方法論~
taniai
3
990
[輪講] Transformer Layers as Painters
nk35jk
4
740
LLM 시대의 Compliance: Safety & Security
huffon
0
630
クラウドのテレメトリーシステム研究動向2025年
yuukit
3
810
Neural Fieldの紹介
nnchiba
2
840
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
45
14k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.2k
Statistics for Hackers
jakevdp
798
220k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
31
4.8k
Building a Modern Day E-commerce SEO Strategy
aleyda
39
7.2k
Visualization
eitanlees
146
16k
Why Our Code Smells
bkeepers
PRO
336
57k
Unsuck your backbone
ammeep
670
57k
Writing Fast Ruby
sferik
628
61k
Making Projects Easy
brettharned
116
6.1k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
Designing Experiences People Love
moore
141
23k
Transcript
予測符号化を模した 物理環境の予測推論モデル ◦ ⿊⽥ 彗莉1, 2・⼩林⼀郎 1 1︓お茶の⽔⼥⼦⼤学 2︓⽇本学術振興会 37
Pages 1G4-OS-21a-05 JSAI2023
2
3
4
1 5
2 6
7 1 2 ⾞が来る前に急いで渡る ⾞が通り過ぎてから渡る
8 どこから判断しているか 距離を⾒積もる 速度(速さ) • ⾃分がどれくらいの速さで歩く/ ⾛れるか • ⾞が曲がるのか/曲がらないのか •
急激に加速してこないかどうか ⾃分が事故にあうか/あわないか これまでの経験や常識から判断
9 背景・⽬的 • 認識と予測 Ø 物体が次に起こることを予測し、⾏動を決定 Ø やり取りや観察から仕組みや背景を学ぶ → 出来事の重要な点が⼤事
→ 常識の基本 • ⾔語による理解 Ø 実世界と⾔語を結ぶことでより詳細に理解 Ø 実世界と結びついた⾔語を⽤い、 記号操作をすることでヒトの知能を表現 ヒトの実世界認識 しかし • 実世界認識予測を対象にした機械学習 Ø ⼊⼒(観測)を画像 → ヒトの視覚に相当 Ø 画像特徴量の予測を実世界の予測とみなしている • ヒトのように物体の物理特性や、物理法則をもとに した予測をしていない • 実世界における物体を「認識し、物理特性を理解し、 予測する」ことが⾔語と結びついていない • 実環境の物体の物理法則をもとに、物理的な変化点取得と予測ができる予測推論モデルを提案 • 実世界と⾔語を結びつけるために、推論内容を⾔語として表現 ⽬的
10 概要 CLEVRER 次ステップの変化 点のタイミングを 正しく⽰せるか 提案モデル グラフ構造 物理特性の集合を表現 PredNet
VTA, graph VTA 画像 視覚から実世界を⾒たとき 推論内容を⾔語 として⽣成 実験1 実験2 物体検出 速度・加速度 画像特徴量など
11 PredNet [Lotter+, 2016] • 深層学習を⽤いた、動画像から次の画像を予測する研究 • ⼤脳⽪質における予測符号化の 処理を模倣 •
脳内の情報処理機構を表現 実画像 予測画像 時刻t → 予測符号化 • 予測値と観測値の誤差を算出 • 誤差をボトムアップに伝達 • 誤差を最⼩化する予測値を出⼒ • 予測値をトップダウンに伝達 以上を繰り返す仕組み
12 Variational Temporal Abstraction [Kim+, 19] ⻘い道を歩いたとき ⾚い道を歩いたとき 全イベント ⼤事な箇所
(変化点) 全イベント ⼤事な箇所 (変化点)
13 Variational Temporal Abstraction [Kim+, 19] 𝑍 を遷移させるタイミングを決めるのが難しい 問題点 ヒト︓易
↔ モデル︓難 観測(⼊⼒) 観測抽象度 時間的抽象度
14 Variational Temporal Abstraction [Kim+, 19] それまでの観測と⽐較して, 潜在状態の変化の⼤きさで𝑚のフラグ (0 or
1)を決定 フラグの導⼊
15 提案モデル 𝐸!"_ℓ%& 𝐸!"_ℓ ⊝ ⊝ 𝑅!"_ℓ%& 𝑥" Input #
𝐴!"_ℓ%& 𝐴!"_ℓ%& # 𝐴!"_ℓ 𝐴!"_ℓ 𝐸'"_ℓ%& 𝐸'"_ℓ ⊝ ⊝ 𝑅'"_ℓ%& 𝑅'"_ℓ # 𝐴'"_ℓ%& 𝐴'"_ℓ%& # 𝐴'"_ℓ 𝐴!"_ℓ img Output 𝑑𝑖𝑓𝑓 !" 𝑅!"_ℓ 𝑑𝑖𝑓𝑓'" 𝑚( Output 𝑑𝑖𝑓𝑓 > 𝛼 physical training data Input Error Representation Prediction 時刻t 𝛼︓閾値 Difference 物理特性をふまえた グラフ構造の予測 画像の予測 𝑑𝑖𝑓𝑓 = 𝑑𝑖𝑓𝑓!" + 𝑑𝑖𝑓𝑓%"
データセット︓CLEVRER [Yi+,2020] • CLEVRER [Yi+, 2020] ØCoLlision Events for Video
REpresentation and Reasoning 16 動画数 20,000 個 (train:val:test=2:1:1) ビデオの⻑さ 5 秒 フレーム数 128フレーム 形状 ⽴⽅体・球・円柱 素材 メタル・ラバー ⾊ 灰,⾚,⻘,緑,茶,⽔⾊,紫,⻩⾊ イベント 出現,消失,衝突 アノテーション object id, 位置, 速度, 加速度
結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 17 物体認識 物体の
位置情報 速度 加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル
結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 18 物体認識 物体の
位置情報 速度 加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル
物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーション の1種 Ø物体の{形状,⾊,素材} データセット 19 検知前
検知後
物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーション の1種 Ø物体の{形状,⾊,素材} 位置情報 算出 •
取得したバウンディングボックスの 座標から物体の中⼼座標を算出 データセット 20 (𝑥& , 𝑦&) (𝑥' , 𝑦') 𝑐 = 𝑥, 𝑦 = ( 𝑥& + 𝑥' 2 , 𝑦& + 𝑦' 2 ) c 検知前 検知後
結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 21 物体認識 速度
加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル 物体の 位置情報
速度・加速度 データセット physical training dataset 22 velocity acceleration 𝑎!" =
(𝑣!" − 𝑣!# )/(𝑒𝑡"#$%&×𝑡) 𝑎'" = (𝑣'" − 𝑣'# )/(𝑒𝑡"#$%&×𝑡) ※ 𝑒𝑡()*+, = 5/128 フレーム間の経過時間 𝑣!" = (𝑥( − 𝑥()*)/𝑒𝑡"#$%& 𝑣'" = (𝑦( − 𝑦()* )/𝑒𝑡"#$%&
速度・加速度 物体間の位置関係のフラグ データセット physical training dataset 23 velocity acceleration 𝑎!"
= (𝑣!" − 𝑣!# )/(𝑒𝑡"#$%&×𝑡) 𝑎'" = (𝑣'" − 𝑣'# )/(𝑒𝑡"#$%&×𝑡) ※ 𝑒𝑡()*+, = 5/128 フレーム間の経過時間 𝑣!" = (𝑥( − 𝑥()*)/𝑒𝑡"#$%& 𝑣'" = (𝑦( − 𝑦()* )/𝑒𝑡"#$%& x flag “5” flag “-5” flag “-1” main object others main object = (𝑥&'%( , 𝑦&'%( ) others = (𝑥)"*+, , 𝑦)"*+, ) 𝑥-%.. = 𝑥)"*+, − 𝑥&'%( 𝑦-%.. = 𝑦)"*+, − 𝑦&'%( 𝑥-%.. 𝑦-%.. + + − − flag “5” flag “1” flag “-1” flag “-5” y flag “1”
グラフ構造 • ノード情報 Ø物体の形状,⾊,素材 埋め込みベクトル • node2vec [Grover+, 2016] データセット
physical training dataset 24 [[0.54, 0.29, 0.61…], [[0.82, 0.91, 0.15…], … [[0.14, 0.35, 0.69…]] 埋め込みベクトル例
物体の 位置情報 データセット physical training dataset • 環境の物理特性から作成したデータセット 25 物体認識
グラフ構造 結合 埋め込み ベクトル 速度 加速度 物体同⼠の 位置⽅向のフラグ physical training data
実験1︓予測変化点の抽出 実験2︓⾔語⽣成 実験概要 26
実験1︓予測変化点の抽出 ⽬的 • イベントの予測変化点を正しく 抽出できるか 設定 • データセット Ø CLEVRER
Ø physical training data • 対象範囲︓6パターン×10フレーム • 衝突・消失・出現など物体の 物理的な変化が起きている状況 実験概要 27
実験1︓精度算出⽅法 • アノテーションの衝突情報とフラグの⽴つタイミングの精度(%)を調査 例 • collision→19 frame,⽬で⾒ると → 21 frame
• 正解 19〜21 frame と設定 • フラグ︓18,19,20,22 → 精度︓2/4×100=50 (%) 28 19 フレーム⽬ 20 フレーム⽬ 21 フレーム⽬
29 実験1︓結果 i ii iii iv v vi Physical data
33.3 50 50 33.3 66.7 50 アノテー ション 66.7 50 66.7 40 50 50 精度 実画像 予測画像 t=1 t=12 m=1 m=0 m=0 m=1 m=1 m=0 m=1 m=1 衝突 精度︓2/6*100=33.3% 範囲iの結果 m=0 m=1
30 実験1︓結果 i ii iii iv v vi Physical data
33.3 50 50 33.3 66.7 50 アノテー ション 66.7 50 66.7 40 50 50 精度 実画像 予測画像 t=1 t=12 m=1 m=0 m=0 m=1 m=1 m=0 m=1 m=1 衝突 精度︓2/6*100=33.3% 範囲iの結果 m=0 m=1 physical training dataでの精度 アノテーションデータの精度と同等の精度で予測
実験1︓予測変化点の抽出 ⽬的 • 予測画像の変化点を正しく抽出 できるか 設定 • データセット ØCLEVRER Øphysical
training data • 対象範囲︓6パターン×10フレーム • 衝突・消失・出現など物体の 物理的な変化が起きている状況 実験2︓⾔語⽣成 ⽬的 • 実世界と⾔語を結びつけるために、 推論内容を⾔語として表現 設定 • データセット Øグラフの埋め込みベクトルと⾔語 データのペアデータ • 衝突の状況に限定 実験概要 31
実験2︓テンプレートの作成 • 9種類のテンプレート Ø3(衝突前・衝突・衝突後)×3(⽂章の種類)=9 種類 • 物体の種類 Ø衝突した 2 つの物体それぞれ
「{ 灰, ⾚, ⻘, 緑, 茶, ⽔, 紫, ⻩ } ⾊の { 球, 円柱, ⽴⽅体 }」 32 「⻘⾊の球と灰⾊の球がぶつかる」 「⻘⾊の球が灰⾊の球にはじかれる」 「灰⾊の球が⻘⾊の球にはじかれる」 衝突 衝突前 「⻘⾊の球と灰⾊の球が近づく」 「⻘⾊の球が灰⾊の球に近づく」 「灰⾊の球が⻘⾊の球に近づく」 衝突後 「⻘⾊の球と灰⾊の球が離れる」 「⻘⾊の球から灰⾊の球が離れる」 「灰⾊の球から⻘⾊の球が離れる」 ⽂章テンプレート例︓衝突する物体(⻘⾊の球・灰⾊の球) 5フレーム 5フレーム 衝突前(5フレーム前) 「AとBが近づく」 「AがBに近づく」 「BがAに近づく」 衝突 「AとBがぶつかる」 「AがBにはじかれる」 「BがAにはじかれる」 衝突後(5フレーム後) 「AとBが離れる」 「AからBが離れる」 「BからAが離れる」
33 実験2︓⾔語⽣成モデル test 学習済み Decoderモデル 予測内容を ⽰した⽣成⽂ pred graph embedding
input # 𝐴!"_ℓ Decoder Softmax <bos> w1 w2 wt <eos> … w1 w2 wt … Decoder学習モデル text ペアデータ train Linear graph embedding 219,303 ペア 10,965 個
34 実験2︓⽣成結果 i ii iv vi 実画像 予測画像 「緑⾊の球と⾚⾊の円柱がぶつかる」 「緑⾊の球が⾚⾊の円柱にはじかれる」
「⾚⾊の円柱が緑⾊の球にはじかれる」 正解⽂ 緑⾊の円柱が⾚⾊の円柱に はじかれる ⽣成⽂ 実画像 予測画像 「灰⾊の球と⻘⾊の円柱がぶつかる」 「灰⾊の球が⻘⾊の円柱にはじかれる」 「⻘⾊の円柱が灰⾊の球にはじかれる」 灰⾊の球が⻘⾊の⽴⽅体に はじかれる 実画像 予測画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 ⽔⾊の⽴⽅体が⻘⾊の球に ぶつかる 実画像 予測画像 「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状✕ 物体の⾊◦,形状◦ 物体の⾊◦,形状✕ 物体の⾊✕,形状✕ 正解⽂ ⽣成⽂ 正解⽂ ⽣成⽂ 正解⽂ ⽣成⽂
35 実験2︓範囲viの結果の考察 vi れる」 れる」 柱に る」 れる」 れる」 体に
実画像 予測画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 ⽔⾊の⽴⽅体が⻘⾊の球に ぶつかる 予測画像 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状◦ 物体の⾊✕,形状✕ 正解⽂ ⽣成⽂ ⽣成⽂ 物体の⾊・形状ともに誤った理由 20フレーム前 15フレーム前 10フレーム前 5フレーム前 衝突の25フレーム前 衝突 「⽔⾊の⽴⽅体」と「⻘⾊の球」 がぶつかっていると判定されて しまった可能性
Ex2︓ BLEU 36 BLEU@2 BLEU@3 BLEU@4 score 79.7 74.5 68.8
3⽂に対する平均点を取ったため、 やや低いスコアになった可能性 i ii iv vi 実画像 予測画像 「緑⾊の球と⾚⾊の円柱がぶつかる」 「緑⾊の球が⾚⾊の円柱にはじかれる」 「⾚⾊の円柱が緑⾊の球にはじかれる」 正解⽂ 緑⾊の円柱が⾚⾊の円柱に はじかれる ⽣成⽂ 実画像 「灰⾊の球と⻘⾊の円柱がぶつかる」 「灰⾊の球が⻘⾊の円柱にはじかれる」 「⻘⾊の円柱が灰⾊の球にはじかれる」 実画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 実画像 予測画像 「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状✕ 物体の⾊◦,形状◦ 正解⽂ 正解⽂ 正解⽂ ⽣成⽂
まとめ • ヒト脳の階層構造を模した予測推論モデル ØPredNetの階層構造に変化点mの構造を追加 Ø実験結果から、予測内容についても変化点の タイミングを取得可能 • 実世界と⾔語を結びつけるために、 推論内容を⾔語として表現 Ø実世界と結びついた⾔語を⽤いて記号操作を
することで、ヒトの知能を表現 Ø実験結果から、推論内容を⾔語⽣成可能 今後の課題 • 実世界に近いデータの使⽤ Øヒトの実環境(実⽣活)に近い データセット • ⾔語による認識・推論・予測 まとめ・課題 37