jsai2023 erikuroda

予測符号化を模した物理環境の予測推論モデル ◦ ⿊⽥彗莉1, 2・⼩林⼀郎 1 1︓お茶の⽔⼥⼦⼤学 2︓⽇本学術振興会 37
Pages 1G4-OS-21a-05 JSAI2023

7 1 2 ⾞が来る前に急いで渡る⾞が通り過ぎてから渡る

8 どこから判断しているか距離を⾒積もる速度（速さ） • ⾃分がどれくらいの速さで歩く/ ⾛れるか • ⾞が曲がるのか/曲がらないのか •
急激に加速してこないかどうか⾃分が事故にあうか/あわないかこれまでの経験や常識から判断

9 背景・⽬的 • 認識と予測 Ø 物体が次に起こることを予測し、⾏動を決定 Ø やり取りや観察から仕組みや背景を学ぶ → 出来事の重要な点が⼤事
→ 常識の基本 • ⾔語による理解 Ø 実世界と⾔語を結ぶことでより詳細に理解 Ø 実世界と結びついた⾔語を⽤い、記号操作をすることでヒトの知能を表現ヒトの実世界認識しかし • 実世界認識予測を対象にした機械学習 Ø ⼊⼒（観測）を画像 → ヒトの視覚に相当 Ø 画像特徴量の予測を実世界の予測とみなしている • ヒトのように物体の物理特性や、物理法則をもとにした予測をしていない • 実世界における物体を「認識し、物理特性を理解し、予測する」ことが⾔語と結びついていない • 実環境の物体の物理法則をもとに、物理的な変化点取得と予測ができる予測推論モデルを提案 • 実世界と⾔語を結びつけるために、推論内容を⾔語として表現⽬的

10 概要 CLEVRER 次ステップの変化点のタイミングを正しく⽰せるか提案モデルグラフ構造物理特性の集合を表現 PredNet
VTA, graph VTA 画像視覚から実世界を⾒たとき推論内容を⾔語として⽣成実験1 実験2 物体検出速度・加速度画像特徴量など

11 PredNet [Lotter+, 2016] • 深層学習を⽤いた、動画像から次の画像を予測する研究 • ⼤脳⽪質における予測符号化の処理を模倣 •
脳内の情報処理機構を表現実画像予測画像時刻t → 予測符号化 • 予測値と観測値の誤差を算出 • 誤差をボトムアップに伝達 • 誤差を最⼩化する予測値を出⼒ • 予測値をトップダウンに伝達以上を繰り返す仕組み

12 Variational Temporal Abstraction [Kim+, 19] ⻘い道を歩いたとき⾚い道を歩いたとき全イベント⼤事な箇所
（変化点）全イベント⼤事な箇所（変化点）

13 Variational Temporal Abstraction [Kim+, 19] 𝑍 を遷移させるタイミングを決めるのが難しい問題点ヒト︓易
↔ モデル︓難観測（⼊⼒）観測抽象度時間的抽象度

14 Variational Temporal Abstraction [Kim+, 19] それまでの観測と⽐較して，潜在状態の変化の⼤きさで𝑚のフラグ (0 or
1)を決定フラグの導⼊

15 提案モデル 𝐸!"_ℓ%& 𝐸!"_ℓ ⊝ ⊝ 𝑅!"_ℓ%& 𝑥" Input #
𝐴!"_ℓ%& 𝐴!"_ℓ%& # 𝐴!"_ℓ 𝐴!"_ℓ 𝐸'"_ℓ%& 𝐸'"_ℓ ⊝ ⊝ 𝑅'"_ℓ%& 𝑅'"_ℓ # 𝐴'"_ℓ%& 𝐴'"_ℓ%& # 𝐴'"_ℓ 𝐴!"_ℓ img Output 𝑑𝑖𝑓𝑓 !" 𝑅!"_ℓ 𝑑𝑖𝑓𝑓'" 𝑚( Output 𝑑𝑖𝑓𝑓 > 𝛼 physical training data Input Error Representation Prediction 時刻t 𝛼︓閾値 Difference 物理特性をふまえたグラフ構造の予測画像の予測 𝑑𝑖𝑓𝑓 = 𝑑𝑖𝑓𝑓!" + 𝑑𝑖𝑓𝑓%"

データセット︓CLEVRER [Yi+,2020] • CLEVRER [Yi+, 2020] ØCoLlision Events for Video
REpresentation and Reasoning 16 動画数 20,000 個 (train:val:test=2:1:1) ビデオの⻑さ 5 秒フレーム数 128フレーム形状⽴⽅体・球・円柱素材メタル・ラバー⾊灰，⾚，⻘，緑，茶，⽔⾊，紫，⻩⾊イベント出現，消失，衝突アノテーション object id, 位置, 速度, 加速度

結合データセット physical training dataset • 環境の物理特性から作成したデータセット 17 物体認識物体の
位置情報速度加速度物体同⼠の位置⽅向のフラググラフ構造埋め込みベクトル

結合データセット physical training dataset • 環境の物理特性から作成したデータセット 18 物体認識物体の
位置情報速度加速度物体同⼠の位置⽅向のフラググラフ構造埋め込みベクトル

物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーションの1種 Ø物体の{形状，⾊，素材} データセット 19 検知前
検知後

物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーションの1種 Ø物体の{形状，⾊，素材} 位置情報算出 •
取得したバウンディングボックスの座標から物体の中⼼座標を算出データセット 20 (𝑥& , 𝑦&) (𝑥' , 𝑦') 𝑐 = 𝑥, 𝑦 = ( 𝑥& + 𝑥' 2 , 𝑦& + 𝑦' 2 ) c 検知前検知後

結合データセット physical training dataset • 環境の物理特性から作成したデータセット 21 物体認識速度
加速度物体同⼠の位置⽅向のフラググラフ構造埋め込みベクトル物体の位置情報

速度・加速度データセット physical training dataset 22 velocity acceleration 𝑎!" =
(𝑣!" − 𝑣!# )/(𝑒𝑡"#$%&×𝑡) 𝑎'" = (𝑣'" − 𝑣'# )/(𝑒𝑡"#$%&×𝑡) ※ 𝑒𝑡()*+, = 5/128 フレーム間の経過時間 𝑣!" = (𝑥( − 𝑥()*)/𝑒𝑡"#$%& 𝑣'" = (𝑦( − 𝑦()* )/𝑒𝑡"#$%&

速度・加速度物体間の位置関係のフラグデータセット physical training dataset 23 velocity acceleration 𝑎!"
= (𝑣!" − 𝑣!# )/(𝑒𝑡"#$%&×𝑡) 𝑎'" = (𝑣'" − 𝑣'# )/(𝑒𝑡"#$%&×𝑡) ※ 𝑒𝑡()*+, = 5/128 フレーム間の経過時間 𝑣!" = (𝑥( − 𝑥()*)/𝑒𝑡"#$%& 𝑣'" = (𝑦( − 𝑦()* )/𝑒𝑡"#$%& x flag “5” flag “-5” flag “-1” main object others main object = (𝑥&'%( , 𝑦&'%( ) others = (𝑥)"*+, , 𝑦)"*+, ) 𝑥-%.. = 𝑥)"*+, − 𝑥&'%( 𝑦-%.. = 𝑦)"*+, − 𝑦&'%( 𝑥-%.. 𝑦-%.. + + − − flag “5” flag “1” flag “-1” flag “-5” y flag “1”

グラフ構造 • ノード情報 Ø物体の形状，⾊，素材埋め込みベクトル • node2vec [Grover+, 2016] データセット
physical training dataset 24 [[0.54, 0.29, 0.61…], [[0.82, 0.91, 0.15…], … [[0.14, 0.35, 0.69…]] 埋め込みベクトル例

物体の位置情報データセット physical training dataset • 環境の物理特性から作成したデータセット 25 物体認識
グラフ構造結合埋め込みベクトル速度加速度物体同⼠の位置⽅向のフラグ physical training data

実験1︓予測変化点の抽出実験2︓⾔語⽣成実験概要 26

実験1︓予測変化点の抽出⽬的 • イベントの予測変化点を正しく抽出できるか設定 • データセット Ø CLEVRER
Ø physical training data • 対象範囲︓6パターン×10フレーム • 衝突・消失・出現など物体の物理的な変化が起きている状況実験概要 27

実験1︓精度算出⽅法 • アノテーションの衝突情報とフラグの⽴つタイミングの精度(%)を調査例 • collision→19 frame，⽬で⾒ると → 21 frame
• 正解 19〜21 frame と設定 • フラグ︓18，19，20，22 → 精度︓2/4×100=50 (%) 28 19 フレーム⽬ 20 フレーム⽬ 21 フレーム⽬

29 実験1︓結果 i ii iii iv v vi Physical data
33.3 50 50 33.3 66.7 50 アノテーション 66.7 50 66.7 40 50 50 精度実画像予測画像 t=1 t=12 m=1 m=0 m=0 m=1 m=1 m=0 m=1 m=1 衝突精度︓2/6*100=33.3% 範囲iの結果 m=0 m=1

30 実験1︓結果 i ii iii iv v vi Physical data
33.3 50 50 33.3 66.7 50 アノテーション 66.7 50 66.7 40 50 50 精度実画像予測画像 t=1 t=12 m=1 m=0 m=0 m=1 m=1 m=0 m=1 m=1 衝突精度︓2/6*100=33.3% 範囲iの結果 m=0 m=1 physical training dataでの精度アノテーションデータの精度と同等の精度で予測

実験1︓予測変化点の抽出⽬的 • 予測画像の変化点を正しく抽出できるか設定 • データセット ØCLEVRER Øphysical
training data • 対象範囲︓6パターン×10フレーム • 衝突・消失・出現など物体の物理的な変化が起きている状況実験2︓⾔語⽣成⽬的 • 実世界と⾔語を結びつけるために、推論内容を⾔語として表現設定 • データセット Øグラフの埋め込みベクトルと⾔語データのペアデータ • 衝突の状況に限定実験概要 31

実験2︓テンプレートの作成 • 9種類のテンプレート Ø3(衝突前・衝突・衝突後)×3(⽂章の種類)=9 種類 • 物体の種類 Ø衝突した 2 つの物体それぞれ
「{ 灰, ⾚, ⻘, 緑, 茶, ⽔, 紫, ⻩ } ⾊の { 球, 円柱, ⽴⽅体 }」 32 「⻘⾊の球と灰⾊の球がぶつかる」「⻘⾊の球が灰⾊の球にはじかれる」「灰⾊の球が⻘⾊の球にはじかれる」衝突衝突前「⻘⾊の球と灰⾊の球が近づく」「⻘⾊の球が灰⾊の球に近づく」「灰⾊の球が⻘⾊の球に近づく」衝突後「⻘⾊の球と灰⾊の球が離れる」「⻘⾊の球から灰⾊の球が離れる」「灰⾊の球から⻘⾊の球が離れる」⽂章テンプレート例︓衝突する物体（⻘⾊の球・灰⾊の球） 5フレーム 5フレーム衝突前（5フレーム前）「AとBが近づく」「AがBに近づく」「BがAに近づく」衝突「AとBがぶつかる」「AがBにはじかれる」「BがAにはじかれる」衝突後（5フレーム後）「AとBが離れる」「AからBが離れる」「BからAが離れる」

33 実験2︓⾔語⽣成モデル test 学習済み Decoderモデル予測内容を⽰した⽣成⽂ pred graph embedding
input # 𝐴!"_ℓ Decoder Softmax <bos> w1 w2 wt <eos> … w1 w2 wt … Decoder学習モデル text ペアデータ train Linear graph embedding 219,303 ペア 10,965 個

34 実験2︓⽣成結果 i ii iv vi 実画像予測画像「緑⾊の球と⾚⾊の円柱がぶつかる」「緑⾊の球が⾚⾊の円柱にはじかれる」
「⾚⾊の円柱が緑⾊の球にはじかれる」正解⽂緑⾊の円柱が⾚⾊の円柱にはじかれる⽣成⽂実画像予測画像「灰⾊の球と⻘⾊の円柱がぶつかる」「灰⾊の球が⻘⾊の円柱にはじかれる」「⻘⾊の円柱が灰⾊の球にはじかれる」灰⾊の球が⻘⾊の⽴⽅体にはじかれる実画像予測画像「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」⽔⾊の⽴⽅体が⻘⾊の球にぶつかる実画像予測画像「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」緑⾊の円柱が茶⾊の⽴⽅体にぶつかる物体の⾊◦，形状✕ 物体の⾊◦，形状◦ 物体の⾊◦，形状✕ 物体の⾊✕，形状✕ 正解⽂⽣成⽂正解⽂⽣成⽂正解⽂⽣成⽂

35 実験2︓範囲viの結果の考察 vi れる」れる」柱にる」れる」れる」体に
実画像予測画像「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」⽔⾊の⽴⽅体が⻘⾊の球にぶつかる予測画像「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」緑⾊の円柱が茶⾊の⽴⽅体にぶつかる物体の⾊◦，形状◦ 物体の⾊✕，形状✕ 正解⽂⽣成⽂⽣成⽂物体の⾊・形状ともに誤った理由 20フレーム前 15フレーム前 10フレーム前 5フレーム前衝突の25フレーム前衝突「⽔⾊の⽴⽅体」と「⻘⾊の球」がぶつかっていると判定されてしまった可能性

Ex2︓ BLEU 36 BLEU@2 BLEU@3 BLEU@4 score 79.7 74.5 68.8
3⽂に対する平均点を取ったため、やや低いスコアになった可能性 i ii iv vi 実画像予測画像「緑⾊の球と⾚⾊の円柱がぶつかる」「緑⾊の球が⾚⾊の円柱にはじかれる」「⾚⾊の円柱が緑⾊の球にはじかれる」正解⽂緑⾊の円柱が⾚⾊の円柱にはじかれる⽣成⽂実画像「灰⾊の球と⻘⾊の円柱がぶつかる」「灰⾊の球が⻘⾊の円柱にはじかれる」「⻘⾊の円柱が灰⾊の球にはじかれる」実画像「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」実画像予測画像「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」緑⾊の円柱が茶⾊の⽴⽅体にぶつかる物体の⾊◦，形状✕ 物体の⾊◦，形状◦ 正解⽂正解⽂正解⽂⽣成⽂

まとめ • ヒト脳の階層構造を模した予測推論モデル ØPredNetの階層構造に変化点mの構造を追加 Ø実験結果から、予測内容についても変化点のタイミングを取得可能 • 実世界と⾔語を結びつけるために、推論内容を⾔語として表現 Ø実世界と結びついた⾔語を⽤いて記号操作を
することで、ヒトの知能を表現 Ø実験結果から、推論内容を⾔語⽣成可能今後の課題 • 実世界に近いデータの使⽤ Øヒトの実環境（実⽣活）に近いデータセット • ⾔語による認識・推論・予測まとめ・課題 37

jsai2023 erikuroda

jsai2023 erikuroda

More Decks by Eri KURODA

Other Decks in Research

Featured

Transcript