Presentation materials for JSAI2023.
予測符号化を模した物理環境の予測推論モデル○ ⿊⽥ 彗莉1, 2・⼩林⼀郎 11︓お茶の⽔⼥⼦⼤学2︓⽇本学術振興会37 Pages1G4-OS-21a-05JSAI2023
View Slide
2
3
4
1 5
2 6
71 2⾞が来る前に急いで渡る ⾞が通り過ぎてから渡る
8どこから判断しているか距離を⾒積もる速度(速さ)• ⾃分がどれくらいの速さで歩く/⾛れるか• ⾞が曲がるのか/曲がらないのか• 急激に加速してこないかどうか⾃分が事故にあうか/あわないかこれまでの経験や常識から判断
9背景・⽬的• 認識と予測Ø 物体が次に起こることを予測し、⾏動を決定Ø やり取りや観察から仕組みや背景を学ぶ→ 出来事の重要な点が⼤事 → 常識の基本• ⾔語による理解Ø 実世界と⾔語を結ぶことでより詳細に理解Ø 実世界と結びついた⾔語を⽤い、記号操作をすることでヒトの知能を表現ヒトの実世界認識 しかし• 実世界認識予測を対象にした機械学習Ø ⼊⼒(観測)を画像 → ヒトの視覚に相当Ø 画像特徴量の予測を実世界の予測とみなしている• ヒトのように物体の物理特性や、物理法則をもとにした予測をしていない• 実世界における物体を「認識し、物理特性を理解し、予測する」ことが⾔語と結びついていない• 実環境の物体の物理法則をもとに、物理的な変化点取得と予測ができる予測推論モデルを提案• 実世界と⾔語を結びつけるために、推論内容を⾔語として表現⽬的
10概要CLEVRER次ステップの変化点のタイミングを正しく⽰せるか提案モデルグラフ構造物理特性の集合を表現PredNetVTA, graph VTA画像視覚から実世界を⾒たとき推論内容を⾔語として⽣成実験1実験2物体検出速度・加速度画像特徴量など
11PredNet [Lotter+, 2016]• 深層学習を⽤いた、動画像から次の画像を予測する研究• ⼤脳⽪質における予測符号化の処理を模倣• 脳内の情報処理機構を表現実画像予測画像時刻t →予測符号化• 予測値と観測値の誤差を算出• 誤差をボトムアップに伝達• 誤差を最⼩化する予測値を出⼒• 予測値をトップダウンに伝達以上を繰り返す仕組み
12Variational Temporal Abstraction [Kim+, 19]⻘い道を歩いたとき⾚い道を歩いたとき全イベント⼤事な箇所(変化点)全イベント⼤事な箇所(変化点)
13Variational Temporal Abstraction [Kim+, 19]𝑍 を遷移させるタイミングを決めるのが難しい問題点ヒト︓易 ↔ モデル︓難観測(⼊⼒)観測抽象度時間的抽象度
14Variational Temporal Abstraction [Kim+, 19]それまでの観測と⽐較して,潜在状態の変化の⼤きさで𝑚のフラグ (0 or 1)を決定フラグの導⼊
15提案モデル𝐸!"_ℓ%&𝐸!"_ℓ⊝⊝𝑅!"_ℓ%&𝑥"Input#𝐴!"_ℓ%&𝐴!"_ℓ%&#𝐴!"_ℓ𝐴!"_ℓ𝐸'"_ℓ%&𝐸'"_ℓ⊝⊝𝑅'"_ℓ%&𝑅'"_ℓ#𝐴'"_ℓ%&𝐴'"_ℓ%&#𝐴'"_ℓ𝐴!"_ℓimgOutput𝑑𝑖𝑓𝑓!"𝑅!"_ℓ𝑑𝑖𝑓𝑓'"𝑚(Output𝑑𝑖𝑓𝑓 > 𝛼physicaltrainingdataInputErrorRepresentationPrediction時刻t𝛼︓閾値Difference物理特性をふまえたグラフ構造の予測画像の予測𝑑𝑖𝑓𝑓 = 𝑑𝑖𝑓𝑓!"+ 𝑑𝑖𝑓𝑓%"
データセット︓CLEVRER [Yi+,2020]• CLEVRER [Yi+, 2020]ØCoLlision Events for Video REpresentation and Reasoning16動画数 20,000 個 (train:val:test=2:1:1)ビデオの⻑さ 5 秒フレーム数 128フレーム形状 ⽴⽅体・球・円柱素材 メタル・ラバー⾊ 灰,⾚,⻘,緑,茶,⽔⾊,紫,⻩⾊イベント 出現,消失,衝突アノテーション object id, 位置, 速度, 加速度
結合データセット physical training dataset• 環境の物理特性から作成したデータセット17物体認識物体の位置情報速度加速度物体同⼠の位置⽅向のフラググラフ構造埋め込みベクトル
結合データセット physical training dataset• 環境の物理特性から作成したデータセット18物体認識物体の位置情報速度加速度物体同⼠の位置⽅向のフラググラフ構造埋め込みベクトル
物体認識• YOLACTØ[Bolya+,2019]Øインスタンスセグメンテーションの1種Ø物体の{形状,⾊,素材}データセット 19検知前検知後
物体認識• YOLACTØ[Bolya+,2019]Øインスタンスセグメンテーションの1種Ø物体の{形状,⾊,素材}位置情報 算出• 取得したバウンディングボックスの座標から物体の中⼼座標を算出データセット 20(𝑥&, 𝑦&)(𝑥', 𝑦')𝑐 = 𝑥, 𝑦 = (𝑥& + 𝑥'2,𝑦& + 𝑦'2)c検知前検知後
結合データセット physical training dataset• 環境の物理特性から作成したデータセット21物体認識速度加速度物体同⼠の位置⽅向のフラググラフ構造埋め込みベクトル物体の位置情報
速度・加速度データセット physical training dataset 22velocityacceleration𝑎!"= (𝑣!"− 𝑣!#)/(𝑒𝑡"#$%&×𝑡)𝑎'"= (𝑣'"− 𝑣'#)/(𝑒𝑡"#$%&×𝑡)※ 𝑒𝑡()*+, = 5/128フレーム間の経過時間𝑣!"= (𝑥( − 𝑥()*)/𝑒𝑡"#$%&𝑣'"= (𝑦(− 𝑦()*)/𝑒𝑡"#$%&
速度・加速度 物体間の位置関係のフラグデータセット physical training dataset 23velocityacceleration𝑎!"= (𝑣!"− 𝑣!#)/(𝑒𝑡"#$%&×𝑡)𝑎'"= (𝑣'"− 𝑣'#)/(𝑒𝑡"#$%&×𝑡)※ 𝑒𝑡()*+, = 5/128フレーム間の経過時間𝑣!"= (𝑥( − 𝑥()*)/𝑒𝑡"#$%&𝑣'"= (𝑦(− 𝑦()*)/𝑒𝑡"#$%& xflag “5”flag “-5”flag “-1”main object othersmain object = (𝑥&'%(, 𝑦&'%()others = (𝑥)"*+,, 𝑦)"*+,)𝑥-%..= 𝑥)"*+,− 𝑥&'%(𝑦-%..= 𝑦)"*+,− 𝑦&'%(𝑥-%..𝑦-%..++−−flag “5” flag “1”flag “-1”flag “-5”yflag “1”
グラフ構造• ノード情報Ø物体の形状,⾊,素材埋め込みベクトル• node2vec [Grover+, 2016]データセット physical training dataset 24[[0.54, 0.29, 0.61…],[[0.82, 0.91, 0.15…],…[[0.14, 0.35, 0.69…]]埋め込みベクトル例
物体の位置情報データセット physical training dataset• 環境の物理特性から作成したデータセット25物体認識グラフ構造結合埋め込みベクトル速度加速度物体同⼠の位置⽅向のフラグphysicaltraining data
実験1︓予測変化点の抽出 実験2︓⾔語⽣成実験概要 26
実験1︓予測変化点の抽出⽬的• イベントの予測変化点を正しく抽出できるか設定• データセットØ CLEVRERØ physical training data• 対象範囲︓6パターン×10フレーム• 衝突・消失・出現など物体の物理的な変化が起きている状況実験概要 27
実験1︓精度算出⽅法• アノテーションの衝突情報とフラグの⽴つタイミングの精度(%)を調査例• collision→19 frame,⽬で⾒ると → 21 frame• 正解 19〜21 frame と設定• フラグ︓18,19,20,22 → 精度︓2/4×100=50 (%)2819 フレーム⽬ 20 フレーム⽬ 21 フレーム⽬
29実験1︓結果i ii iii iv v viPhysical data 33.3 50 50 33.3 66.7 50アノテーション66.7 50 66.7 40 50 50精度実画像予測画像t=1 t=12m=1 m=0 m=0m=1 m=1 m=0 m=1 m=1衝突 精度︓2/6*100=33.3%範囲iの結果m=0 m=1
30実験1︓結果i ii iii iv v viPhysical data 33.3 50 50 33.3 66.7 50アノテーション66.7 50 66.7 40 50 50精度実画像予測画像t=1 t=12m=1 m=0 m=0m=1 m=1 m=0 m=1 m=1衝突 精度︓2/6*100=33.3%範囲iの結果m=0 m=1physical training dataでの精度アノテーションデータの精度と同等の精度で予測
実験1︓予測変化点の抽出⽬的• 予測画像の変化点を正しく抽出できるか設定• データセットØCLEVRERØphysical training data• 対象範囲︓6パターン×10フレーム• 衝突・消失・出現など物体の物理的な変化が起きている状況実験2︓⾔語⽣成⽬的• 実世界と⾔語を結びつけるために、推論内容を⾔語として表現設定• データセットØグラフの埋め込みベクトルと⾔語データのペアデータ• 衝突の状況に限定実験概要 31
実験2︓テンプレートの作成• 9種類のテンプレートØ3(衝突前・衝突・衝突後)×3(⽂章の種類)=9 種類• 物体の種類Ø衝突した 2 つの物体それぞれ「{ 灰, ⾚, ⻘, 緑, 茶, ⽔, 紫, ⻩ } ⾊の { 球, 円柱, ⽴⽅体 }」32「⻘⾊の球と灰⾊の球がぶつかる」「⻘⾊の球が灰⾊の球にはじかれる」「灰⾊の球が⻘⾊の球にはじかれる」衝突衝突前「⻘⾊の球と灰⾊の球が近づく」「⻘⾊の球が灰⾊の球に近づく」「灰⾊の球が⻘⾊の球に近づく」衝突後「⻘⾊の球と灰⾊の球が離れる」「⻘⾊の球から灰⾊の球が離れる」「灰⾊の球から⻘⾊の球が離れる」⽂章テンプレート例︓衝突する物体(⻘⾊の球・灰⾊の球)5フレーム5フレーム衝突前(5フレーム前)「AとBが近づく」「AがBに近づく」「BがAに近づく」衝突「AとBがぶつかる」「AがBにはじかれる」「BがAにはじかれる」衝突後(5フレーム後)「AとBが離れる」「AからBが離れる」「BからAが離れる」
33実験2︓⾔語⽣成モデルtest学習済みDecoderモデル予測内容を⽰した⽣成⽂pred graph embeddinginput#𝐴!"_ℓDecoderSoftmax w1 w2 wt…w1 w2 wt…Decoder学習モデルtextペアデータtrainLineargraph embedding219,303 ペア 10,965 個
34実験2︓⽣成結果i iiiv vi実画像予測画像「緑⾊の球と⾚⾊の円柱がぶつかる」「緑⾊の球が⾚⾊の円柱にはじかれる」「⾚⾊の円柱が緑⾊の球にはじかれる」正解⽂緑⾊の円柱が⾚⾊の円柱にはじかれる⽣成⽂実画像予測画像「灰⾊の球と⻘⾊の円柱がぶつかる」「灰⾊の球が⻘⾊の円柱にはじかれる」「⻘⾊の円柱が灰⾊の球にはじかれる」灰⾊の球が⻘⾊の⽴⽅体にはじかれる実画像予測画像「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」⽔⾊の⽴⽅体が⻘⾊の球にぶつかる実画像予測画像「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」緑⾊の円柱が茶⾊の⽴⽅体にぶつかる物体の⾊○,形状✕ 物体の⾊○,形状○物体の⾊○,形状✕ 物体の⾊✕,形状✕正解⽂⽣成⽂正解⽂⽣成⽂正解⽂⽣成⽂
35実験2︓範囲viの結果の考察viれる」れる」柱にる」れる」れる」体に実画像予測画像「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」⽔⾊の⽴⽅体が⻘⾊の球にぶつかる予測画像「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」緑⾊の円柱が茶⾊の⽴⽅体にぶつかる物体の⾊○,形状○物体の⾊✕,形状✕正解⽂⽣成⽂⽣成⽂物体の⾊・形状ともに誤った理由20フレーム前 15フレーム前10フレーム前 5フレーム前衝突の25フレーム前衝突「⽔⾊の⽴⽅体」と「⻘⾊の球」がぶつかっていると判定されてしまった可能性
Ex2︓ BLEU 36BLEU@2 BLEU@3 BLEU@4score 79.7 74.5 68.83⽂に対する平均点を取ったため、やや低いスコアになった可能性i iiiv vi実画像予測画像「緑⾊の球と⾚⾊の円柱がぶつかる」「緑⾊の球が⾚⾊の円柱にはじかれる」「⾚⾊の円柱が緑⾊の球にはじかれる」正解⽂緑⾊の円柱が⾚⾊の円柱にはじかれる⽣成⽂実画像「灰⾊の球と⻘⾊の円柱がぶつかる」「灰⾊の球が⻘⾊の円柱にはじかれる」「⻘⾊の円柱が灰⾊の球にはじかれる」実画像「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」実画像予測画像「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」緑⾊の円柱が茶⾊の⽴⽅体にぶつかる物体の⾊○,形状✕ 物体の⾊○,形状○正解⽂ 正解⽂正解⽂⽣成⽂
まとめ• ヒト脳の階層構造を模した予測推論モデルØPredNetの階層構造に変化点mの構造を追加Ø実験結果から、予測内容についても変化点のタイミングを取得可能• 実世界と⾔語を結びつけるために、推論内容を⾔語として表現Ø実世界と結びついた⾔語を⽤いて記号操作をすることで、ヒトの知能を表現Ø実験結果から、推論内容を⾔語⽣成可能今後の課題• 実世界に近いデータの使⽤Øヒトの実環境(実⽣活)に近いデータセット• ⾔語による認識・推論・予測まとめ・課題 37