Upgrade to Pro — share decks privately, control downloads, hide ads and more …

jsai2023 erikuroda

jsai2023 erikuroda

Presentation materials for JSAI2023.

Eri KURODA

June 03, 2023
Tweet

More Decks by Eri KURODA

Other Decks in Research

Transcript

  1. 2

  2. 3

  3. 4

  4. 1 5

  5. 2 6

  6. 8 どこから判断しているか 距離を⾒積もる 速度(速さ) • ⾃分がどれくらいの速さで歩く/ ⾛れるか • ⾞が曲がるのか/曲がらないのか •

    急激に加速してこないかどうか ⾃分が事故にあうか/あわないか これまでの経験や常識から判断
  7. 9 背景・⽬的 • 認識と予測 Ø 物体が次に起こることを予測し、⾏動を決定 Ø やり取りや観察から仕組みや背景を学ぶ → 出来事の重要な点が⼤事

    → 常識の基本 • ⾔語による理解 Ø 実世界と⾔語を結ぶことでより詳細に理解 Ø 実世界と結びついた⾔語を⽤い、 記号操作をすることでヒトの知能を表現 ヒトの実世界認識 しかし • 実世界認識予測を対象にした機械学習 Ø ⼊⼒(観測)を画像 → ヒトの視覚に相当 Ø 画像特徴量の予測を実世界の予測とみなしている • ヒトのように物体の物理特性や、物理法則をもとに した予測をしていない • 実世界における物体を「認識し、物理特性を理解し、 予測する」ことが⾔語と結びついていない • 実環境の物体の物理法則をもとに、物理的な変化点取得と予測ができる予測推論モデルを提案 • 実世界と⾔語を結びつけるために、推論内容を⾔語として表現 ⽬的
  8. 10 概要 CLEVRER 次ステップの変化 点のタイミングを 正しく⽰せるか 提案モデル グラフ構造 物理特性の集合を表現 PredNet

    VTA, graph VTA 画像 視覚から実世界を⾒たとき 推論内容を⾔語 として⽣成 実験1 実験2 物体検出 速度・加速度 画像特徴量など
  9. 11 PredNet [Lotter+, 2016] • 深層学習を⽤いた、動画像から次の画像を予測する研究 • ⼤脳⽪質における予測符号化の 処理を模倣 •

    脳内の情報処理機構を表現 実画像 予測画像 時刻t → 予測符号化 • 予測値と観測値の誤差を算出 • 誤差をボトムアップに伝達 • 誤差を最⼩化する予測値を出⼒ • 予測値をトップダウンに伝達 以上を繰り返す仕組み
  10. 15 提案モデル 𝐸!"_ℓ%& 𝐸!"_ℓ ⊝ ⊝ 𝑅!"_ℓ%& 𝑥" Input #

    𝐴!"_ℓ%& 𝐴!"_ℓ%& # 𝐴!"_ℓ 𝐴!"_ℓ 𝐸'"_ℓ%& 𝐸'"_ℓ ⊝ ⊝ 𝑅'"_ℓ%& 𝑅'"_ℓ # 𝐴'"_ℓ%& 𝐴'"_ℓ%& # 𝐴'"_ℓ 𝐴!"_ℓ img Output 𝑑𝑖𝑓𝑓 !" 𝑅!"_ℓ 𝑑𝑖𝑓𝑓'" 𝑚( Output 𝑑𝑖𝑓𝑓 > 𝛼 physical training data Input Error Representation Prediction 時刻t 𝛼︓閾値 Difference 物理特性をふまえた グラフ構造の予測 画像の予測 𝑑𝑖𝑓𝑓 = 𝑑𝑖𝑓𝑓!" + 𝑑𝑖𝑓𝑓%"
  11. データセット︓CLEVRER [Yi+,2020] • CLEVRER [Yi+, 2020] ØCoLlision Events for Video

    REpresentation and Reasoning 16 動画数 20,000 個 (train:val:test=2:1:1) ビデオの⻑さ 5 秒 フレーム数 128フレーム 形状 ⽴⽅体・球・円柱 素材 メタル・ラバー ⾊ 灰,⾚,⻘,緑,茶,⽔⾊,紫,⻩⾊ イベント 出現,消失,衝突 アノテーション object id, 位置, 速度, 加速度
  12. 結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 17 物体認識 物体の

    位置情報 速度 加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル
  13. 結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 18 物体認識 物体の

    位置情報 速度 加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル
  14. 物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーション の1種 Ø物体の{形状,⾊,素材} 位置情報 算出 •

    取得したバウンディングボックスの 座標から物体の中⼼座標を算出 データセット 20 (𝑥& , 𝑦&) (𝑥' , 𝑦') 𝑐 = 𝑥, 𝑦 = ( 𝑥& + 𝑥' 2 , 𝑦& + 𝑦' 2 ) c 検知前 検知後
  15. 結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 21 物体認識 速度

    加速度 物体同⼠の 位置⽅向のフラグ グラフ構造 埋め込み ベクトル 物体の 位置情報
  16. 速度・加速度 データセット physical training dataset 22 velocity acceleration 𝑎!" =

    (𝑣!" − 𝑣!# )/(𝑒𝑡"#$%&×𝑡) 𝑎'" = (𝑣'" − 𝑣'# )/(𝑒𝑡"#$%&×𝑡) ※ 𝑒𝑡()*+, = 5/128 フレーム間の経過時間 𝑣!" = (𝑥( − 𝑥()*)/𝑒𝑡"#$%& 𝑣'" = (𝑦( − 𝑦()* )/𝑒𝑡"#$%&
  17. 速度・加速度 物体間の位置関係のフラグ データセット physical training dataset 23 velocity acceleration 𝑎!"

    = (𝑣!" − 𝑣!# )/(𝑒𝑡"#$%&×𝑡) 𝑎'" = (𝑣'" − 𝑣'# )/(𝑒𝑡"#$%&×𝑡) ※ 𝑒𝑡()*+, = 5/128 フレーム間の経過時間 𝑣!" = (𝑥( − 𝑥()*)/𝑒𝑡"#$%& 𝑣'" = (𝑦( − 𝑦()* )/𝑒𝑡"#$%& x flag “5” flag “-5” flag “-1” main object others main object = (𝑥&'%( , 𝑦&'%( ) others = (𝑥)"*+, , 𝑦)"*+, ) 𝑥-%.. = 𝑥)"*+, − 𝑥&'%( 𝑦-%.. = 𝑦)"*+, − 𝑦&'%( 𝑥-%.. 𝑦-%.. + + − − flag “5” flag “1” flag “-1” flag “-5” y flag “1”
  18. グラフ構造 • ノード情報 Ø物体の形状,⾊,素材 埋め込みベクトル • node2vec [Grover+, 2016] データセット

    physical training dataset 24 [[0.54, 0.29, 0.61…], [[0.82, 0.91, 0.15…], … [[0.14, 0.35, 0.69…]] 埋め込みベクトル例
  19. 物体の 位置情報 データセット physical training dataset • 環境の物理特性から作成したデータセット 25 物体認識

    グラフ構造 結合 埋め込み ベクトル 速度 加速度 物体同⼠の 位置⽅向のフラグ physical training data
  20. 実験1︓予測変化点の抽出 ⽬的 • イベントの予測変化点を正しく 抽出できるか 設定 • データセット Ø CLEVRER

    Ø physical training data • 対象範囲︓6パターン×10フレーム • 衝突・消失・出現など物体の 物理的な変化が起きている状況 実験概要 27
  21. 実験1︓精度算出⽅法 • アノテーションの衝突情報とフラグの⽴つタイミングの精度(%)を調査 例 • collision→19 frame,⽬で⾒ると → 21 frame

    • 正解 19〜21 frame と設定 • フラグ︓18,19,20,22 → 精度︓2/4×100=50 (%) 28 19 フレーム⽬ 20 フレーム⽬ 21 フレーム⽬
  22. 29 実験1︓結果 i ii iii iv v vi Physical data

    33.3 50 50 33.3 66.7 50 アノテー ション 66.7 50 66.7 40 50 50 精度 実画像 予測画像 t=1 t=12 m=1 m=0 m=0 m=1 m=1 m=0 m=1 m=1 衝突 精度︓2/6*100=33.3% 範囲iの結果 m=0 m=1
  23. 30 実験1︓結果 i ii iii iv v vi Physical data

    33.3 50 50 33.3 66.7 50 アノテー ション 66.7 50 66.7 40 50 50 精度 実画像 予測画像 t=1 t=12 m=1 m=0 m=0 m=1 m=1 m=0 m=1 m=1 衝突 精度︓2/6*100=33.3% 範囲iの結果 m=0 m=1 physical training dataでの精度 アノテーションデータの精度と同等の精度で予測
  24. 実験1︓予測変化点の抽出 ⽬的 • 予測画像の変化点を正しく抽出 できるか 設定 • データセット ØCLEVRER Øphysical

    training data • 対象範囲︓6パターン×10フレーム • 衝突・消失・出現など物体の 物理的な変化が起きている状況 実験2︓⾔語⽣成 ⽬的 • 実世界と⾔語を結びつけるために、 推論内容を⾔語として表現 設定 • データセット Øグラフの埋め込みベクトルと⾔語 データのペアデータ • 衝突の状況に限定 実験概要 31
  25. 実験2︓テンプレートの作成 • 9種類のテンプレート Ø3(衝突前・衝突・衝突後)×3(⽂章の種類)=9 種類 • 物体の種類 Ø衝突した 2 つの物体それぞれ

    「{ 灰, ⾚, ⻘, 緑, 茶, ⽔, 紫, ⻩ } ⾊の { 球, 円柱, ⽴⽅体 }」 32 「⻘⾊の球と灰⾊の球がぶつかる」 「⻘⾊の球が灰⾊の球にはじかれる」 「灰⾊の球が⻘⾊の球にはじかれる」 衝突 衝突前 「⻘⾊の球と灰⾊の球が近づく」 「⻘⾊の球が灰⾊の球に近づく」 「灰⾊の球が⻘⾊の球に近づく」 衝突後 「⻘⾊の球と灰⾊の球が離れる」 「⻘⾊の球から灰⾊の球が離れる」 「灰⾊の球から⻘⾊の球が離れる」 ⽂章テンプレート例︓衝突する物体(⻘⾊の球・灰⾊の球) 5フレーム 5フレーム 衝突前(5フレーム前) 「AとBが近づく」 「AがBに近づく」 「BがAに近づく」 衝突 「AとBがぶつかる」 「AがBにはじかれる」 「BがAにはじかれる」 衝突後(5フレーム後) 「AとBが離れる」 「AからBが離れる」 「BからAが離れる」
  26. 33 実験2︓⾔語⽣成モデル test 学習済み Decoderモデル 予測内容を ⽰した⽣成⽂ pred graph embedding

    input # 𝐴!"_ℓ Decoder Softmax <bos> w1 w2 wt <eos> … w1 w2 wt … Decoder学習モデル text ペアデータ train Linear graph embedding 219,303 ペア 10,965 個
  27. 34 実験2︓⽣成結果 i ii iv vi 実画像 予測画像 「緑⾊の球と⾚⾊の円柱がぶつかる」 「緑⾊の球が⾚⾊の円柱にはじかれる」

    「⾚⾊の円柱が緑⾊の球にはじかれる」 正解⽂ 緑⾊の円柱が⾚⾊の円柱に はじかれる ⽣成⽂ 実画像 予測画像 「灰⾊の球と⻘⾊の円柱がぶつかる」 「灰⾊の球が⻘⾊の円柱にはじかれる」 「⻘⾊の円柱が灰⾊の球にはじかれる」 灰⾊の球が⻘⾊の⽴⽅体に はじかれる 実画像 予測画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 ⽔⾊の⽴⽅体が⻘⾊の球に ぶつかる 実画像 予測画像 「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状✕ 物体の⾊◦,形状◦ 物体の⾊◦,形状✕ 物体の⾊✕,形状✕ 正解⽂ ⽣成⽂ 正解⽂ ⽣成⽂ 正解⽂ ⽣成⽂
  28. 35 実験2︓範囲viの結果の考察 vi れる」 れる」 柱に る」 れる」 れる」 体に

    実画像 予測画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 ⽔⾊の⽴⽅体が⻘⾊の球に ぶつかる 予測画像 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状◦ 物体の⾊✕,形状✕ 正解⽂ ⽣成⽂ ⽣成⽂ 物体の⾊・形状ともに誤った理由 20フレーム前 15フレーム前 10フレーム前 5フレーム前 衝突の25フレーム前 衝突 「⽔⾊の⽴⽅体」と「⻘⾊の球」 がぶつかっていると判定されて しまった可能性
  29. Ex2︓ BLEU 36 BLEU@2 BLEU@3 BLEU@4 score 79.7 74.5 68.8

    3⽂に対する平均点を取ったため、 やや低いスコアになった可能性 i ii iv vi 実画像 予測画像 「緑⾊の球と⾚⾊の円柱がぶつかる」 「緑⾊の球が⾚⾊の円柱にはじかれる」 「⾚⾊の円柱が緑⾊の球にはじかれる」 正解⽂ 緑⾊の円柱が⾚⾊の円柱に はじかれる ⽣成⽂ 実画像 「灰⾊の球と⻘⾊の円柱がぶつかる」 「灰⾊の球が⻘⾊の円柱にはじかれる」 「⻘⾊の円柱が灰⾊の球にはじかれる」 実画像 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 実画像 予測画像 「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」 「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」 「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」 緑⾊の円柱が茶⾊の⽴⽅体に ぶつかる 物体の⾊◦,形状✕ 物体の⾊◦,形状◦ 正解⽂ 正解⽂ 正解⽂ ⽣成⽂
  30. まとめ • ヒト脳の階層構造を模した予測推論モデル ØPredNetの階層構造に変化点mの構造を追加 Ø実験結果から、予測内容についても変化点の タイミングを取得可能 • 実世界と⾔語を結びつけるために、 推論内容を⾔語として表現 Ø実世界と結びついた⾔語を⽤いて記号操作を

    することで、ヒトの知能を表現 Ø実験結果から、推論内容を⾔語⽣成可能 今後の課題 • 実世界に近いデータの使⽤ Øヒトの実環境(実⽣活)に近い データセット • ⾔語による認識・推論・予測 まとめ・課題 37