Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JSAI2024 erikuroda

Eri KURODA
May 31, 2024
57

JSAI2024 erikuroda

JSAI2024, 4O1-OS-16d-04

Eri KURODA

May 31, 2024
Tweet

Transcript

  1. 2 背景・提案 • 認識と予測 Ø 物体の次の動きを予測し、⾏動を決定 Ø やり取りや観察から仕組みや背景を学ぶ → 出来事の重要な点が⼤事

    • ⾔語による理解 Ø 実世界と⾔語を結ぶことでより詳細に理解 Ø 実世界と結びついた⾔語を⽤い、 記号操作をすることでヒトの知能を表現 ヒトの実世界理解・予測 • 動きが⼤きく変わる変化点を予測する機械学習モデル[Kuroda+, 23]の精度向上 • 実世界と⾔語を結びつけるために、推論内容を⾔語で表現 提案 Ø⼊⼒(観測)を画像 →ヒトの視覚に相当 Ø画像特徴量の予測 = 実世界の予測 • 物体の物理法則をもとにした予測が難しい • 物体の「物理特性を理解し、予測する」ことと、 ⾔語が結びついていない 計算機による予測
  2. 3 概要 physical training data ⾔語モデル •グラフ構造の埋め込みベクトル •各物体の速度 •各物体の加速度 •物体間の位置関係

    ⾔語⽣成 緑⾊の円柱が⾚⾊の円柱にはじかれる Green cylinder is repulsed by red cylinder. 物体の⾊ ✔,形状 ✘ ⼊⼒ CLEVRER[Yi+, 19] 予測画像⽣成 • ( PredNet )[Lotter+, 16] • PredRNN [Wang+, 17] • PredRNN v2 [Wang+, 21] • PreCNet [Straka+, 23] 予測モデルのベース 変化点予測 モデル • VTA [Kim+, 19] (Variational Temporal Abstraction)
  3. PredNet [Lotter+, 2016] • ⼤脳⽪質における予測符号化の 処理を模倣 • エラーを階層的に推論 PreCNet [Straka+,

    2023] • PredNetを改良 • ⼊⼒情報全体を毎回推論 PrdNet・PreCNet 4 !ℓ"# !ℓ " # ℓ"# "ℓ"# " # ℓ "ℓ $ℓ"# $ℓ ⊝ ⊝ conv LSTM conv Prediction Target pool conv input Error +,- ReLU subtract !!$ Input Representation ⊝ ⊝ !! ℓ#$ ! " ! ℓ#$ ! " ! ℓ !! ℓ !! upsample convLSTM convLSTM Representation conv conv input "! ℓ#$ +,- ReLU subtract "! ℓ +,- ReLU subtract Pediction Error !!"#$% = # !&'( (% ) *+, !&'( & = #'! ℓ% !+, # (ℓ )ℓ . ℓ+/ #*ℓ !(+) %ℓ $+,
  4. PredRNN [Wang+, 2017] • ConvLSTMを階層にした形の予測モデル • 空間・時間の両⽅にH(隠れ層)が⼊⼒ PredRNN v2 [Wang+,

    2022] • PredRNNを改良した新たな予測モデル • Hを⼊⼒するゲートを増やした PredRNN・PredRNN v2 5 ConvLSTM network [Shi+, 2015] ConvLSTMに時空間記憶の機構追加
  5. 9 ⽬的 変化点予測モデル[Kuroda+, 2023] の精度向上 c 従来のモデル • PredNet [Lotter+,

    2016] • VTA [Kim+, 2019] Ø Variational Temporal Abstraction !!"_ℓ%& !!"_ℓ ⊝ ⊝ "!"_ℓ%& !# Input $ % !"_ℓ%& "!"_ℓ%& $ % !"_ℓ !!"_ℓ !'"_ℓ%& !'"_ℓ ⊝ ⊝ "'"_ℓ%& "'"_ℓ $ % '"_ℓ%& "'"_ℓ%& $ % '"_ℓ !!"_ℓ img Output &'((!" "!"_ℓ &'(('" )( Output !"## > % physical training data Input Error Representation Prediction 時刻t "︓閾値 Difference 物理特性をふまえた グラフ構造の予測 画像の予測 !"## = !"##!" + !"##%" PredNetベースの変化点予測モデル ベースとなる予測モデルの変更 c 本研究 • PredRNN [Wang+, 2017] • PredRNN v2 [Wang+, 2022] • PreCNet [Straka+, 2023] + VTA [Kim+, 2019] Ø Variational Temporal Abstraction 精度 ⾼ 低
  6. 10 PredRNN・PredRNN v2ベースモデル 𝑋!_#$% 𝑋!_&'( 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%& 𝑆𝑇 𝐿𝑆𝑇𝑀!"#

    ℓ%' 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%( 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%) " 𝑋!)*_&'( 𝑀!"#_%&' ℓ)* 𝑀! ℓ)# 𝑀! ℓ)+ 𝑀! ℓ), 𝐻! ℓ)# 𝐻! ℓ)+ 𝐻! ℓ), 𝑀!_%&' ℓ)* 𝑀!_-./ ℓ)* 𝑚! = # 0 ∶ 𝑑𝑖𝑓𝑓! < 𝛼 1 ∶ 𝑑𝑖𝑓𝑓! > 𝛼 image data 𝑑𝑖𝑓𝑓*_!"# physical data 𝑑𝑖𝑓𝑓*_,-. 𝑑𝑖𝑓𝑓# = 𝑑𝑖𝑓𝑓#_%&' + 𝑑𝑖𝑓𝑓#_()* 時刻t 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%' 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%( 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%) " 𝑋!)*_#$% 𝑆𝑇 𝐿𝑆𝑇𝑀!"# ℓ%& 𝑀!"#_-./ ℓ)*
  7. 11 PreCNetベースモデル 𝐸!_%&' ℓ0# 𝐸!_%&' ℓ ⊝ ⊝ 𝑅!_%&' ℓ0#

    - 𝐴!_%&' ℓ0# / 𝐴!_#$% ℓ 𝑅!_%&' ℓ Error Representation Prediction 𝑥!_$%& Input 𝐸!_-./ ℓ0# 𝐸!_-./ ℓ ⊝ ⊝ 𝑅!_-./ ℓ0# / 𝐴!_'() ℓ*+ / 𝐴!_'() ℓ 𝑥!_'() Input 𝑅!"#_%&' ℓ 𝑅!"#_-./ ℓ 𝑅!_-./ ℓ upsample upsample 𝑚! = # 0 ∶ 𝑑𝑖𝑓𝑓! < 𝛼 1 ∶ 𝑑𝑖𝑓𝑓! > 𝛼 𝑑𝑖𝑓𝑓! = 𝑑𝑖𝑓𝑓!_$%& + 𝑑𝑖𝑓𝑓!_'() 時刻t image data physical data 𝑑𝑖𝑓𝑓!_$%& 𝑑𝑖𝑓𝑓!_'() img Output
  8. データセット︓CLEVRER [Yi+,2020] • CLEVRER [Yi+, 2020] ØCoLlision Events for Video

    REpresentation and Reasoning 12 動画 20,000 個 (train:val:test=2:1:1) ビデオの⻑さ 5 秒 フレーム数 128フレーム 形状 ⽴⽅体・球・円柱 素材 メタル・ラバー ⾊ 灰,⾚,⻘,緑,茶,⽔⾊,紫,⻩⾊ イベント 出現,消失,衝突 アノテーション object id, 位置, 速度, 加速度
  9. 結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 13 物体認識 物体の

    位置情報 速度 加速度 物体同⼠の 位置⽅向 グラフ構造 埋め込み ベクトル
  10. 結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 14 物体認識 物体の

    位置情報 速度 加速度 物体同⼠の 位置⽅向 グラフ構造 埋め込み ベクトル
  11. 物体認識 • YOLACT Ø[Bolya+,2019] Øインスタンスセグメンテーション の1種 Ø物体の{形状,⾊,素材} 位置情報 算出 •

    取得したバウンディングボックスの 座標から物体の中⼼座標を算出 データセット 16 (𝑥/ , 𝑦/) (𝑥0 , 𝑦0) 𝑐 = 𝑥, 𝑦 = ( 𝑥/ + 𝑥0 2 , 𝑦/ + 𝑦0 2 ) c 検知前 検知後
  12. 結合 データセット physical training dataset • 環境の物理特性から作成したデータセット 17 物体認識 速度

    加速度 物体同⼠の 位置⽅向 グラフ構造 埋め込み ベクトル 物体の 位置情報
  13. 速度・加速度 データセット physical training dataset 18 velocity acceleration 𝑎#( =

    (𝑣#( − 𝑣#) )/(𝑒𝑡$%&'(×𝑡) 𝑎)( = (𝑣)( − 𝑣)) )/(𝑒𝑡$%&'(×𝑡) ※ 𝑒𝑡12345 = 5/128 フレーム間の経過時間 𝑣#( = (𝑥* − 𝑥*+,)/𝑒𝑡$%&'( 𝑣)( = (𝑦* − 𝑦*+, )/𝑒𝑡$%&'(
  14. 速度・加速度 物体間の位置関係 データセット physical training dataset 19 velocity acceleration 𝑎#(

    = (𝑣#( − 𝑣#) )/(𝑒𝑡$%&'(×𝑡) 𝑎)( = (𝑣)( − 𝑣)) )/(𝑒𝑡$%&'(×𝑡) ※ 𝑒𝑡12345 = 5/128 フレーム間の経過時間 𝑣#( = (𝑥* − 𝑥*+,)/𝑒𝑡$%&'( 𝑣)( = (𝑦* − 𝑦*+, )/𝑒𝑡$%&'( x main object others main object = (𝑥%*$+ , 𝑦%*$+ ) others = (𝑥,!(-. , 𝑦,!(-. ) 𝑥/$00 = 𝑥,!(-. − 𝑥%*$+ 𝑦/$00 = 𝑦,!(-. − 𝑦%*$+ 𝑥/$00 𝑦/$00 + + − − y 1st Quadrant 2nd Quadrant 3rd Quadrant 4th Quadrant 1st Quadrant 2nd Quadrant 4th Quadrant 3rd Quadrant
  15. グラフ構造 • ノード情報 Ø物体の形状,⾊,素材 埋め込みベクトル • node2vec [Grover+, 2016] データセット

    physical training dataset 20 [[0.54, 0.29, 0.61…], [[0.82, 0.91, 0.15…], … [[0.14, 0.35, 0.69…]] 埋め込みベクトル例
  16. 物体の 位置情報 データセット physical training dataset • 環境の物理特性から作成したデータセット 21 物体認識

    グラフ構造 結合 埋め込み ベクトル 速度 加速度 物体同⼠の 位置⽅向 physical training data
  17. 実験1︓予測変化点の抽出 ⽬的 • 物体の予測変化点を正しく抽出できるか 設定 • データセット Ø CLEVRER Ø

    physical training data • 対象範囲︓6パターン(i〜vi)×10フレーム • 衝突・消失・出現など物体の 物理的な変化が起きている状況 • F1スコアで算出 実験概要 23
  18. 24 実験1︓設定 PredRNN・PredRNN v2 ベース PreCNetベース 学習データ数 600,000 600,000 テストデータ数

    80,000 80,000 エポック 500,000 500,000 レイヤー数 4 4 チャンネル数 128 3, 48, 96, 192 カーネルサイズ 5*5 - 損失関数 Adam [Kingma+, 17] Adam [Kingma+, 17] 学習率減衰 0.001 0.0001 𝛼(変化点判定の閾値) 5 5
  19. 実験1︓変化点予測精度 • F1スコアで算出 25 範囲 i ii iii iv v

    vi PredNet -based [Kuroda+, 2023] 40.0 50.0 50.0 40.0 57.1 50.0 PredRNN -based 50.9 54.8 53.1 48.9 60.6 61.7 PredRNN v2-based 51.4 57.5 54.6 50.6 62.7 64.2 PreCNet -based 62.1 64.2 59.2 60.8 68.9 69.8 ベースとなる予測モデルの精度があがるほど、 変化点予測の精度が向上
  20. 実験2︓⾔語⽣成 ⽬的 • 実世界と⾔語を結びつけるために、 推論内容を⾔語として表現 設定 • データセット Øグラフの埋め込みベクトルと⾔語 データのペアデータ

    • 衝突の状況に限定 実験概要 26 実験1︓予測変化点の抽出 ⽬的 • 物体の予測変化点を正しく抽出できるか 設定 • データセット Ø CLEVRER Ø physical training data • 対象範囲︓6パターン(i〜vi)×10フレーム • 衝突・消失・出現など物体の 物理的な変化が起きている状況 • F1スコアで算出
  21. 実験2︓テンプレートの作成 • 9種類のテンプレート Ø3(衝突前・衝突・衝突後)×3(⽂章の種類)=9 種類 • 物体の種類 Ø衝突した 2 つの物体それぞれ

    「{ 灰, ⾚, ⻘, 緑, 茶, ⽔, 紫, ⻩ } ⾊の { 球, 円柱, ⽴⽅体 }」 27 「⻘⾊の球と灰⾊の球がぶつかる」 「⻘⾊の球が灰⾊の球にはじかれる」 「灰⾊の球が⻘⾊の球にはじかれる」 衝突 衝突前 「⻘⾊の球と灰⾊の球が近づく」 「⻘⾊の球が灰⾊の球に近づく」 「灰⾊の球が⻘⾊の球に近づく」 衝突後 「⻘⾊の球と灰⾊の球が離れる」 「⻘⾊の球から灰⾊の球が離れる」 「灰⾊の球から⻘⾊の球が離れる」 ⽂章テンプレート例︓衝突する物体(⻘⾊の球・灰⾊の球) 5フレーム 5フレーム 衝突前(5フレーム前) 「AとBが近づく」 「AがBに近づく」 「BがAに近づく」 衝突 「AとBがぶつかる」 「AがBにはじかれる」 「BがAにはじかれる」 衝突後(5フレーム後) 「AとBが離れる」 「AからBが離れる」 「BからAが離れる」
  22. 28 実験2︓⾔語⽣成モデル test 学習済み Decoderモデル 予測内容を ⽰した⽣成⽂ pred graph embedding

    input Decoder Softmax <bos> w1 w2 wt <eos> … w1 w2 wt … Transformer Decoder学習モデル text ペアデータ train Linear graph embedding 219,303 ペア 10,965 個
  23. 30 実験2︓⾔語⽣成 結果1 Range i ⾊ 形 正解⽂ 「緑⾊の球と⾚⾊の円柱がぶつかる」 “Green

    sphere and red cylinder collide.” 「緑⾊の球が⾚⾊の円柱にはじかれる」 “Green sphere is repulsed by red cylinder.” 「⾚⾊の円柱が緑⾊の球にはじかれる」 “Red cylinder is repulsed by green sphere.” PredNet -based [Kuroda+, 2023] 「緑⾊の円柱が⾚⾊の円柱にはじかれる」 “Green cylinder is repulsed by red cylinder.” ✔ ✘ PredRNN -based 「緑⾊の円柱と⾚⾊の円柱がぶつかる」 “Green cylinder and red cylinder collide.” ✔ ✘ PredRNN v2-based 「緑⾊の球が⾚⾊の円柱にはじかれる」 “Red cylinder is repulsed by green sphere.” ✔ ✔ PreCNet -based 「緑⾊の球が⾚⾊の円柱にはじかれる」 “Red cylinder is repulsed by green sphere.” ✔ ✔
  24. 31 実験2︓⾔語⽣成 結果2 Range vi ⾊ 形 正解⽂ 「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」 “Cyan

    cube and cyan cylinder collide.” 「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」 “Cyan cube is repulsed by cyan cylinder. ” 「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」 “Cyan cylinder is repulsed by cyan cube. ” PredNet -based [Kuroda+, 2023] ⽔⾊の⽴⽅体が⻘⾊の球にぶつかる “Cyan cube is repulsed by blue sphere. ” ✘ ✘ PredRNN -based ⽔⾊の⽴⽅体が⻘⾊の球にぶつかる “Cyan cube is repulsed by blue sphere. ” ✘ ✘ PredRNN v2-based ⽔⾊の⽴⽅体が⽔⾊の球にぶつかる “Cyan cube is repulsed by cyan sphere. ” ✔ ✘ PreCNet -based ⽔⾊の⽴⽅体が⽔⾊の円柱にぶつかる “Cyan cube is repulsed by cyan cylinder. ” ✔ ✔
  25. 実験2︓精度⽐較 32 ベースモデル スコア BLEU@2 BLEU@3 BLEU@4 METEOR CIDEr PredNet

    -based 英 80.3 63.0 56.3 68.8 72.9 ⽇ 79.7 74.5 68.8 70.2 72.4 PredRNN -based 英 84.3 66.8 59.1 72.6 74.6 ⽇ 82.5 76.1 73.4 73.5 75.1 PredRNN v2- based 英 86.2 72.4 62.7 75.9 78.3 ⽇ 85.9 78.9 75.7 77.6 78.2 PreCNet -based 英 90.6 77.1 67.9 78.1 80.3 ⽇ 88.3 80.6 79.2 80.4 81.2 ベースとなる予測モデルの精度があがるほど、 ⾔語⽣成の精度もあがる
  26. 考察 • 変化点予測モデルの精度 → Physical training dataの作り⽅・ベースとなる予測モデル の2つが影響 • ベースとなる予測モデルそのものの予測精度

    → 変化点予測モデル、⾔語⽣成の精度に影響 • さらなる精度向上の可能性 → Physical training data(物体認識など) 33
  27. まとめ • 物体の衝突のタイミングを予測する 変化点予測モデルの構築し、精度⽐較 Ø物体の将来の動きにおける、 次ステップの衝突のタイミングを抽出 • 実世界と⾔語を結びつけるために、 推論内容を⾔語として表現 Ø実世界と結びついた⾔語を⽤いて記号操作

    をすることで、ヒトの知能を表現 Ø実験結果から、推論内容を⾔語⽣成可能 今後の課題 • データセットの作り⽅の再検討 Ø物体の位置の取り⽅ ØGPT-4などの利⽤ • 実世界に近いデータの使⽤ Øヒトの実環境(実⽣活)に近い データセット まとめ・課題 34