$30 off During Our Annual Pro Sale. View Details »

jsai2023 erikuroda

jsai2023 erikuroda

Presentation materials for JSAI2023.

Eri KURODA

June 03, 2023
Tweet

More Decks by Eri KURODA

Other Decks in Research

Transcript

  1. 予測符号化を模した
    物理環境の予測推論モデル
    ○ ⿊⽥ 彗莉1, 2・⼩林⼀郎 1
    1︓お茶の⽔⼥⼦⼤学
    2︓⽇本学術振興会
    37 Pages
    1G4-OS-21a-05
    JSAI2023

    View Slide

  2. 2

    View Slide

  3. 3

    View Slide

  4. 4

    View Slide

  5. 1 5

    View Slide

  6. 2 6

    View Slide

  7. 7
    1 2
    ⾞が来る前に急いで渡る ⾞が通り過ぎてから渡る

    View Slide

  8. 8
    どこから判断しているか
    距離を⾒積もる
    速度(速さ)
    • ⾃分がどれくらいの速さで歩く/
    ⾛れるか
    • ⾞が曲がるのか/曲がらないのか
    • 急激に加速してこないかどうか
    ⾃分が事故にあうか/あわないか
    これまでの経験や常識から判断

    View Slide

  9. 9
    背景・⽬的
    • 認識と予測
    Ø 物体が次に起こることを予測し、⾏動を決定
    Ø やり取りや観察から仕組みや背景を学ぶ
    → 出来事の重要な点が⼤事 → 常識の基本
    • ⾔語による理解
    Ø 実世界と⾔語を結ぶことでより詳細に理解
    Ø 実世界と結びついた⾔語を⽤い、
    記号操作をすることでヒトの知能を表現
    ヒトの実世界認識 しかし
    • 実世界認識予測を対象にした機械学習
    Ø ⼊⼒(観測)を画像 → ヒトの視覚に相当
    Ø 画像特徴量の予測を実世界の予測とみなしている
    • ヒトのように物体の物理特性や、物理法則をもとに
    した予測をしていない
    • 実世界における物体を「認識し、物理特性を理解し、
    予測する」ことが⾔語と結びついていない
    • 実環境の物体の物理法則をもとに、物理的な変化点取得と予測ができる予測推論モデルを提案
    • 実世界と⾔語を結びつけるために、推論内容を⾔語として表現
    ⽬的

    View Slide

  10. 10
    概要
    CLEVRER
    次ステップの変化
    点のタイミングを
    正しく⽰せるか
    提案モデル
    グラフ構造
    物理特性の集合を表現
    PredNet
    VTA, graph VTA
    画像
    視覚から実世界を⾒たとき
    推論内容を⾔語
    として⽣成
    実験1
    実験2
    物体検出
    速度・加速度
    画像特徴量など

    View Slide

  11. 11
    PredNet [Lotter+, 2016]
    • 深層学習を⽤いた、動画像から次の画像を予測する研究
    • ⼤脳⽪質における予測符号化の
    処理を模倣
    • 脳内の情報処理機構を表現
    実画像
    予測画像
    時刻t →
    予測符号化
    • 予測値と観測値の誤差を算出
    • 誤差をボトムアップに伝達
    • 誤差を最⼩化する予測値を出⼒
    • 予測値をトップダウンに伝達
    以上を繰り返す仕組み

    View Slide

  12. 12
    Variational Temporal Abstraction [Kim+, 19]
    ⻘い道を歩いたとき
    ⾚い道を歩いたとき
    全イベント
    ⼤事な箇所
    (変化点)
    全イベント
    ⼤事な箇所
    (変化点)

    View Slide

  13. 13
    Variational Temporal Abstraction [Kim+, 19]
    𝑍 を遷移させるタイミングを決めるのが難しい
    問題点
    ヒト︓易 ↔ モデル︓難
    観測(⼊⼒)
    観測抽象度
    時間的抽象度

    View Slide

  14. 14
    Variational Temporal Abstraction [Kim+, 19]
    それまでの観測と⽐較して,
    潜在状態の変化の⼤きさで𝑚のフラグ (0 or 1)を決定
    フラグの導⼊

    View Slide

  15. 15
    提案モデル
    𝐸!"_ℓ%&
    𝐸!"_ℓ


    𝑅!"_ℓ%&
    𝑥"
    Input
    #
    𝐴!"_ℓ%&
    𝐴!"_ℓ%&
    #
    𝐴!"_ℓ
    𝐴!"_ℓ
    𝐸'"_ℓ%&
    𝐸'"_ℓ


    𝑅'"_ℓ%&
    𝑅'"_ℓ
    #
    𝐴'"_ℓ%&
    𝐴'"_ℓ%&
    #
    𝐴'"_ℓ
    𝐴!"_ℓ
    img
    Output
    𝑑𝑖𝑓𝑓
    !"
    𝑅!"_ℓ
    𝑑𝑖𝑓𝑓'"
    𝑚(
    Output
    𝑑𝑖𝑓𝑓 > 𝛼
    physical
    training
    data
    Input
    Error
    Representation
    Prediction
    時刻t
    𝛼︓閾値
    Difference
    物理特性をふまえた
    グラフ構造の予測
    画像の予測
    𝑑𝑖𝑓𝑓 = 𝑑𝑖𝑓𝑓!"
    + 𝑑𝑖𝑓𝑓%"

    View Slide

  16. データセット︓CLEVRER [Yi+,2020]
    • CLEVRER [Yi+, 2020]
    ØCoLlision Events for Video REpresentation and Reasoning
    16
    動画数 20,000 個 (train:val:test=2:1:1)
    ビデオの⻑さ 5 秒
    フレーム数 128フレーム
    形状 ⽴⽅体・球・円柱
    素材 メタル・ラバー
    ⾊ 灰,⾚,⻘,緑,茶,⽔⾊,紫,⻩⾊
    イベント 出現,消失,衝突
    アノテーション object id, 位置, 速度, 加速度

    View Slide

  17. 結合
    データセット physical training dataset
    • 環境の物理特性から作成したデータセット
    17
    物体認識
    物体の
    位置情報
    速度
    加速度
    物体同⼠の
    位置⽅向のフラグ
    グラフ構造
    埋め込み
    ベクトル

    View Slide

  18. 結合
    データセット physical training dataset
    • 環境の物理特性から作成したデータセット
    18
    物体認識
    物体の
    位置情報
    速度
    加速度
    物体同⼠の
    位置⽅向のフラグ
    グラフ構造
    埋め込み
    ベクトル

    View Slide

  19. 物体認識
    • YOLACT
    Ø[Bolya+,2019]
    Øインスタンスセグメンテーション
    の1種
    Ø物体の{形状,⾊,素材}
    データセット 19
    検知前
    検知後

    View Slide

  20. 物体認識
    • YOLACT
    Ø[Bolya+,2019]
    Øインスタンスセグメンテーション
    の1種
    Ø物体の{形状,⾊,素材}
    位置情報 算出
    • 取得したバウンディングボックスの
    座標から物体の中⼼座標を算出
    データセット 20
    (𝑥&
    , 𝑦&)
    (𝑥'
    , 𝑦')
    𝑐 = 𝑥, 𝑦 = (
    𝑥& + 𝑥'
    2
    ,
    𝑦& + 𝑦'
    2
    )
    c
    検知前
    検知後

    View Slide

  21. 結合
    データセット physical training dataset
    • 環境の物理特性から作成したデータセット
    21
    物体認識
    速度
    加速度
    物体同⼠の
    位置⽅向のフラグ
    グラフ構造
    埋め込み
    ベクトル
    物体の
    位置情報

    View Slide

  22. 速度・加速度
    データセット physical training dataset 22
    velocity
    acceleration
    𝑎!"
    = (𝑣!"
    − 𝑣!#
    )/(𝑒𝑡"#$%&×𝑡)
    𝑎'"
    = (𝑣'"
    − 𝑣'#
    )/(𝑒𝑡"#$%&×𝑡)
    ※ 𝑒𝑡()*+, = 5/128
    フレーム間の経過時間
    𝑣!"
    = (𝑥( − 𝑥()*)/𝑒𝑡"#$%&
    𝑣'"
    = (𝑦(
    − 𝑦()*
    )/𝑒𝑡"#$%&

    View Slide

  23. 速度・加速度 物体間の位置関係のフラグ
    データセット physical training dataset 23
    velocity
    acceleration
    𝑎!"
    = (𝑣!"
    − 𝑣!#
    )/(𝑒𝑡"#$%&×𝑡)
    𝑎'"
    = (𝑣'"
    − 𝑣'#
    )/(𝑒𝑡"#$%&×𝑡)
    ※ 𝑒𝑡()*+, = 5/128
    フレーム間の経過時間
    𝑣!"
    = (𝑥( − 𝑥()*)/𝑒𝑡"#$%&
    𝑣'"
    = (𝑦(
    − 𝑦()*
    )/𝑒𝑡"#$%& x
    flag “5”
    flag “-5”
    flag “-1”
    main object others
    main object = (𝑥&'%(
    , 𝑦&'%(
    )
    others = (𝑥)"*+,
    , 𝑦)"*+,
    )
    𝑥-%..
    = 𝑥)"*+,
    − 𝑥&'%(
    𝑦-%..
    = 𝑦)"*+,
    − 𝑦&'%(
    𝑥-%..
    𝑦-%..
    +
    +


    flag “5” flag “1”
    flag “-1”
    flag “-5”
    y
    flag “1”

    View Slide

  24. グラフ構造
    • ノード情報
    Ø物体の形状,⾊,素材
    埋め込みベクトル
    • node2vec [Grover+, 2016]
    データセット physical training dataset 24
    [[0.54, 0.29, 0.61…],
    [[0.82, 0.91, 0.15…],

    [[0.14, 0.35, 0.69…]]
    埋め込みベクトル例

    View Slide

  25. 物体の
    位置情報
    データセット physical training dataset
    • 環境の物理特性から作成したデータセット
    25
    物体認識
    グラフ構造
    結合
    埋め込み
    ベクトル
    速度
    加速度
    物体同⼠の
    位置⽅向のフラグ
    physical
    training data

    View Slide

  26. 実験1︓予測変化点の抽出 実験2︓⾔語⽣成
    実験概要 26

    View Slide

  27. 実験1︓予測変化点の抽出
    ⽬的
    • イベントの予測変化点を正しく
    抽出できるか
    設定
    • データセット
    Ø CLEVRER
    Ø physical training data
    • 対象範囲︓6パターン×10フレーム
    • 衝突・消失・出現など物体の
    物理的な変化が起きている状況
    実験概要 27

    View Slide

  28. 実験1︓精度算出⽅法
    • アノテーションの衝突情報とフラグの⽴つタイミングの精度(%)を調査

    • collision→19 frame,⽬で⾒ると → 21 frame
    • 正解 19〜21 frame と設定
    • フラグ︓18,19,20,22 → 精度︓2/4×100=50 (%)
    28
    19 フレーム⽬ 20 フレーム⽬ 21 フレーム⽬

    View Slide

  29. 29
    実験1︓結果
    i ii iii iv v vi
    Physical data 33.3 50 50 33.3 66.7 50
    アノテー
    ション
    66.7 50 66.7 40 50 50
    精度
    実画像
    予測画像
    t=1 t=12
    m=1 m=0 m=0
    m=1 m=1 m=0 m=1 m=1
    衝突 精度︓2/6*100=33.3%
    範囲iの結果
    m=0 m=1

    View Slide

  30. 30
    実験1︓結果
    i ii iii iv v vi
    Physical data 33.3 50 50 33.3 66.7 50
    アノテー
    ション
    66.7 50 66.7 40 50 50
    精度
    実画像
    予測画像
    t=1 t=12
    m=1 m=0 m=0
    m=1 m=1 m=0 m=1 m=1
    衝突 精度︓2/6*100=33.3%
    範囲iの結果
    m=0 m=1
    physical training dataでの精度
    アノテーションデータの精度と同等の精度で予測

    View Slide

  31. 実験1︓予測変化点の抽出
    ⽬的
    • 予測画像の変化点を正しく抽出
    できるか
    設定
    • データセット
    ØCLEVRER
    Øphysical training data
    • 対象範囲︓6パターン×10フレーム
    • 衝突・消失・出現など物体の
    物理的な変化が起きている状況
    実験2︓⾔語⽣成
    ⽬的
    • 実世界と⾔語を結びつけるために、
    推論内容を⾔語として表現
    設定
    • データセット
    Øグラフの埋め込みベクトルと⾔語
    データのペアデータ
    • 衝突の状況に限定
    実験概要 31

    View Slide

  32. 実験2︓テンプレートの作成
    • 9種類のテンプレート
    Ø3(衝突前・衝突・衝突後)×3(⽂章の種類)=9 種類
    • 物体の種類
    Ø衝突した 2 つの物体それぞれ
    「{ 灰, ⾚, ⻘, 緑, 茶, ⽔, 紫, ⻩ } ⾊の { 球, 円柱, ⽴⽅体 }」
    32
    「⻘⾊の球と灰⾊の球がぶつかる」
    「⻘⾊の球が灰⾊の球にはじかれる」
    「灰⾊の球が⻘⾊の球にはじかれる」
    衝突
    衝突前
    「⻘⾊の球と灰⾊の球が近づく」
    「⻘⾊の球が灰⾊の球に近づく」
    「灰⾊の球が⻘⾊の球に近づく」
    衝突後
    「⻘⾊の球と灰⾊の球が離れる」
    「⻘⾊の球から灰⾊の球が離れる」
    「灰⾊の球から⻘⾊の球が離れる」
    ⽂章テンプレート例︓衝突する物体(⻘⾊の球・灰⾊の球)
    5フレーム
    5フレーム
    衝突前(5フレーム前)
    「AとBが近づく」
    「AがBに近づく」
    「BがAに近づく」
    衝突
    「AとBがぶつかる」
    「AがBにはじかれる」
    「BがAにはじかれる」
    衝突後(5フレーム後)
    「AとBが離れる」
    「AからBが離れる」
    「BからAが離れる」

    View Slide

  33. 33
    実験2︓⾔語⽣成モデル
    test
    学習済み
    Decoderモデル
    予測内容を
    ⽰した⽣成⽂
    pred graph embedding
    input
    #
    𝐴!"_ℓ
    Decoder
    Softmax
    w1 w2 wt


    w1 w2 wt

    Decoder学習モデル
    text
    ペアデータ
    train
    Linear
    graph embedding
    219,303 ペア 10,965 個

    View Slide

  34. 34
    実験2︓⽣成結果
    i ii
    iv vi
    実画像
    予測画像
    「緑⾊の球と⾚⾊の円柱がぶつかる」
    「緑⾊の球が⾚⾊の円柱にはじかれる」
    「⾚⾊の円柱が緑⾊の球にはじかれる」
    正解⽂
    緑⾊の円柱が⾚⾊の円柱に
    はじかれる
    ⽣成⽂
    実画像
    予測画像
    「灰⾊の球と⻘⾊の円柱がぶつかる」
    「灰⾊の球が⻘⾊の円柱にはじかれる」
    「⻘⾊の円柱が灰⾊の球にはじかれる」
    灰⾊の球が⻘⾊の⽴⽅体に
    はじかれる
    実画像
    予測画像
    「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」
    「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」
    「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」
    ⽔⾊の⽴⽅体が⻘⾊の球に
    ぶつかる
    実画像
    予測画像
    「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」
    「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」
    「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」
    緑⾊の円柱が茶⾊の⽴⽅体に
    ぶつかる
    物体の⾊○,形状✕ 物体の⾊○,形状○
    物体の⾊○,形状✕ 物体の⾊✕,形状✕
    正解⽂
    ⽣成⽂
    正解⽂
    ⽣成⽂
    正解⽂
    ⽣成⽂

    View Slide

  35. 35
    実験2︓範囲viの結果の考察
    vi
    れる」
    れる」
    柱に
    る」
    れる」
    れる」
    体に
    実画像
    予測画像
    「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」
    「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」
    「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」
    ⽔⾊の⽴⽅体が⻘⾊の球に
    ぶつかる
    予測画像
    「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」
    「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」
    緑⾊の円柱が茶⾊の⽴⽅体に
    ぶつかる
    物体の⾊○,形状○
    物体の⾊✕,形状✕
    正解⽂
    ⽣成⽂
    ⽣成⽂
    物体の⾊・形状ともに誤った理由
    20フレーム前 15フレーム前
    10フレーム前 5フレーム前
    衝突の25フレーム前
    衝突
    「⽔⾊の⽴⽅体」と「⻘⾊の球」
    がぶつかっていると判定されて
    しまった可能性

    View Slide

  36. Ex2︓ BLEU 36
    BLEU@2 BLEU@3 BLEU@4
    score 79.7 74.5 68.8
    3⽂に対する平均点を取ったため、
    やや低いスコアになった可能性
    i ii
    iv vi
    実画像
    予測画像
    「緑⾊の球と⾚⾊の円柱がぶつかる」
    「緑⾊の球が⾚⾊の円柱にはじかれる」
    「⾚⾊の円柱が緑⾊の球にはじかれる」
    正解⽂
    緑⾊の円柱が⾚⾊の円柱に
    はじかれる
    ⽣成⽂
    実画像
    「灰⾊の球と⻘⾊の円柱がぶつかる」
    「灰⾊の球が⻘⾊の円柱にはじかれる」
    「⻘⾊の円柱が灰⾊の球にはじかれる」
    実画像
    「⽔⾊の⽴⽅体と⽔⾊の円柱がぶつかる」
    「⽔⾊の⽴⽅体が⽔⾊の円柱にはじかれる」
    「⽔⾊の円柱が⽔⾊の⽴⽅体にはじかれる」
    実画像
    予測画像
    「緑⾊の円柱と茶⾊の⽴⽅体がぶつかる」
    「緑⾊の円柱が茶⾊の⽴⽅体にはじかれる」
    「茶⾊の⽴⽅体が緑⾊の円柱にはじかれる」
    緑⾊の円柱が茶⾊の⽴⽅体に
    ぶつかる
    物体の⾊○,形状✕ 物体の⾊○,形状○
    正解⽂ 正解⽂
    正解⽂
    ⽣成⽂

    View Slide

  37. まとめ
    • ヒト脳の階層構造を模した予測推論モデル
    ØPredNetの階層構造に変化点mの構造を追加
    Ø実験結果から、予測内容についても変化点の
    タイミングを取得可能
    • 実世界と⾔語を結びつけるために、
    推論内容を⾔語として表現
    Ø実世界と結びついた⾔語を⽤いて記号操作を
    することで、ヒトの知能を表現
    Ø実験結果から、推論内容を⾔語⽣成可能
    今後の課題
    • 実世界に近いデータの使⽤
    Øヒトの実環境(実⽣活)に近い
    データセット
    • ⾔語による認識・推論・予測
    まとめ・課題 37

    View Slide