Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Knowledge Supports Visual Language Grounding_ A Case Study on Colour Terms

sobamchan
August 17, 2020

Knowledge Supports Visual Language Grounding_ A Case Study on Colour Terms

ACL 2020 オンラインLT会
https://nlpaper-challenge.connpass.com/event/185240/

Knowledge Supports Visual Language Grounding_ A Case Study on Colour Terms

sobamchan

August 17, 2020
Tweet

More Decks by sobamchan

Other Decks in Research

Transcript

  1. Knowledge Supports Visual Language
    Grounding: A Case Study on Colour Terms
    Simeon Schüz
    Friedrich Schiller University Jena
    Sina Zarrieß
    Friedrich Schiller University Jena
    竹下 颯太郎 / sobamchan
    sotaro.io/誰
    1

    View Slide

  2. tl;dr
    ◦ 目からの入力だけではなく
    “木は緑” という知識が,人の視覚による認知をサポートしている
    ◦ 機械による色の識別にも,この方式を応用する
    ▫ → 対象のオブジェクトの画像と,単語ベクトルも入力
    ◦ 機械にも知識の補助があったほうが良いことを示す
    なぜこの論文?
    ◦ 両モーダルを必要とするタスクではなく (e.g., VQA),
    CVタスクを言語情報で補完するタスクに対しての研究
    2

    View Slide

  3. Introduction
    Human perception
    ◦ 人はオブジェクトの認知に,そのモノに関しての知識をつかう (Mitterer
    et al., 2009, Ishizu, 2013)
    ◦ i.e.) 知覚情報 (bottom-up) の処理時に,知識 (top-down) を利用
    ◦ この 2 つの処理が複雑に絡み合って認識 (Kubat et al., 2009)
    3

    View Slide

  4. Introduction
    本研究のポジション
    ◦ 機械でも bottom-up な視覚情報と top-down 情報で色の識別
    ◦ 典型的でない色のオブジェクト (紫の植木) も認識できた
    (多くの場合,植木は緑)
    ● TOP-DOWN: 知識・単語
    ● BOTTOM-UP: 視覚情報・画像
    4

    View Slide

  5. Related Work
    ◦ 色カタログの認識
    ▫ 自然な画像じゃない (Winn and Muresan, 2018)
    5

    View Slide

  6. Related Work
    ◦ 現実の色認識 (いろいろな問題)
    ▫ 光と影の影響問題 (Witzel and Gegenfurtner, 2018)
    ▫ 慣習からの影響問題 (Gardenfors, 2004)
    ■ e.g., red hair
    ▫ 現実は複雑問題 (Witzel and Gegenfurtner, 2018)
    ■ e.g., 緑の葉で茶色の幹の木 → 緑
    6

    View Slide

  7. Related Work
    ◦ 人間の視覚情報処理
    ▫ 視覚情報を知識で再調整し認識する
    ▫ Memory Color Effect (Olkkonen et al., 2008)
    https://en.wikipedia.org/wiki/Memory_color_effect
    7

    View Slide

  8. Related Work
    ◦ 機械による物体色の認識
    ▫ ピクセル毎に色を判定 [Mojsilovic 2005, Van de Weijer+ 2007]
    ▫ Color Histogram を利用 [Zarrieß and Schlangen 2016]
    ■ オブジェクト毎に別の分類器を学習 (精度はそこまで)
    8

    View Slide

  9. Models
    利用する 2 つのモーダル
    ◦ BOTTOM-UP
    ▫ オブジェクトの画像データ
    ▫ 特徴量: RGB histogram
    ◦ TOP-DOWN
    ▫ オブジェクトのコンセプト情報
    ▫ 特徴量: 対応した単語ベクトル (100-dim, GloVe)
    9

    View Slide

  10. Models
    タイミングの違う,2 つの合成方式
    ◦ LATE-FUSION
    ▫ 独立に予測 → 平均
    ◦ EARLY-FUSION
    ▫ 早めに concat
    10

    View Slide

  11. Models
    LATE-FUSION
    ◦ BOTTOM-UP (画像情報)
    ▫ RGB histogram
    ▫ MLP: 512 input → 240 hidden → 24 hidden → 11 output
    ▫ Dropout 0.2, ReLU
    ◦ TOP-DOWN (単語情報)
    ▫ GloVe, 100-dim
    ▫ MLP: 100 input → 24 hidden → 11 output
    ▫ Dropout 0.2, ReLU
    1. 2 つのモデルで独立に 11 色それぞれの確率を予測
    2. 平均をとって最終予測
    11

    View Slide

  12. Models
    EARLY-FUSION
    1. TOP-DOWN で 対応する単語ベクトルを 24 units の FC 層
    2. 1. の結果を RGB histogram に concat
    3. 240, 24 の 2 つの Hidden Layer を通してから 11 色予測
    12

    View Slide

  13. Models
    13

    View Slide

  14. Experiments
    Data
    ◦ VisualGenome [Karishna+ 2016]
    ◦ (黒,青,茶,灰,緑,橙,桃,紫,赤,白,黄) 色
    ◦ 人関連のオブジェクトを取り除く
    ◦ train: 110k オブジェクト
    ◦ dev: 17k オブジェクト
    ◦ test: 9k オブジェクト
    ◦ RMSprop
    ◦ learning rate: 0.001
    ◦ epochs: 25
    14
    https://visualgenome.org/

    View Slide

  15. Experiments
    Test データの種類
    ◦ Color Diagnostic Objects (CDOs)
    ▫ “一般的な色” があるオブジェクト
    ▫ e.g., tree, carrot
    ▫ このうち “紫の植木” のようなインスタンスは atypical とした
    ◦ Color Neutral Objects (CNOs)
    ▫ いろんな色のパターンを持つオブジェクト
    ▫ e.g., balloon, umbrella
    CDOs と CNOs の判別はオブジェクトの色の分布のエントロピーから
    15

    View Slide

  16. Results
    ◦ 単一モーダルのみより EARLY/LATE - FUSION の方が良い
    ◦ CDO atypical (eg. “紫の植木”) では LATE << EARLY
    16

    View Slide

  17. Results
    訓練時に未出のオブジェクトに対しての推論
    ◦ EARLY-FUSION がうまく再調整できるサンプルがある
    ◦ 反対に,間違えるようになるパターンもある
    ▫ “Lime” を “yellow” に間違える (正解は ”green”)
    ▫ “Lime” と “Lemon” が単語ベクトル的に近いことが原因か
    ▫ 単語ベクトルは視覚的な情報の学習はしていない
    17

    View Slide

  18. Discussion and Conclusion
    ◦ まとめ
    ▫ 色認識にBOTTOM-UP(視覚)だけでなくTOP-DOWN(知識)を利用
    ▫ オブジェクトに関する知識が補助となる
    ▫ 視覚情報のみのモデルを FUSION モデルが上回った
    ▫ 典型的でないオブジェクト色には EARLY-FUSION が良い
    ▫ でも,視覚情報と知識のバランスがうまく取れていなさそう
    ◦ 今後の展望
    ▫ より複雑な FUSION の方法の模索
    18

    View Slide

  19. 発表者の所感
    ◦ 視覚と知識は相互に影響し合うべき (?)
    ▫ 単一モーダルのみで本来は良いタスクへの
    別モーダルからの介入はまだあまりないのでこれから期待
    ▫ 逆にNLPタスクを視覚的に補完できるタスクはどんなのがある?
    ◦ 視覚情報を反映した単語ベクトルを使って実験したらどうなる?
    ▫ Combining Language and Vision with a Multimodal Skip-gram Model (Lazaridou+ 2015)
    ◦ アプリケーションに関しての言及はなかった
    ▫ 人の感覚に近い形での色の検索とかに使えるのかな?
    19

    View Slide

  20. Discussion and Conclusion
    ◦ まとめ
    ▫ 色認識にBOTTOM-UP(視覚)だけでなくTOP-DOWN(知識)を利用
    ▫ オブジェクトに関する知識が接地を助けることを示した
    ▫ 典型的でないオブジェクト色もうまく予測できた
    ▫ でも,視覚情報と知識のバランスがうまく取れていなさそう
    ◦ 今後の展望
    ▫ より複雑な FUSION の方法の模索
    運営の方々,楽しい会をありがとうございます!
    20

    View Slide

  21. 自己紹介
    ◦ 竹下 颯太郎
    ◦ @sobamchan
    ◦ https://sotaro.io/誰
    ◦ 3 月に電通大卒業 → 秋から博士の予定が来年春からに
    ◦ 興味
    ▫ 自然言語処理へのマルチモーダルなデータの利用
    ▫ Commonsense Reasoning
    21

    View Slide