Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Knowledge Supports Visual Language Grounding_ A...

sobamchan
August 17, 2020

Knowledge Supports Visual Language Grounding_ A Case Study on Colour Terms

ACL 2020 オンラインLT会
https://nlpaper-challenge.connpass.com/event/185240/

Knowledge Supports Visual Language Grounding_ A Case Study on Colour Terms

sobamchan

August 17, 2020
Tweet

More Decks by sobamchan

Other Decks in Research

Transcript

  1. Knowledge Supports Visual Language Grounding: A Case Study on Colour

    Terms Simeon Schüz Friedrich Schiller University Jena Sina Zarrieß Friedrich Schiller University Jena 竹下 颯太郎 / sobamchan sotaro.io/誰 1
  2. tl;dr ◦ 目からの入力だけではなく “木は緑” という知識が,人の視覚による認知をサポートしている ◦ 機械による色の識別にも,この方式を応用する ▫ → 対象のオブジェクトの画像と,単語ベクトルも入力

    ◦ 機械にも知識の補助があったほうが良いことを示す なぜこの論文? ◦ 両モーダルを必要とするタスクではなく (e.g., VQA), CVタスクを言語情報で補完するタスクに対しての研究 2
  3. Introduction Human perception ◦ 人はオブジェクトの認知に,そのモノに関しての知識をつかう (Mitterer et al., 2009, Ishizu,

    2013) ◦ i.e.) 知覚情報 (bottom-up) の処理時に,知識 (top-down) を利用 ◦ この 2 つの処理が複雑に絡み合って認識 (Kubat et al., 2009) 3
  4. Introduction 本研究のポジション ◦ 機械でも bottom-up な視覚情報と top-down 情報で色の識別 ◦ 典型的でない色のオブジェクト

    (紫の植木) も認識できた (多くの場合,植木は緑) • TOP-DOWN: 知識・単語 • BOTTOM-UP: 視覚情報・画像 4
  5. Related Work ◦ 現実の色認識 (いろいろな問題) ▫ 光と影の影響問題 (Witzel and Gegenfurtner,

    2018) ▫ 慣習からの影響問題 (Gardenfors, 2004) ▪ e.g., red hair ▫ 現実は複雑問題 (Witzel and Gegenfurtner, 2018) ▪ e.g., 緑の葉で茶色の幹の木 → 緑 6
  6. Related Work ◦ 機械による物体色の認識 ▫ ピクセル毎に色を判定 [Mojsilovic 2005, Van de

    Weijer+ 2007] ▫ Color Histogram を利用 [Zarrieß and Schlangen 2016] ▪ オブジェクト毎に別の分類器を学習 (精度はそこまで) 8
  7. Models 利用する 2 つのモーダル ◦ BOTTOM-UP ▫ オブジェクトの画像データ ▫ 特徴量:

    RGB histogram ◦ TOP-DOWN ▫ オブジェクトのコンセプト情報 ▫ 特徴量: 対応した単語ベクトル (100-dim, GloVe) 9
  8. Models LATE-FUSION ◦ BOTTOM-UP (画像情報) ▫ RGB histogram ▫ MLP:

    512 input → 240 hidden → 24 hidden → 11 output ▫ Dropout 0.2, ReLU ◦ TOP-DOWN (単語情報) ▫ GloVe, 100-dim ▫ MLP: 100 input → 24 hidden → 11 output ▫ Dropout 0.2, ReLU 1. 2 つのモデルで独立に 11 色それぞれの確率を予測 2. 平均をとって最終予測 11
  9. Models EARLY-FUSION 1. TOP-DOWN で 対応する単語ベクトルを 24 units の FC

    層 2. 1. の結果を RGB histogram に concat 3. 240, 24 の 2 つの Hidden Layer を通してから 11 色予測 12
  10. Experiments Data ◦ VisualGenome [Karishna+ 2016] ◦ (黒,青,茶,灰,緑,橙,桃,紫,赤,白,黄) 色 ◦

    人関連のオブジェクトを取り除く ◦ train: 110k オブジェクト ◦ dev: 17k オブジェクト ◦ test: 9k オブジェクト ◦ RMSprop ◦ learning rate: 0.001 ◦ epochs: 25 14 https://visualgenome.org/
  11. Experiments Test データの種類 ◦ Color Diagnostic Objects (CDOs) ▫ “一般的な色”

    があるオブジェクト ▫ e.g., tree, carrot ▫ このうち “紫の植木” のようなインスタンスは atypical とした ◦ Color Neutral Objects (CNOs) ▫ いろんな色のパターンを持つオブジェクト ▫ e.g., balloon, umbrella CDOs と CNOs の判別はオブジェクトの色の分布のエントロピーから 15
  12. Results 訓練時に未出のオブジェクトに対しての推論 ◦ EARLY-FUSION がうまく再調整できるサンプルがある ◦ 反対に,間違えるようになるパターンもある ▫ “Lime” を

    “yellow” に間違える (正解は ”green”) ▫ “Lime” と “Lemon” が単語ベクトル的に近いことが原因か ▫ 単語ベクトルは視覚的な情報の学習はしていない 17
  13. Discussion and Conclusion ◦ まとめ ▫ 色認識にBOTTOM-UP(視覚)だけでなくTOP-DOWN(知識)を利用 ▫ オブジェクトに関する知識が補助となる ▫

    視覚情報のみのモデルを FUSION モデルが上回った ▫ 典型的でないオブジェクト色には EARLY-FUSION が良い ▫ でも,視覚情報と知識のバランスがうまく取れていなさそう ◦ 今後の展望 ▫ より複雑な FUSION の方法の模索 18
  14. 発表者の所感 ◦ 視覚と知識は相互に影響し合うべき (?) ▫ 単一モーダルのみで本来は良いタスクへの 別モーダルからの介入はまだあまりないのでこれから期待 ▫ 逆にNLPタスクを視覚的に補完できるタスクはどんなのがある? ◦

    視覚情報を反映した単語ベクトルを使って実験したらどうなる? ▫ Combining Language and Vision with a Multimodal Skip-gram Model (Lazaridou+ 2015) ◦ アプリケーションに関しての言及はなかった ▫ 人の感覚に近い形での色の検索とかに使えるのかな? 19
  15. Discussion and Conclusion ◦ まとめ ▫ 色認識にBOTTOM-UP(視覚)だけでなくTOP-DOWN(知識)を利用 ▫ オブジェクトに関する知識が接地を助けることを示した ▫

    典型的でないオブジェクト色もうまく予測できた ▫ でも,視覚情報と知識のバランスがうまく取れていなさそう ◦ 今後の展望 ▫ より複雑な FUSION の方法の模索 運営の方々,楽しい会をありがとうございます! 20
  16. 自己紹介 ◦ 竹下 颯太郎 ◦ @sobamchan ◦ https://sotaro.io/誰 ◦ 3

    月に電通大卒業 → 秋から博士の予定が来年春からに ◦ 興味 ▫ 自然言語処理へのマルチモーダルなデータの利用 ▫ Commonsense Reasoning 21