Knowledge Supports Visual Language Grounding_ A Case Study on Colour Terms

Knowledge Supports Visual Language Grounding: A Case Study on Colour
Terms Simeon Schüz Friedrich Schiller University Jena Sina Zarrieß Friedrich Schiller University Jena 竹下颯太郎 / sobamchan sotaro.io/誰 1

tl;dr ◦ 目からの入力だけではなく “木は緑” という知識が，人の視覚による認知をサポートしている ◦ 機械による色の識別にも，この方式を応用する ▫ → 対象のオブジェクトの画像と，単語ベクトルも入力
◦ 機械にも知識の補助があったほうが良いことを示すなぜこの論文？ ◦ 両モーダルを必要とするタスクではなく (e.g., VQA)， CVタスクを言語情報で補完するタスクに対しての研究 2

Introduction Human perception ◦ 人はオブジェクトの認知に，そのモノに関しての知識をつかう (Mitterer et al., 2009, Ishizu,
2013) ◦ i.e.) 知覚情報 (bottom-up) の処理時に，知識 (top-down) を利用 ◦ この 2 つの処理が複雑に絡み合って認識 (Kubat et al., 2009) 3

Introduction 本研究のポジション ◦ 機械でも bottom-up な視覚情報と top-down 情報で色の識別 ◦ 典型的でない色のオブジェクト
(紫の植木) も認識できた (多くの場合，植木は緑) • TOP-DOWN: 知識・単語 • BOTTOM-UP: 視覚情報・画像 4

Related Work ◦ 色カタログの認識 ▫ 自然な画像じゃない (Winn and Muresan, 2018)
5

Related Work ◦ 現実の色認識 (いろいろな問題) ▫ 光と影の影響問題 (Witzel and Gegenfurtner,
2018) ▫ 慣習からの影響問題 (Gardenfors, 2004) ▪ e.g., red hair ▫ 現実は複雑問題 (Witzel and Gegenfurtner, 2018) ▪ e.g., 緑の葉で茶色の幹の木 → 緑 6

Related Work ◦ 人間の視覚情報処理 ▫ 視覚情報を知識で再調整し認識する ▫ Memory Color Effect
(Olkkonen et al., 2008) https://en.wikipedia.org/wiki/Memory_color_effect 7

Related Work ◦ 機械による物体色の認識 ▫ ピクセル毎に色を判定 [Mojsilovic 2005, Van de
Weijer+ 2007] ▫ Color Histogram を利用 [Zarrieß and Schlangen 2016] ▪ オブジェクト毎に別の分類器を学習 (精度はそこまで) 8

Models 利用する 2 つのモーダル ◦ BOTTOM-UP ▫ オブジェクトの画像データ ▫ 特徴量:
RGB histogram ◦ TOP-DOWN ▫ オブジェクトのコンセプト情報 ▫ 特徴量: 対応した単語ベクトル (100-dim, GloVe) 9

Models タイミングの違う，2 つの合成方式 ◦ LATE-FUSION ▫ 独立に予測 → 平均 ◦
EARLY-FUSION ▫ 早めに concat 10

Models LATE-FUSION ◦ BOTTOM-UP (画像情報) ▫ RGB histogram ▫ MLP:
512 input → 240 hidden → 24 hidden → 11 output ▫ Dropout 0.2, ReLU ◦ TOP-DOWN (単語情報) ▫ GloVe, 100-dim ▫ MLP: 100 input → 24 hidden → 11 output ▫ Dropout 0.2, ReLU 1. 2 つのモデルで独立に 11 色それぞれの確率を予測 2. 平均をとって最終予測 11

Models EARLY-FUSION 1. TOP-DOWN で対応する単語ベクトルを 24 units の FC
層 2. 1. の結果を RGB histogram に concat 3. 240, 24 の 2 つの Hidden Layer を通してから 11 色予測 12

Models 13

Experiments Data ◦ VisualGenome [Karishna+ 2016] ◦ (黒，青，茶，灰，緑，橙，桃，紫，赤，白，黄) 色 ◦
人関連のオブジェクトを取り除く ◦ train: 110k オブジェクト ◦ dev: 17k オブジェクト ◦ test: 9k オブジェクト ◦ RMSprop ◦ learning rate: 0.001 ◦ epochs: 25 14 https://visualgenome.org/

Experiments Test データの種類 ◦ Color Diagnostic Objects (CDOs) ▫ “一般的な色”
があるオブジェクト ▫ e.g., tree, carrot ▫ このうち “紫の植木” のようなインスタンスは atypical とした ◦ Color Neutral Objects (CNOs) ▫ いろんな色のパターンを持つオブジェクト ▫ e.g., balloon, umbrella CDOs と CNOs の判別はオブジェクトの色の分布のエントロピーから 15

Results ◦ 単一モーダルのみより EARLY/LATE - FUSION の方が良い ◦ CDO atypical
(eg. “紫の植木”) では LATE << EARLY 16

Results 訓練時に未出のオブジェクトに対しての推論 ◦ EARLY-FUSION がうまく再調整できるサンプルがある ◦ 反対に，間違えるようになるパターンもある ▫ “Lime” を
“yellow” に間違える (正解は ”green”) ▫ “Lime” と “Lemon” が単語ベクトル的に近いことが原因か ▫ 単語ベクトルは視覚的な情報の学習はしていない 17

Discussion and Conclusion ◦ まとめ ▫ 色認識にBOTTOM-UP(視覚)だけでなくTOP-DOWN(知識)を利用 ▫ オブジェクトに関する知識が補助となる ▫
視覚情報のみのモデルを FUSION モデルが上回った ▫ 典型的でないオブジェクト色には EARLY-FUSION が良い ▫ でも，視覚情報と知識のバランスがうまく取れていなさそう ◦ 今後の展望 ▫ より複雑な FUSION の方法の模索 18

発表者の所感 ◦ 視覚と知識は相互に影響し合うべき (？) ▫ 単一モーダルのみで本来は良いタスクへの別モーダルからの介入はまだあまりないのでこれから期待 ▫ 逆にNLPタスクを視覚的に補完できるタスクはどんなのがある？ ◦
視覚情報を反映した単語ベクトルを使って実験したらどうなる？ ▫ Combining Language and Vision with a Multimodal Skip-gram Model (Lazaridou+ 2015) ◦ アプリケーションに関しての言及はなかった ▫ 人の感覚に近い形での色の検索とかに使えるのかな？ 19

Discussion and Conclusion ◦ まとめ ▫ 色認識にBOTTOM-UP(視覚)だけでなくTOP-DOWN(知識)を利用 ▫ オブジェクトに関する知識が接地を助けることを示した ▫
典型的でないオブジェクト色もうまく予測できた ▫ でも，視覚情報と知識のバランスがうまく取れていなさそう ◦ 今後の展望 ▫ より複雑な FUSION の方法の模索運営の方々，楽しい会をありがとうございます！ 20

自己紹介 ◦ 竹下颯太郎 ◦ @sobamchan ◦ https://sotaro.io/誰 ◦ 3
月に電通大卒業 → 秋から博士の予定が来年春からに ◦ 興味 ▫ 自然言語処理へのマルチモーダルなデータの利用 ▫ Commonsense Reasoning 21

Knowledge Supports Visual Language Grounding_ A...

Knowledge Supports Visual Language Grounding_ A Case Study on Colour Terms

sobamchan

More Decks by sobamchan

Other Decks in Research

Featured

Transcript

Knowledge Supports Visual Language Grounding: A Case Study on Colour

tl;dr ◦ 目からの入力だけではなく “木は緑” という知識が，人の視覚による認知をサポートしている ◦ 機械による色の識別にも，この方式を応用する ▫ → 対象のオブジェクトの画像と，単語ベクトルも入力

Introduction Human perception ◦ 人はオブジェクトの認知に，そのモノに関しての知識をつかう (Mitterer et al., 2009, Ishizu,

Introduction 本研究のポジション ◦ 機械でも bottom-up な視覚情報と top-down 情報で色の識別 ◦ 典型的でない色のオブジェクト

Related Work ◦ 色カタログの認識 ▫ 自然な画像じゃない (Winn and Muresan, 2018)

Related Work ◦ 現実の色認識 (いろいろな問題) ▫ 光と影の影響問題 (Witzel and Gegenfurtner,

Related Work ◦ 人間の視覚情報処理 ▫ 視覚情報を知識で再調整し認識する ▫ Memory Color Effect

Related Work ◦ 機械による物体色の認識 ▫ ピクセル毎に色を判定 [Mojsilovic 2005, Van de

Models 利用する 2 つのモーダル ◦ BOTTOM-UP ▫ オブジェクトの画像データ ▫ 特徴量:

Models タイミングの違う，2 つの合成方式 ◦ LATE-FUSION ▫ 独立に予測 → 平均 ◦

Models LATE-FUSION ◦ BOTTOM-UP (画像情報) ▫ RGB histogram ▫ MLP:

Models EARLY-FUSION 1. TOP-DOWN で対応する単語ベクトルを 24 units の FC

Models 13

Experiments Data ◦ VisualGenome [Karishna+ 2016] ◦ (黒，青，茶，灰，緑，橙，桃，紫，赤，白，黄) 色 ◦

Experiments Test データの種類 ◦ Color Diagnostic Objects (CDOs) ▫ “一般的な色”

Results ◦ 単一モーダルのみより EARLY/LATE - FUSION の方が良い ◦ CDO atypical

Results 訓練時に未出のオブジェクトに対しての推論 ◦ EARLY-FUSION がうまく再調整できるサンプルがある ◦ 反対に，間違えるようになるパターンもある ▫ “Lime” を

Discussion and Conclusion ◦ まとめ ▫ 色認識にBOTTOM-UP(視覚)だけでなくTOP-DOWN(知識)を利用 ▫ オブジェクトに関する知識が補助となる ▫

Discussion and Conclusion ◦ まとめ ▫ 色認識にBOTTOM-UP(視覚)だけでなくTOP-DOWN(知識)を利用 ▫ オブジェクトに関する知識が接地を助けることを示した ▫

自己紹介 ◦ 竹下颯太郎 ◦ @sobamchan ◦ https://sotaro.io/誰 ◦ 3