論文読み会 / Deep Multi-Modal Sets

Deep Multi-Modal Sets 20/06/29 PaperFriday, Yuki Iwazaki@AI Lab

2 Point: 特徴のDown SamplingやScalabilityを考慮した Multi-Modal Encoderを提案 Authors: Austin Reiter, Menglin
Jia, Pu Yang, Ser-Nam Lim - Facebook AI Research, Cornell University 選定理由: - Creative Researchのslackでちょっと話題に出た - 俺より強いマルチモーダル表現に会いに行く

The Multi-Modal Problem 3

Multi-Modal Task? 複数の特徴タイプをモデル内で結合するタスク 4

non_linear_layers score 5 SimpleなMulti-Modal Model XC = concat([X1, . .
. XI ]) -> MLP -> Score

non_linear_layers score 6 問題点1: 特定Modal特徴がないことを zero paddingで表すのは不自然 0. 0. 0.

non_linear_layers score 7 問題点2: 特定Modal特徴の複数発生に対応できていない最大発生数で表現するのは無駄

non_linear_layers score 8 問題点3: 特徴次元に不均衡があると高次元なModalityが Vectorを支配してしまう 10 × 12
178 × 100 200 × 200 × 3

non_linear_layers score 9 問題点3: 特に特徴次元に不均衡があると高次元なModalityが Vectorを支配してしまう 10 × 12
178 × 100 200 × 200 × 3 ModalityのCardinalityに応じてScaleしながら共通の次元に Encodeするモデルを提案

Pooling Layer 10

Pooling Layer: CNNの構成要素の 1つ行列の小領域毎にMax, Avg, Sum, Min等をかけ情報を圧縮

Deep Sets 12

Deep Sets [Zaheer, 17] CNN(Pooling)の位置不変性を利用して Scalableな埋め込み表現を学習するモデル CNNでいう画像サイズが変わろうが、GCNでいうユーザに対するアイテムの順番が変わろうが、各要素、特徴自体の位置はPoolingのおかげで大きく変わらない
15 Graph Convolutional Network

Proposed Method 16

Deep Multi-Modal Sets 17

Feature Importance可視化のために Poolingを通じてModality毎に圧縮された特徴を得る Maxならそのmodalityにおける特徴の最大値、Sumなら合計値 18 特にMax Poolingの場合
Max要素を逆算(argmax)してModalityレベルで解釈しやすい特徴重要度が得られる -> Pooling後の中間特徴として生き残った特徴 -> 予測結果に影響を与えている

Experiments 19

Datasets: Ads-Parallelity Dataset 広告画像 + 説明文-> 関係性 Parallelity: ImageとTextが一貫して同じメッセージ性を持つか (どちらかがなくても伝わるか)
20

Datasets: MultiModal-IMDb 映画のジャケ画像 + 説明文 -> 映画のジャンル 21

Features 22

Implementation non linear layers Modality wise pooling WSL Face OCR
RoBERTa Index Embedding +Meta

Results: Ads-Parallelity 28

Results: MM-IMDb 30

Conclusion 37

Conclusion and Future Work ◂ DynamicなModalityをうまくモデリングできる Multi-Modal Architectureを提案 ◂ PoolingがDown
Samplingのように働く ◂ Max-Poolingを用いた重要度の可視化 ◂ エラー分析が容易に ◂ Videoへの拡張が今後の課題 38

Comment - Pooling自体はシンプルで直感的なので実装しやすい - 特徴抽出器まではfreezeなので計算コストも低そう - Pooling Encoderの出力次元Dがハイパラで肝 - Adsは32次元,
MM-IMDbは1024次元らしい - 説明文(RoBERTa)だけでそこそこ精度が出ている気がする - タスクによるが説明文があればOCRテキストはそこまで要らない? - OCR自体の検出性能が絡んでいそう 39

References - Permutation-equivariant neural networks applied to dynamics prediction -
Graph Neural Networks and Permutation invariance - Connections between Neural Networks and Pure Mathematics - Deep Sets 40

41 Thanks! Any questions? You can ﬁnd me at ◂
@chck ◂ #times_chck ◂ iwazaki_yuki@cyberagent.co.jp

Feedback - 特徴抽出器もコミコミのe2e? - GPUも1枚なのでおそらく抽出後が入力 - それはそれで実装が重いですね - pooling type結局どれがいいのか
- 精度大差ないのでFeature Importanceとの兼ね合いで Maxでいいのでは

論文読み会 / Deep Multi-Modal Sets

論文読み会 / Deep Multi-Modal Sets

chck

More Decks by chck

Other Decks in Research

Featured

Transcript

Deep Multi-Modal Sets 20/06/29 PaperFriday, Yuki Iwazaki@AI Lab

2 Point: 特徴のDown SamplingやScalabilityを考慮した Multi-Modal Encoderを提案 Authors: Austin Reiter, Menglin

The Multi-Modal Problem 3

Multi-Modal Task? 複数の特徴タイプをモデル内で結合するタスク 4

non_linear_layers score 5 SimpleなMulti-Modal Model XC = concat([X1, . .

non_linear_layers score 6 問題点1: 特定Modal特徴がないことを zero paddingで表すのは不自然 0. 0. 0.

non_linear_layers score 7 問題点2: 特定Modal特徴の複数発生に対応できていない最大発生数で表現するのは無駄

non_linear_layers score 8 問題点3: 特徴次元に不均衡があると高次元なModalityが Vectorを支配してしまう 10 × 12

non_linear_layers score 9 問題点3: 特に特徴次元に不均衡があると高次元なModalityが Vectorを支配してしまう 10 × 12

Pooling Layer 10

Pooling Layer: CNNの構成要素の 1つ行列の小領域毎にMax, Avg, Sum, Min等をかけ情報を圧縮

Deep Sets 12

Proposed Method 16

Deep Multi-Modal Sets 17

Feature Importance可視化のために Poolingを通じてModality毎に圧縮された特徴を得る Maxならそのmodalityにおける特徴の最大値、Sumなら合計値 18 特にMax Poolingの場合

Experiments 19

Datasets: Ads-Parallelity Dataset 広告画像 + 説明文-> 関係性 Parallelity: ImageとTextが一貫して同じメッセージ性を持つか (どちらかがなくても伝わるか)

Datasets: MultiModal-IMDb 映画のジャケ画像 + 説明文 -> 映画のジャンル 21

Features 22

Implementation non linear layers Modality wise pooling WSL Face OCR

Results: Ads-Parallelity 28

Results: MM-IMDb 30

Conclusion 37

Conclusion and Future Work ◂ DynamicなModalityをうまくモデリングできる Multi-Modal Architectureを提案 ◂ PoolingがDown

Comment - Pooling自体はシンプルで直感的なので実装しやすい - 特徴抽出器まではfreezeなので計算コストも低そう - Pooling Encoderの出力次元Dがハイパラで肝 - Adsは32次元,

References - Permutation-equivariant neural networks applied to dynamics prediction -

41 Thanks! Any questions? You can ﬁnd me at ◂

Feedback - 特徴抽出器もコミコミのe2e? - GPUも1枚なのでおそらく抽出後が入力 - それはそれで実装が重いですね - pooling type結局どれがいいのか