Slide 1

Slide 1 text

Deep Multi-Modal Sets 20/06/29 PaperFriday, Yuki Iwazaki@AI Lab

Slide 2

Slide 2 text

2 Point: 特徴のDown SamplingやScalabilityを考慮した Multi-Modal Encoderを提案 Authors: Austin Reiter, Menglin Jia, Pu Yang, Ser-Nam Lim - Facebook AI Research, Cornell University 選定理由: - Creative Researchのslackでちょっと話題に出た - 俺より強いマルチモーダル表現に会いに行く

Slide 3

Slide 3 text

The Multi-Modal Problem 3

Slide 4

Slide 4 text

Multi-Modal Task? 複数の特徴タイプをモデル内で結合するタスク 4

Slide 5

Slide 5 text

non_linear_layers score 5 SimpleなMulti-Modal Model XC = concat([X1, . . . XI ]) -> MLP -> Score

Slide 6

Slide 6 text

non_linear_layers score 6 問題点1: 特定Modal特徴がないことを zero paddingで表すのは不自然 0. 0. 0.

Slide 7

Slide 7 text

non_linear_layers score 7 問題点2: 特定Modal特徴の複数発生に 対応できていない 最大発生数で表現するのは無駄

Slide 8

Slide 8 text

non_linear_layers score 8 問題点3: 特徴次元に不均衡があると 高次元なModalityが Vectorを支配してしまう 10 × 12 178 × 100 200 × 200 × 3

Slide 9

Slide 9 text

non_linear_layers score 9 問題点3: 特に特徴次元に不均衡があると 高次元なModalityが Vectorを支配してしまう 10 × 12 178 × 100 200 × 200 × 3 ModalityのCardinalityに応じてScaleしながら 共通の次元に Encodeするモデルを提案

Slide 10

Slide 10 text

Pooling Layer 10

Slide 11

Slide 11 text

Pooling Layer: CNNの構成要素の 1つ 行列の小領域毎にMax, Avg, Sum, Min等をかけ情報を圧縮

Slide 12

Slide 12 text

Deep Sets 12

Slide 13

Slide 13 text

Deep Sets [Zaheer, 17] CNN(Pooling)の位置不変性を利用して Scalableな埋め込み表現を学習するモデル CNNでいう画像サイズが変わろうが、GCNでいうユー ザに対するアイテムの順番が変わろうが、 各要素、特徴自体の位置はPoolingのおかげで 大きく変わらない 15 Graph Convolutional Network

Slide 14

Slide 14 text

Proposed Method 16

Slide 15

Slide 15 text

Deep Multi-Modal Sets 17

Slide 16

Slide 16 text

Feature Importance可視化のために Poolingを通じてModality毎に 圧縮された特徴を得る Maxならそのmodalityにおける 特徴の最大値、Sumなら 合計値 18 特にMax Poolingの場合 Max要素を逆算(argmax)してModalityレベルで 解釈しやすい特徴重要度が得られる -> Pooling後の中間特徴として生き残った特徴 -> 予測結果に影響を与えている

Slide 17

Slide 17 text

Experiments 19

Slide 18

Slide 18 text

Datasets: Ads-Parallelity Dataset 広告画像 + 説明文-> 関係性 Parallelity: ImageとTextが一貫して同じメッセージ性を持つか (どちらかがなくても伝わるか) 20

Slide 19

Slide 19 text

Datasets: MultiModal-IMDb 映画のジャケ画像 + 説明文 -> 映画のジャンル 21

Slide 20

Slide 20 text

Features 22

Slide 21

Slide 21 text

Implementation non linear layers Modality wise pooling WSL Face OCR RoBERTa Index Embedding +Meta

Slide 22

Slide 22 text

Results: Ads-Parallelity 28

Slide 23

Slide 23 text

No content

Slide 24

Slide 24 text

Results: MM-IMDb 30

Slide 25

Slide 25 text

No content

Slide 26

Slide 26 text

Conclusion 37

Slide 27

Slide 27 text

Conclusion and Future Work ◂ DynamicなModalityをうまくモデリングできる Multi-Modal Architectureを提案 ◂ PoolingがDown Samplingのように働く ◂ Max-Poolingを用いた重要度の可視化 ◂ エラー分析が容易に ◂ Videoへの拡張が今後の課題 38

Slide 28

Slide 28 text

Comment - Pooling自体はシンプルで直感的なので実装しやすい - 特徴抽出器まではfreezeなので計算コストも低そう - Pooling Encoderの出力次元Dがハイパラで肝 - Adsは32次元, MM-IMDbは1024次元らしい - 説明文(RoBERTa)だけでそこそこ精度が出ている気がする - タスクによるが説明文があればOCRテキストはそこまで要らない? - OCR自体の検出性能が絡んでいそう 39

Slide 29

Slide 29 text

References - Permutation-equivariant neural networks applied to dynamics prediction - Graph Neural Networks and Permutation invariance - Connections between Neural Networks and Pure Mathematics - Deep Sets 40

Slide 30

Slide 30 text

41 Thanks! Any questions? You can find me at ◂ @chck ◂ #times_chck ◂ [email protected]

Slide 31

Slide 31 text

Feedback - 特徴抽出器もコミコミのe2e? - GPUも1枚なのでおそらく抽出後が入力 - それはそれで実装が重いですね - pooling type結局どれがいいのか - 精度大差ないのでFeature Importanceとの兼ね合いで Maxでいいのでは