Slide 1

Slide 1 text

EmbraceNet: A robust deep learning architecture for multimodal classification daiki J.-H. Choi, J.-S. Lee. EmbraceNet: A robust deep learning architecture for multimodal classification. Information Fusion, vol. 51, pp. 259-270, Nov. 2019 https://arxiv.org/abs/1904.09078

Slide 2

Slide 2 text

Intro マルチモーダル情報の取得 ◼ビッグデータ解析の発展 ◼データの利用可能性の拡大による様々なセンサー利用 ➢マイク,カメラ,モーションコントローラ,ウェアラブル加速度センサ etc. 実世界ではすべてのモダリティが利用できるとは限らない ◼Ex.) 無線の切断によりセンサ情報が欠損 ◼従来のマルチモーダル学習のアーキテクチャは欠損に対応できない ➢一部では,前に観測された値やデフォルト値,補完手法で欠損を補完 ➢根本的な解決策ではない マルチモーダル情報のための新しいアーキテクチャを提案 2

Slide 3

Slide 3 text

EmbraceNet EmbraceNet: 深層学習アーキテクチャ ◼あらゆるネットワークアーキテクチャを利用可能 ◼欠損データをシームレスに扱える 要素 ◼Docking Layer ➢各モダリティの情報を統合に適した表現に変換 ◼Embracement Layer ➢複数のモダリティ表現を確率的に統合 3

Slide 4

Slide 4 text

EmbraceNet: 何がいい? 既存の深層学習のアーキテクチャをそのまま利用可能 任意の数のモダリティを統合可能 ◼クロスモーダル相関を学習時に考慮 モダリティ欠損に対する頑健性 ◼欠損しても性能を維持 4

Slide 5

Slide 5 text

EmbraceNet: Overview Docking layersとEmbracement layerを通してモダリティ融合 ◼していることは実は単純 5

Slide 6

Slide 6 text

EmbraceNet: 特徴量抽出 各モダリティで特徴量抽出 ◼MLP,Conv,設計した特徴量 etc. 6

Slide 7

Slide 7 text

EmbraceNet: Docking Layer 各モダリティのデータ長(len(z), len(d))を揃える ◼重み𝑤(𝑖)で線形変換+活性化関数で非線形変換 ◼データ長はハイパラで固定 7

Slide 8

Slide 8 text

EmbraceNet: Embracement Layer 確率𝒓𝒊 を用いて確率的に融合 ◼𝒓𝒊 はパラメータPの多項分布に従う (𝒓𝒊 の和は1) ➢𝒓𝒊 = 𝑟 𝑖 1 , 𝑟 𝑖 2 , … , 𝑟 𝑖 𝑚 (𝑖 = 1, … , 𝑐) c:データ長 m: モダリティ数 ➢Ex) 通常は𝐏 = 1 m , 1 m , . . , 1 m (すべてのモダリティで同確立) 8 𝒓𝟏 = [1,0, 0] 𝒓𝟐 = [0,1, 0] 𝒓𝒄 = [0,1, 0] …

Slide 9

Slide 9 text

EmbraceNet: 分類器 融合した特徴量を用いて任意の分類器で分類 9

Slide 10

Slide 10 text

モダリティが欠損したとき モダリティの多項分布𝑝𝑖 を0にする ◼融合時に確率0となり選択されなくなる 10

Slide 11

Slide 11 text

なぜこの融合でうまくいくのか モダリティ間の相関を仮定 𝑑(𝑘)が各モダリティから確率的に選択される ◼□の部分で各モダリティ表現が近づくように学習される ◼確率的に選ばれたときに表現が類似していないと分類できないため 11