Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Tsai et al._2019_ACL_Multimodal Transformer for Unaligned Multimodal Language Sequences

F16d24f8c3767910d0ef9dd3093ae016?s=47 tosho
October 28, 2019

Tsai et al._2019_ACL_Multimodal Transformer for Unaligned Multimodal Language Sequences

28 October 2019 @Komachi lab

F16d24f8c3767910d0ef9dd3093ae016?s=128

tosho

October 28, 2019
Tweet

Transcript

  1. Multimodal Transformer for Unaligned Multimodal Language Sequences Yao-Hung Hubert Tsai,

    Shaojie Bai, Paul Pu Liang, J. Zico Kolter, Louis-Philippe Morency, Ruslan Salakhutdinov Carnegie Mellon University ACL 2019 紹介者:平澤 寅庄(TMU, M1, 小町研) 28 October, 2019 @小町研
  2. 0. Overview • アライメントが与えられていない複数モダリティの系列データを扱う手法 (Multimodal Transformer)を提案した ◦ 2層の Transformer モデルをスタック

    ◦ 1層目:クロスモーダル Transformer ◦ 2層目:Self-attention Transformer • モデルの適用先はは分類タスクのみ ◦ 生成タスクには適用しない • 複数の感情分析タスクで SOTA を達成 ◦ Word-aligned ◦ Unaligned 2
  3. 1. Introduction • 異なるモダリティの情報は、時間的に同じ長さでも、系列長が異なる ◦ 言語:単語の数 ◦ 音声・画像:フレーム数 • モダリティ間にアライメントは前処理で付ける

    ◦ 人手 ◦ Connectionist temporal classification (CTC) (Graves et al., 2006) • アラインメントのアノテーションは高コスト ◦ 専門的な知識 ◦ アノテーションをするコスト ◦ (前処理しているので、生データの情報を すべて使ってはいない) 3
  4. 2. Related Works: Human Multimodal Language Analysis • モダリティの入力長が、データごとに異なる ◦

    (Multi30k では、画像特徴量の系列長はデータによらず一定) • 先行研究(すべて LSTM ベース) ◦ Early fusion (Lazaridou et al., 2015; Ngiam et al., 2011): 各モダリティの特徴量を concat する ◦ Late fusion: 各モダリティの最後の隠れ状態を concat する ◦ Recurrent Multistage Fusion Network (RMFN) (Liang et al., 2018) ◦ Multimodal Factorization Model (MFM) (Tsai et al., 2019) ◦ Recurrent Attended Variation Embedding Network (RAVEN) (Wang et al., 2019) ◦ Multimodal Cyclic Translation Network (MCTN) (Pham et al., 2019) 4
  5. Recurrent Multistage Fusion Network (RMFN) (Liang et al., 2018) 5

  6. Multimodal Factorization Model (MFM) (Tsai et al., 2019) 6

  7. Recurrent Attended Variation Embedding Network (RAVEN) (Wang et al., 2019)

    7
  8. Multimodal Cyclic Translation Network (MCTN) (Pham et al., 2019) 8

  9. 2. Related Works: Transformer Network • ニューラル機械翻訳で提案された (Vaswani et al.,

    2017) ◦ Encoder / Decoder ◦ Self-attention ◦ 入出力は well-presented で discrete • 音声や画像は well-presented でもなければ discrete でもない 9
  10. 3. Multimodal Transformer (MT) • 2階層の Transformer ◦ Crossmodal Transformer

    ▪ モダリティのペア毎に1つ の Transformer を用意 • ({V,A} -> L) • ({L,A} -> V) • ({L,V} -> A) ▪ Self-attention なし • (L -> L) とかはない ◦ Transformer ▪ Self-attention あり • 特徴量を抽出した直後に CNN で局所的な特徴量を計算 (Sequential model) 10
  11. 3.1. Crossmodal Transformer (V -> L) α: 言語 (L); β:

    動画 (V) Language Video Language Video 11
  12. 3.2. Formula 1. Temporal Convolutions 2. Positional Embedding 3. Crossmodal

    Transformers 4. Self-Attention Transformers 5. Prediction 12
  13. 4. Experiments: Datasets CMU-MOSI: human multimodal sentiment analysis dataset •

    2,199 short monologue video clips • Label: -3 (strongly negative) to 3 (strongly positive) CMU-MOSEI: sentiment and emotion analysis dataset • 23,454 movie review video clips • Label: -3 (strongly negative) to 3 (strongly positive) IEMOCAP: human emotion analysis (Busso et al., 2008) • 10K videos • Label: happy, sad, angry and neutral (multilabel) (Zadeh et al., 2018) (Zadeh et al., 2016) 13
  14. 4. Experiments: Features Language: • 事前学習した Glove (glove.840B.300d) (Pennington et

    al., 2014) • 300 dimensional vector Vision • Facet (iMotions, 2017) • 35 facial action units Audio • COVAREP (Degottex et al., 2014) • 74 dimensional vector 14
  15. 4. Experiments: Word-aligned and unaligned Word-aligned • P2FA (Yuan and

    Liberman, 2008) を使い、単語に対応する動画と音声のタイムレ ンジを決める • タイムレンジ内で平均し、動画・音声の特徴量を得る • モダリティ毎の系列長は一致する Unaligned • 動画・音声の特徴量をそのまま使用する • モダリティ毎の系列長は一致しない • 先行研究には Connectionist temporal classification (Graves et al., 2006) を適 用して疑似アライメントを付ける 15
  16. 4. Experiments: Hyperparameters 16

  17. 4. Experiments: Results (CMU-MOSI) 評価尺度 • Acc_7: 7値分類の精度 • Acc_2:

    2値分類の精度 • F_1: F値(7値分類の平均?) • MAE: 平均絶対誤差 • Corr: 人手評価との相関 結果 • 全ての評価で SOTA を達成 • Word-aligned / Unaligned 間の性 能低下が限定的 17
  18. 4. Experiments: Results (CMU-MOSEI) 結果 • 全ての評価で SOTA を達成 •

    Word-aligned / Unaligned 間 の性能低下が限定的 18
  19. 4. Experiments: Results (IEMOCAP) 結果 • Sad が良くない 19

  20. 4. Experiments: Convergence • LSTM ベースのモデルに比 べ、収束が早い 20

  21. 4. Experiments: Ablation • 言語情報だけで十分な性能を達成できる • 単純な LF / EF

    な Transformer でも、 unimodal transformer より性能が良い • Crossmodal transformer を2つだけ使った モデル (Only [V, A -> L]) でも、LF / EF Transformer より性能が良い • 中間層よりも低レイヤーの特徴量のほうが 良い 21
  22. 4. Experiments: Visualization 22

  23. 5. Discussion and conclusion • Unaligned なマルチモーダルデータを扱う Multimodal Transformer モデル

    を提案した • Word-aligned / Unaligned の両方のシナリオで、先行研究の LSTM モデルの性 能を凌駕する • 提案手法では、低レイヤーの特徴量をそのまま使用するのが良い 23