Tsai et al._2019_ACL_Multimodal Transformer for Unaligned Multimodal Language Sequences

Multimodal Transformer for Unaligned Multimodal Language Sequences Yao-Hung Hubert Tsai,
Shaojie Bai, Paul Pu Liang, J. Zico Kolter, Louis-Philippe Morency, Ruslan Salakhutdinov Carnegie Mellon University ACL 2019 紹介者：平澤寅庄（TMU, M1, 小町研） 28 October, 2019 @小町研

0. Overview • アライメントが与えられていない複数モダリティの系列データを扱う手法（Multimodal Transformer）を提案した ◦ ２層の Transformer モデルをスタック
◦ １層目：クロスモーダル Transformer ◦ ２層目：Self-attention Transformer • モデルの適用先はは分類タスクのみ ◦ 生成タスクには適用しない • 複数の感情分析タスクで SOTA を達成 ◦ Word-aligned ◦ Unaligned 2

1. Introduction • 異なるモダリティの情報は、時間的に同じ長さでも、系列長が異なる ◦ 言語：単語の数 ◦ 音声・画像：フレーム数 • モダリティ間にアライメントは前処理で付ける
◦ 人手 ◦ Connectionist temporal classification (CTC) (Graves et al., 2006) • アラインメントのアノテーションは高コスト ◦ 専門的な知識 ◦ アノテーションをするコスト ◦ （前処理しているので、生データの情報をすべて使ってはいない） 3

2. Related Works: Human Multimodal Language Analysis • モダリティの入力長が、データごとに異なる ◦
（Multi30k では、画像特徴量の系列長はデータによらず一定） • 先行研究（すべて LSTM ベース） ◦ Early fusion (Lazaridou et al., 2015; Ngiam et al., 2011)：各モダリティの特徴量を concat する ◦ Late fusion：各モダリティの最後の隠れ状態を concat する ◦ Recurrent Multistage Fusion Network (RMFN) (Liang et al., 2018) ◦ Multimodal Factorization Model (MFM) (Tsai et al., 2019) ◦ Recurrent Attended Variation Embedding Network (RAVEN) (Wang et al., 2019) ◦ Multimodal Cyclic Translation Network (MCTN) (Pham et al., 2019) 4

Recurrent Multistage Fusion Network (RMFN) (Liang et al., 2018) 5

Multimodal Factorization Model (MFM) (Tsai et al., 2019) 6

Recurrent Attended Variation Embedding Network (RAVEN) (Wang et al., 2019)
7

Multimodal Cyclic Translation Network (MCTN) (Pham et al., 2019) 8

2. Related Works: Transformer Network • ニューラル機械翻訳で提案された (Vaswani et al.,
2017) ◦ Encoder / Decoder ◦ Self-attention ◦ 入出力は well-presented で discrete • 音声や画像は well-presented でもなければ discrete でもない 9

3. Multimodal Transformer (MT) • ２階層の Transformer ◦ Crossmodal Transformer
▪ モダリティのペア毎に１つの Transformer を用意 • ({V,A} -> L) • ({L,A} -> V) • ({L,V} -> A) ▪ Self-attention なし • (L -> L) とかはない ◦ Transformer ▪ Self-attention あり • 特徴量を抽出した直後に CNN で局所的な特徴量を計算 (Sequential model) 10

3.1. Crossmodal Transformer (V -> L) α: 言語 (L); β:
動画 (V) Language Video Language Video 11

3.2. Formula 1. Temporal Convolutions 2. Positional Embedding 3. Crossmodal
Transformers 4. Self-Attention Transformers 5. Prediction 12

4. Experiments: Datasets CMU-MOSI: human multimodal sentiment analysis dataset •
2,199 short monologue video clips • Label: -3 (strongly negative) to 3 (strongly positive) CMU-MOSEI: sentiment and emotion analysis dataset • 23,454 movie review video clips • Label: -3 (strongly negative) to 3 (strongly positive) IEMOCAP: human emotion analysis (Busso et al., 2008) • 10K videos • Label: happy, sad, angry and neutral (multilabel) (Zadeh et al., 2018) (Zadeh et al., 2016) 13

4. Experiments: Features Language: • 事前学習した Glove (glove.840B.300d) (Pennington et
al., 2014) • 300 dimensional vector Vision • Facet (iMotions, 2017) • 35 facial action units Audio • COVAREP (Degottex et al., 2014) • 74 dimensional vector 14

4. Experiments: Word-aligned and unaligned Word-aligned • P2FA (Yuan and
Liberman, 2008) を使い、単語に対応する動画と音声のタイムレンジを決める • タイムレンジ内で平均し、動画・音声の特徴量を得る • モダリティ毎の系列長は一致する Unaligned • 動画・音声の特徴量をそのまま使用する • モダリティ毎の系列長は一致しない • 先行研究には Connectionist temporal classiﬁcation (Graves et al., 2006) を適用して疑似アライメントを付ける 15

4. Experiments: Hyperparameters 16

4. Experiments: Results (CMU-MOSI) 評価尺度 • Acc_7: ７値分類の精度 • Acc_2:
２値分類の精度 • F_1: F値（７値分類の平均？） • MAE: 平均絶対誤差 • Corr: 人手評価との相関結果 • 全ての評価で SOTA を達成 • Word-aligned / Unaligned 間の性能低下が限定的 17

4. Experiments: Results (CMU-MOSEI) 結果 • 全ての評価で SOTA を達成 •
Word-aligned / Unaligned 間の性能低下が限定的 18

4. Experiments: Results (IEMOCAP) 結果 • Sad が良くない 19

4. Experiments: Convergence • LSTM ベースのモデルに比べ、収束が早い 20

4. Experiments: Ablation • 言語情報だけで十分な性能を達成できる • 単純な LF / EF
な Transformer でも、 unimodal transformer より性能が良い • Crossmodal transformer を２つだけ使ったモデル (Only [V, A -> L]) でも、LF / EF Transformer より性能が良い • 中間層よりも低レイヤーの特徴量のほうが良い 21

4. Experiments: Visualization 22

5. Discussion and conclusion • Unaligned なマルチモーダルデータを扱う Multimodal Transformer モデル
を提案した • Word-aligned / Unaligned の両方のシナリオで、先行研究の LSTM モデルの性能を凌駕する • 提案手法では、低レイヤーの特徴量をそのまま使用するのが良い 23

Tsai et al._2019_ACL_Multimodal Transformer for...

Tsai et al._2019_ACL_Multimodal Transformer for Unaligned Multimodal Language Sequences

tosho

More Decks by tosho

Other Decks in Science

Featured

Transcript

Multimodal Transformer for Unaligned Multimodal Language Sequences Yao-Hung Hubert Tsai,

0. Overview • アライメントが与えられていない複数モダリティの系列データを扱う手法（Multimodal Transformer）を提案した ◦ ２層の Transformer モデルをスタック

1. Introduction • 異なるモダリティの情報は、時間的に同じ長さでも、系列長が異なる ◦ 言語：単語の数 ◦ 音声・画像：フレーム数 • モダリティ間にアライメントは前処理で付ける

2. Related Works: Human Multimodal Language Analysis • モダリティの入力長が、データごとに異なる ◦

Recurrent Multistage Fusion Network (RMFN) (Liang et al., 2018) 5

Multimodal Factorization Model (MFM) (Tsai et al., 2019) 6

Recurrent Attended Variation Embedding Network (RAVEN) (Wang et al., 2019)

Multimodal Cyclic Translation Network (MCTN) (Pham et al., 2019) 8

2. Related Works: Transformer Network • ニューラル機械翻訳で提案された (Vaswani et al.,

3. Multimodal Transformer (MT) • ２階層の Transformer ◦ Crossmodal Transformer

3.1. Crossmodal Transformer (V -> L) α: 言語 (L); β:

3.2. Formula 1. Temporal Convolutions 2. Positional Embedding 3. Crossmodal

4. Experiments: Datasets CMU-MOSI: human multimodal sentiment analysis dataset •

4. Experiments: Features Language: • 事前学習した Glove (glove.840B.300d) (Pennington et

4. Experiments: Word-aligned and unaligned Word-aligned • P2FA (Yuan and

4. Experiments: Hyperparameters 16

4. Experiments: Results (CMU-MOSI) 評価尺度 • Acc_7: ７値分類の精度 • Acc_2:

4. Experiments: Results (CMU-MOSEI) 結果 • 全ての評価で SOTA を達成 •

4. Experiments: Results (IEMOCAP) 結果 • Sad が良くない 19

4. Experiments: Convergence • LSTM ベースのモデルに比べ、収束が早い 20

4. Experiments: Ablation • 言語情報だけで十分な性能を達成できる • 単純な LF / EF

4. Experiments: Visualization 22

5. Discussion and conclusion • Unaligned なマルチモーダルデータを扱う Multimodal Transformer モデル