Slide 1

Slide 1 text

Context-Dependent Sentiment Analysis in User-Generated Videos Soujanya Poria1 Erik Cambria1 Devamanyu Hazarika2 Navonil Majumder3 Amir Zadeh4 Louis-Philippe Morency4 1NTU Singapore, 2NITW India, 3IPN Mexico, 4CMU, USA Presented by Shunsuke KITADA Advanced course of Human Interaction Nov 19, 2018 資料を公開しています: http://bit.ly/hosei_paper_summary_human

Slide 2

Slide 2 text

自己紹介 2 ● 北田 俊輔 (Shunsuke KITADA) @shunk031 shunk031 ○ 法政大学大学院 理工学研究科 M1 彌冨研 所属 ■ 文字形状に着目した CJK 自然言語処理 ■ 皮膚障害画像を用いた自動診断システムの構築 ■ 広告自動生成に向けた基礎研究 ○ 100本程度読んだ論文のサマリを公開しています https://shunk031.github.io/paper-survey/ 資料を公開しています: http://bit.ly/hosei_paper_summary_human

Slide 3

Slide 3 text

文献情報 Poria, Soujanya and Cambria, Erik and Hazarika, Devamanyu and Majumder, Navonil and Zadeh, Amir and Morency, Louis-Philippe "Context-dependent sentiment analysis in user-generated videos." Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL) (Volume 1: Long Papers). Vol. 1. 2017. http://www.aclweb.org/anthology/P17-1081 3 資料を公開しています: http://bit.ly/hosei_paper_summary_human

Slide 4

Slide 4 text

TL;DR ● 発話レベルの依存関係から感情分析を行う ○ マルチモーダルから発話レベルの特徴を抽出 ○ 特徴の依存関係を学習し、感情分析を行う ■ 先行研究では依存関係を無視 ○ 話者独立な評価方法を採用 ■ 先行研究では評価データに学習データの話者が存在 ○ 依存関係を考慮した提案モデルがSoTAを記録 ● この論文を選んだ理由 ○ マルチモーダルを用いた自然言語処理に興味があった ○ 自然言語処理のトップカンファレンスであるACLに採択 Deep learningの手法 (LSTMやCNN) の説明は省きます 4

Slide 5

Slide 5 text

Introduction ● 自然言語処理 (NLP) における感情分析 ○ 属性抽出 (Aspect extraction) ○ 固有表現抽出 (Named entity recognition) ○ 概念抽出 (Concept extraction) ○ 人格認識 (Personality recognition) ● 動画にフォーカスした感情分析 ○ ユーザーが作り出したコンテンツの分析がトレンド ■ ソーシャルメディア (e.g. Youtube, Facebook, etc.) ○ テキストと比べて情報量が多い ■ 視覚的・音声的な情報が付与 ○ 感情分析 (Pos / Neg) からより粒度の細かい感情認識へ 5 Introduction > Related work > Method > Experiments > Conclusion

Slide 6

Slide 6 text

Introduction ● Utterance [Olson 1997] について An utterance os a unit of speech bound by breathes or pauses. ○ 発話中の呼吸や小休止を1つの単位 ■ この資料ではUtteranceを発話として扱います ● 発話レベルの感情分析 ○ 動画内の各発話に対して感情値が付与されている ○ 話者が話す内容に付随する様々な感情の動きを分析できる 6 Introduction > Related work > Method > Experiments > Conclusion [Olson 1997] Olson, David. "From utterance to text: The bias of language in speech and writing." Harvard educational review 47.3 (1977): 257-281.

Slide 7

Slide 7 text

[Pérez-Rosas+ 2013] Pérez-Rosas, Verónica, Rada Mihalcea, and Louis-Philippe Morency. "Utterance-level multimodal sentiment analysis." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vol. 1. 2013. [Wollmer+ 2013] Wollmer, Martin, et al. "Youtube movie reviews: In, cross, and open-domain sentiment analysis in an audiovisual context." IEEE Intelligent Systems 99.1 (2013) [Poria+ 2015] Poria, Soujanya, Erik Cambria, and Alexander Gelbukh. "Deep convolutional neural network textual features and multiple kernel learning for utterance-level multimodal sentiment analysis." Proceedings of the 2015 conference on empirical methods in natural language processing. 2015. [Cambria+ 2017] Cambria, Erik, et al. "Benchmarking multimodal sentiment analysis." arXiv preprint arXiv:1707.09538 (2017). Introduction ● マルチモーダルな感情分析 ○ 複数の先行研究が存在 [Pérez-Rosas+ 2013] [Wollmer+ 2013] [Poria+ 2015] 7 ✗ 先行研究では発話間の依存関係を考慮されていない ✗ SoTAモデルでは発話を独立と見なし無視 [Cambria+ 2017] ○ 動画中の発話は順序に関係がある ■ 発話単位の連続として扱う必要がある Introduction > Related work > Method > Experiments > Conclusion

Slide 8

Slide 8 text

Introduction ● 本研究の立ち位置 ○ 連続した発話単位を入力 ○ 文脈依存の発話レベルの特徴を抽出 ■ LSTM [Hochreiter+ 1997] に基づく枠組み ○ 話者独立の評価方法 ■ 汎化性能を正確に評価する ● 本研究での提案手法 ○ 連続する発話の順序・情報の保持 ○ 3つのベンチマークでSoTAを5〜10%上回る 8 Introduction > Related work > Method > Experiments > Conclusion [Hochreiter+ 1997] Hochreiter, Sepp, and Jürgen Schmidhuber. "Long short-term memory." Neural computation 9.8 (1997): 1735-1780.

Slide 9

Slide 9 text

Related work ● 自然言語処理における感情分析 ○ テキストベース [Cambria+ 2017] ○ 知識ベース [Cambria+2016; Poria+ 2016] ○ 統計ベース [Socher+ 2013; Oneto+ 2016] ● 感情表現における表情 [Ekman 1974] ● 音声・映像モダリティを用いた感情認識 ○ 古くから研究がされている [De Silva+ 1997; Chen+ 1998] ○ Feature-level [Kessous+ 2010], decision-level [Schuller 2011] ○ 追加でテキスト情報を用いる研究は少ない ■ [Wollmer+ 2013; Rozgic+ 2012] 9 Introduction > Related work > Method > Experiments > Conclusion

Slide 10

Slide 10 text

Related work ● 音声・映像・テキストを用いた感情分析 ○ Poriaら(本研究の著者でもある) が中心に進めている [Poria+ 2015; 2016d; 2017b] ■ 特徴量抽出に convolutional neural network (CNN) ■ 特徴量結合に multiple kernel learning (MKL) ● 音声・テキストのみを用いた感情認識 ○ Feature-level [Metalinou+ 2008; Eyben+ 2010a] ○ Decision-level [Wu and Liang 2011] 10 Introduction > Related work > Method > Experiments > Conclusion

Slide 11

Slide 11 text

Method 11 Introduction > Related work > Method > Experiments > Conclusion ● 提案手法の枠組み ○ 文脈独立な発話レベルの特徴量抽出 ■ text-CNN ● テキストからの特徴量抽出 ■ openSMILE ● 音声からの特徴量抽出 ■ 3D-CNN ● 映像からの特徴量抽出 ○ 文脈依存な特徴量抽出 ■ Contextual LSTM ○ モダリティの結合 ■ 階層的 vs 非階層的

Slide 12

Slide 12 text

Method 12 Introduction > Related work > Method > Experiments > Conclusion ● 提案手法の枠組み ○ 文脈独立な発話レベルの特徴量抽出 ■ text-CNN ● テキストからの特徴量抽出 ■ openSMILE ● 音声からの特徴量抽出 ■ 3D-CNN ● 映像からの特徴量抽出 ○ 文脈依存な特徴量抽出 ■ Contextual LSTM ○ モダリティの結合 ■ 階層的 vs 非階層的

Slide 13

Slide 13 text

Method 13 Introduction > Related work > Method > Experiments > Conclusion 文脈独立な発話レベルの特徴量抽出 テキストからの特徴量抽出 ● text-CNN ○ 入力 ■ 事前学習済みword2vec ○ モデルのアーキテクチャ ■ 2層の畳み込み層 ● 1層目は複数カーネルサイズ ● 2層目は単一カーネルサイズ ■ チャンクサイズ50words 畳み込みにより発話のセマンティックな特徴をモデルが獲得

Slide 14

Slide 14 text

Method 14 Introduction > Related work > Method > Experiments > Conclusion 文脈独立な発話レベルの特徴量抽出 音声からの特徴量抽出 ● openSMILE [Eyben+ 2010b] ○ オープンソースのソフトウエア ○ 入力 ■ 30 Hzフレームレート ■ 100 ms スライドウィンドウ ○ 得られる特徴 (6,373特徴) ■ 強度・ピッチ etc. ■ 統計量 (平均、二乗平均平方根) 音声から複数のlow-level descriptor (低次元特徴) を抽出 [Eyben+ 2010] Eyben, Florian, Martin Wöllmer, and Björn Schuller. "Opensmile: the munich versatile and fast open-source audio feature extractor." Proceedings of the 18th ACM international conference on Multimedia. ACM, 2010.

Slide 15

Slide 15 text

Method 15 Introduction > Related work > Method > Experiments > Conclusion 文脈独立な発話レベルの特徴量抽出 映像からの特徴量抽出 ● 3D-CNN [Ji+ 2013] ○ 通常のCNNに時間軸方向を追加 ○ 入力 ■ ○ モデルのアーキテクチャ ■ 畳み込みフィルタ 各フレームから関連する特徴を学習するだけでなく 与えられたフレームの変化を学習することを期待 [Ji+ 2013] Ji, Shuiwang, et al. "3D convolutional neural networks for human action recognition." IEEE transactions on pattern analysis and machine intelligence 35.1 (2013): 221-231.

Slide 16

Slide 16 text

Method 16 Introduction > Related work > Method > Experiments > Conclusion ● 提案手法の枠組み ○ 文脈独立な発話レベルの特徴量抽出 ■ text-CNN ● テキストからの特徴量抽出 ■ openSMILE ● 音声からの特徴量抽出 ■ 3D-CNN ● 映像からの特徴量抽出 ○ 文脈依存な特徴量抽出 ■ Contextual LSTM ○ モダリティの結合 ■ 階層的 vs 非階層的

Slide 17

Slide 17 text

Method 17 Introduction > Related work > Method > Experiments > Conclusion ● 提案手法の枠組み ○ 文脈独立な発話レベルの特徴量抽出 ■ text-CNN ● テキストからの特徴量抽出 ■ openSMILE ● 音声からの特徴量抽出 ■ 3D-CNN ● 映像からの特徴量抽出 ○ 文脈依存な特徴量抽出 ■ Contextual LSTM ○ モダリティの結合 ■ 階層的 vs 非階層的

Slide 18

Slide 18 text

Method 18 Introduction > Related work > Method > Experiments > Conclusion 文脈依存な特徴量抽出 Contextual LSTM ● LSTMを用いて、発話ごとの 関係性をを学習 ● 複数種類のLSTMを比較 ○ sc-LSTM (simple contextual LSTM) ○ h-LSTM (hidden-LSTM) ○ bc-LSTM (bi-directional contextual LSTM) ● ベースラインにはSVM

Slide 19

Slide 19 text

Method 19 Introduction > Related work > Method > Experiments > Conclusion 階層的・非階層的フレームワーク ● 非階層的フレームワーク ○ テキスト・音声・映像から 得られた文脈独立なユニモーダル 特徴量を単純に結合 ○ contextual LSTM (i.e. sc-LSTM, bc-LSTM) に通す 各モダリティから得られた特徴量の 相互作用を考慮しない場合のモデル

Slide 20

Slide 20 text

Method 20 Introduction > Related work > Method > Experiments > Conclusion 階層的・非階層的フレームワーク ● 階層的フレームワーク 2段階の操作によって各モダリティの 特徴量における階層構造を学習する Level-1 ❏ 各発話に対して、ユニモーダル特徴量を contextual LSTMに通して context-sensitive な表現を得る Level-2 ❏ Level-1から得られた表現を結合し、 さらにcontextual LSTMに通す (学習は独立)

Slide 21

Slide 21 text

Method 21 Introduction > Related work > Method > Experiments > Conclusion 階層的・非階層的フレームワーク ● 階層的フレームワーク 2段階の操作によって各モダリティの 特徴量における階層構造を学習する Level-2 詳細 We train Level-1 and Level-2 successively but separately, ie., the training is not performed“end-to-end”. ❏ Level-1とLevel-2はend-to-endでは学 習されていない

Slide 22

Slide 22 text

Method 22 Introduction > Related work > Method > Experiments > Conclusion モデルのトレーニング方法 Contextual LSTMの学習 ● Categorical cross-entropyを用いたパラメータの最適化 ● 正則化手法の適用 ○ dropout [Hinton+ 2012] ● パラメータのチューニング ○ トレーニングセットを8:2で分割 [Hinton+ 2012] Hinton, Geoffrey E., et al. "Improving neural networks by preventing co-adaptation of feature detectors." arXiv preprint arXiv:1207.0580 (2012).

Slide 23

Slide 23 text

Experiments 23 Introduction > Related work > Method > Experiments > Conclusion 評価用データセットについて 正確な汎化性能を測るための ”話者独立” train/test 分割 マルチモーダルの感情分析データセット ○ MOSI [Zadeh+ 2016] ■ 93人の英語話者がある話題について意見を述べる動画 ■ 5人のアノテータが -3 ~ +3 の感情値を付与 ● 感情値の平均を計算しpositive/negativeの2クラスに ○ MOUD [Perez-Rosas+ 2013] ■ 55人のスペイン語話者がある製品について レビューしている動画 ■ Google Translate APIを用いてスペイン語→英語 ■ pos / neu / neg が付与されているが、pos / negだけ使用

Slide 24

Slide 24 text

Experiments 24 Introduction > Related work > Method > Experiments > Conclusion 評価用データセットについて 正確な汎化性能を測るための ”話者独立” train/test 分割 マルチモーダルの感情認識データセット ○ IEMOCAP [Busso+ 2008] ■ 10人の英語話者が対話している動画 ■ データセットには9つの感情値が付与されている ● anger, happiness, sadness, neutral, excitement, frustration, fear, surprise, other ● 先行研究と比較するため、上記最初の4つを使用 ■ 8人を学習用データ、2人をテスト用データとして使用

Slide 25

Slide 25 text

Experiments 25 Introduction > Related work > Method > Experiments > Conclusion 評価用データセットについて 正確な汎化性能を測るための ”話者独立” train/test 分割 データセットの分布について Cross datasetについて ○ 汎化性能を確認するためにMOSIで学習したモデルを MOUDで評価

Slide 26

Slide 26 text

Experiments 26 Introduction > Related work > Method > Experiments > Conclusion ● 各モデルのパフォーマンス比較 ○ 階層的 vs 非階層的フレームワーク ○ 異なる各LSTMの性能比較 ○ ベースラインとの性能比較 ○ 各モダリティの重要性 ○ モデルの汎化性能 ○ その他定性的な分析

Slide 27

Slide 27 text

Experiments 27 Introduction > Related work > Method > Experiments > Conclusion ● 階層的 vs 非階層的フレームワーク ○ 非階層的フレームワーク (non-hier) はベースラインの uni-SVMを超えた ○ 階層的フレームワーク (hierarchical) が一番良かった

Slide 28

Slide 28 text

Experiments 28 Introduction > Related work > Method > Experiments > Conclusion ● 異なる各LSTMの性能比較 ○ sc-LSTM・bc-LSTMともに良い結果が出ている ○ sc-LSTMよりbc-LSTMが良かった ■ bc-LSTMは双方向のコンテキストを考慮できるため ○ 全結合層が無いh-LSTMより、有るほうが性能が良い

Slide 29

Slide 29 text

Experiments 29 Introduction > Related work > Method > Experiments > Conclusion ● ベースラインとの性能比較 ○ ベースラインのSVMよりLSTMモデルのほうが性能が高い ■ 発話間の文脈依存性を捉えられている ○ IEMOCAPではベースラインとの性能差が現れた ■ 発話に対してより広い文脈依存を捉える必要があった

Slide 30

Slide 30 text

Experiments 30 Introduction > Related work > Method > Experiments > Conclusion ● 既存SoTA 1[Poria+ 2015], 2[Rozgic+ 2012]との性能比較 ○ 既存SoTAは実験の際に話者が独立するように train / test 分割を行っていない ○ 発話間の文脈依存を考慮したモデルではない ○ 提案手法が既存SoTAモデルを上回る性能を示した

Slide 31

Slide 31 text

Experiments 31 Introduction > Related work > Method > Experiments > Conclusion ● 各モダリティの重要性 ○ Unimodalな特徴だけ使う場合より、bimodalやtrimodalと いったmultimodalな特徴を使ったほうが性能は良い ○ 音声特徴は映像特徴よりも効果的であった ○ MOSI・IEMOCAPにおいてテキスト特徴が有効 ○ MOUDにおいてテキスト特徴より音声特徴のほうが有効

Slide 32

Slide 32 text

Experiments 32 Introduction > Related work > Method > Experiments > Conclusion ● 各モダリティの重要性 ○ Unimodalな特徴だけ使う場合より、bimodalやtrimodalと いったmultimodalな特徴を使ったほうが性能は良い ○ 音声特徴は映像特徴よりも効果的であった ○ MOSI・IEMOCAPにおいてテキスト特徴が有効 ○ MOUDにおいてテキスト特徴より音声特徴のほうが有効 ■ スペイン語から英語に翻訳した影響 ■ スペイン語のword vectorを用いることでテキスト特徴 における性能が向上したことを確認

Slide 33

Slide 33 text

Experiments 33 Introduction > Related work > Method > Experiments > Conclusion ● モデルの汎化性能 MOSIでモデルの学習を行い、MOUDで評価 ○ 音声特徴、テキスト特徴を用いた場合性能が低下した ■ 英語のモデルでスペイン語を予測していたから ○ 映像特徴を用いた場合は性能が良かった ■ クロスリンガルであっても視覚的特徴は一般的な概念を 学習することが可能であると言える

Slide 34

Slide 34 text

Experiments 34 Introduction > Related work > Method > Experiments > Conclusion ● 定性分析 ○ 発話の文脈依存を考慮できることで、対象の発話を正確に 分析することが可能になった “What would have been a better name for the movie” ■ 話者が適切な名前をつけて映画の品質をコメントしよう としている文 ■ この発話には暗黙的な感情が含まれている ■ ベースラインのSVMではこの発話の分類に失敗

Slide 35

Slide 35 text

Experiments 35 Introduction > Related work > Method > Experiments > Conclusion ● 定性分析 ○ 発話の文脈依存を考慮できることで、対象の発話を正確に 分析することが可能になった “What would have been a better name for the movie” ■ 対象発話の文脈を含めて学習してる本提案手法は適切 に分類することができている “And I really enjoy it”, “The countryside which they showed while going through Ireland was astoundingly beautiful” ● これはポジティブな文脈であり、対象の発話を 分類する際の助けとなっている

Slide 36

Slide 36 text

Experiments 36 Introduction > Related work > Method > Experiments > Conclusion ● 定性分析 (音声✗ → テキスト◎) ○ 音声特徴のみでは正しく分類できない場合でも、テキスト特徴 と合わせることで正しく分類することが出来る “who doesn’t have any presence or greatness at all” ✗ 音声特徴だけではこの発話はpositiveと判定 ● “presence”や”greatness at all”に熱意があった ◎ テキスト特徴 “doesn’t” に反応してnegativeと判定 ○ 同様な判定がなされた例 “amazing special effects” ✗ 音声だけではこの発話はnegativeと判定 ◎ テキスト特徴ではpositiveと判定

Slide 37

Slide 37 text

Experiments 37 Introduction > Related work > Method > Experiments > Conclusion ● 定性分析 (テキスト✗ → 音声◎) ○ テキスト特徴ではポジティブな文脈でも、感情がこもった 音声特徴から正しく分類できる例もある “that like to see comic book characters treated responsibly” ✗ テキスト特徴だけではこの発話はpositiveと判定 ● “like to see”や”responsibly”に反応 ◎ 音声特徴 (high pitch of anger) を捉えてnegativeと判定 ◎ 映像から怒った顔の表情を捉えてnegativeと判定 ○ 音声や映像のノイズで提案手法が分類失敗する場合もある ○ 発話が無感情であったりバイアスが存在する場合もある

Slide 38

Slide 38 text

Conclusion 38 Introduction > Related work > Method > Experiments > Conclusion ● まとめ ○ 先行研究で無視されていた発話の文脈依存を考慮 ■ LSTMベースのネットワークを用いて文脈を捉える ○ 提案手法が先行研究を超えるパフォーマンスを示した ● 今後の展望 ○ LSTMにAttentionを導入し、各発話に対して どのモダリティが貢献しているか可視化したい ● 最新の関連研究 (気になった) ○ Masumura, Ryo, et al. (NTT) "Adversarial Training for Multi-task and Multi-lingual Joint Modeling of Utterance Intent Classification." Proceedings of the 2018 Conference on EMNLP, 2018