[論文紹介] Context-Dependent Sentiment Analysis in User-Generated Videos [ACL 2017] / Paper summary of Context-Dependent Sentiment Analysis in User-Generated Videos

09ed5afcc83ed2abfea708651c975882?s=47 Shunsuke KITADA
November 19, 2018

[論文紹介] Context-Dependent Sentiment Analysis in User-Generated Videos [ACL 2017] / Paper summary of Context-Dependent Sentiment Analysis in User-Generated Videos

法政大学理工学研究科 ヒューマンインタラクション特論 の講義で発表した論文紹介のスライドです。

09ed5afcc83ed2abfea708651c975882?s=128

Shunsuke KITADA

November 19, 2018
Tweet

Transcript

  1. Context-Dependent Sentiment Analysis in User-Generated Videos Soujanya Poria1 Erik Cambria1

    Devamanyu Hazarika2 Navonil Majumder3 Amir Zadeh4 Louis-Philippe Morency4 1NTU Singapore, 2NITW India, 3IPN Mexico, 4CMU, USA Presented by Shunsuke KITADA Advanced course of Human Interaction Nov 19, 2018 資料を公開しています: http://bit.ly/hosei_paper_summary_human
  2. 自己紹介 2 • 北田 俊輔 (Shunsuke KITADA) @shunk031 shunk031 ◦

    法政大学大学院 理工学研究科 M1 彌冨研 所属 ▪ 文字形状に着目した CJK 自然言語処理 ▪ 皮膚障害画像を用いた自動診断システムの構築 ▪ 広告自動生成に向けた基礎研究 ◦ 100本程度読んだ論文のサマリを公開しています https://shunk031.github.io/paper-survey/ 資料を公開しています: http://bit.ly/hosei_paper_summary_human
  3. 文献情報 Poria, Soujanya and Cambria, Erik and Hazarika, Devamanyu and

    Majumder, Navonil and Zadeh, Amir and Morency, Louis-Philippe "Context-dependent sentiment analysis in user-generated videos." Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL) (Volume 1: Long Papers). Vol. 1. 2017. http://www.aclweb.org/anthology/P17-1081 3 資料を公開しています: http://bit.ly/hosei_paper_summary_human
  4. TL;DR • 発話レベルの依存関係から感情分析を行う ◦ マルチモーダルから発話レベルの特徴を抽出 ◦ 特徴の依存関係を学習し、感情分析を行う ▪ 先行研究では依存関係を無視 ◦

    話者独立な評価方法を採用 ▪ 先行研究では評価データに学習データの話者が存在 ◦ 依存関係を考慮した提案モデルがSoTAを記録 • この論文を選んだ理由 ◦ マルチモーダルを用いた自然言語処理に興味があった ◦ 自然言語処理のトップカンファレンスであるACLに採択 Deep learningの手法 (LSTMやCNN) の説明は省きます 4
  5. Introduction • 自然言語処理 (NLP) における感情分析 ◦ 属性抽出 (Aspect extraction) ◦

    固有表現抽出 (Named entity recognition) ◦ 概念抽出 (Concept extraction) ◦ 人格認識 (Personality recognition) • 動画にフォーカスした感情分析 ◦ ユーザーが作り出したコンテンツの分析がトレンド ▪ ソーシャルメディア (e.g. Youtube, Facebook, etc.) ◦ テキストと比べて情報量が多い ▪ 視覚的・音声的な情報が付与 ◦ 感情分析 (Pos / Neg) からより粒度の細かい感情認識へ 5 Introduction > Related work > Method > Experiments > Conclusion
  6. Introduction • Utterance [Olson 1997] について An utterance os a

    unit of speech bound by breathes or pauses. ◦ 発話中の呼吸や小休止を1つの単位 ▪ この資料ではUtteranceを発話として扱います • 発話レベルの感情分析 ◦ 動画内の各発話に対して感情値が付与されている ◦ 話者が話す内容に付随する様々な感情の動きを分析できる 6 Introduction > Related work > Method > Experiments > Conclusion [Olson 1997] Olson, David. "From utterance to text: The bias of language in speech and writing." Harvard educational review 47.3 (1977): 257-281.
  7. [Pérez-Rosas+ 2013] Pérez-Rosas, Verónica, Rada Mihalcea, and Louis-Philippe Morency. "Utterance-level

    multimodal sentiment analysis." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vol. 1. 2013. [Wollmer+ 2013] Wollmer, Martin, et al. "Youtube movie reviews: In, cross, and open-domain sentiment analysis in an audiovisual context." IEEE Intelligent Systems 99.1 (2013) [Poria+ 2015] Poria, Soujanya, Erik Cambria, and Alexander Gelbukh. "Deep convolutional neural network textual features and multiple kernel learning for utterance-level multimodal sentiment analysis." Proceedings of the 2015 conference on empirical methods in natural language processing. 2015. [Cambria+ 2017] Cambria, Erik, et al. "Benchmarking multimodal sentiment analysis." arXiv preprint arXiv:1707.09538 (2017). Introduction • マルチモーダルな感情分析 ◦ 複数の先行研究が存在 [Pérez-Rosas+ 2013] [Wollmer+ 2013] [Poria+ 2015] 7 ✗ 先行研究では発話間の依存関係を考慮されていない ✗ SoTAモデルでは発話を独立と見なし無視 [Cambria+ 2017] ◦ 動画中の発話は順序に関係がある ▪ 発話単位の連続として扱う必要がある Introduction > Related work > Method > Experiments > Conclusion
  8. Introduction • 本研究の立ち位置 ◦ 連続した発話単位を入力 ◦ 文脈依存の発話レベルの特徴を抽出 ▪ LSTM [Hochreiter+

    1997] に基づく枠組み ◦ 話者独立の評価方法 ▪ 汎化性能を正確に評価する • 本研究での提案手法 ◦ 連続する発話の順序・情報の保持 ◦ 3つのベンチマークでSoTAを5〜10%上回る 8 Introduction > Related work > Method > Experiments > Conclusion [Hochreiter+ 1997] Hochreiter, Sepp, and Jürgen Schmidhuber. "Long short-term memory." Neural computation 9.8 (1997): 1735-1780.
  9. Related work • 自然言語処理における感情分析 ◦ テキストベース [Cambria+ 2017] ◦ 知識ベース

    [Cambria+2016; Poria+ 2016] ◦ 統計ベース [Socher+ 2013; Oneto+ 2016] • 感情表現における表情 [Ekman 1974] • 音声・映像モダリティを用いた感情認識 ◦ 古くから研究がされている [De Silva+ 1997; Chen+ 1998] ◦ Feature-level [Kessous+ 2010], decision-level [Schuller 2011] ◦ 追加でテキスト情報を用いる研究は少ない ▪ [Wollmer+ 2013; Rozgic+ 2012] 9 Introduction > Related work > Method > Experiments > Conclusion
  10. Related work • 音声・映像・テキストを用いた感情分析 ◦ Poriaら(本研究の著者でもある) が中心に進めている [Poria+ 2015; 2016d;

    2017b] ▪ 特徴量抽出に convolutional neural network (CNN) ▪ 特徴量結合に multiple kernel learning (MKL) • 音声・テキストのみを用いた感情認識 ◦ Feature-level [Metalinou+ 2008; Eyben+ 2010a] ◦ Decision-level [Wu and Liang 2011] 10 Introduction > Related work > Method > Experiments > Conclusion
  11. Method 11 Introduction > Related work > Method > Experiments

    > Conclusion • 提案手法の枠組み ◦ 文脈独立な発話レベルの特徴量抽出 ▪ text-CNN • テキストからの特徴量抽出 ▪ openSMILE • 音声からの特徴量抽出 ▪ 3D-CNN • 映像からの特徴量抽出 ◦ 文脈依存な特徴量抽出 ▪ Contextual LSTM ◦ モダリティの結合 ▪ 階層的 vs 非階層的
  12. Method 12 Introduction > Related work > Method > Experiments

    > Conclusion • 提案手法の枠組み ◦ 文脈独立な発話レベルの特徴量抽出 ▪ text-CNN • テキストからの特徴量抽出 ▪ openSMILE • 音声からの特徴量抽出 ▪ 3D-CNN • 映像からの特徴量抽出 ◦ 文脈依存な特徴量抽出 ▪ Contextual LSTM ◦ モダリティの結合 ▪ 階層的 vs 非階層的
  13. Method 13 Introduction > Related work > Method > Experiments

    > Conclusion 文脈独立な発話レベルの特徴量抽出 テキストからの特徴量抽出 • text-CNN ◦ 入力 ▪ 事前学習済みword2vec ◦ モデルのアーキテクチャ ▪ 2層の畳み込み層 • 1層目は複数カーネルサイズ • 2層目は単一カーネルサイズ ▪ チャンクサイズ50words 畳み込みにより発話のセマンティックな特徴をモデルが獲得
  14. Method 14 Introduction > Related work > Method > Experiments

    > Conclusion 文脈独立な発話レベルの特徴量抽出 音声からの特徴量抽出 • openSMILE [Eyben+ 2010b] ◦ オープンソースのソフトウエア ◦ 入力 ▪ 30 Hzフレームレート ▪ 100 ms スライドウィンドウ ◦ 得られる特徴 (6,373特徴) ▪ 強度・ピッチ etc. ▪ 統計量 (平均、二乗平均平方根) 音声から複数のlow-level descriptor (低次元特徴) を抽出 [Eyben+ 2010] Eyben, Florian, Martin Wöllmer, and Björn Schuller. "Opensmile: the munich versatile and fast open-source audio feature extractor." Proceedings of the 18th ACM international conference on Multimedia. ACM, 2010.
  15. Method 15 Introduction > Related work > Method > Experiments

    > Conclusion 文脈独立な発話レベルの特徴量抽出 映像からの特徴量抽出 • 3D-CNN [Ji+ 2013] ◦ 通常のCNNに時間軸方向を追加 ◦ 入力 ▪ ◦ モデルのアーキテクチャ ▪ 畳み込みフィルタ 各フレームから関連する特徴を学習するだけでなく 与えられたフレームの変化を学習することを期待 [Ji+ 2013] Ji, Shuiwang, et al. "3D convolutional neural networks for human action recognition." IEEE transactions on pattern analysis and machine intelligence 35.1 (2013): 221-231.
  16. Method 16 Introduction > Related work > Method > Experiments

    > Conclusion • 提案手法の枠組み ◦ 文脈独立な発話レベルの特徴量抽出 ▪ text-CNN • テキストからの特徴量抽出 ▪ openSMILE • 音声からの特徴量抽出 ▪ 3D-CNN • 映像からの特徴量抽出 ◦ 文脈依存な特徴量抽出 ▪ Contextual LSTM ◦ モダリティの結合 ▪ 階層的 vs 非階層的
  17. Method 17 Introduction > Related work > Method > Experiments

    > Conclusion • 提案手法の枠組み ◦ 文脈独立な発話レベルの特徴量抽出 ▪ text-CNN • テキストからの特徴量抽出 ▪ openSMILE • 音声からの特徴量抽出 ▪ 3D-CNN • 映像からの特徴量抽出 ◦ 文脈依存な特徴量抽出 ▪ Contextual LSTM ◦ モダリティの結合 ▪ 階層的 vs 非階層的
  18. Method 18 Introduction > Related work > Method > Experiments

    > Conclusion 文脈依存な特徴量抽出 Contextual LSTM • LSTMを用いて、発話ごとの 関係性をを学習 • 複数種類のLSTMを比較 ◦ sc-LSTM (simple contextual LSTM) ◦ h-LSTM (hidden-LSTM) ◦ bc-LSTM (bi-directional contextual LSTM) • ベースラインにはSVM
  19. Method 19 Introduction > Related work > Method > Experiments

    > Conclusion 階層的・非階層的フレームワーク • 非階層的フレームワーク ◦ テキスト・音声・映像から 得られた文脈独立なユニモーダル 特徴量を単純に結合 ◦ contextual LSTM (i.e. sc-LSTM, bc-LSTM) に通す 各モダリティから得られた特徴量の 相互作用を考慮しない場合のモデル
  20. Method 20 Introduction > Related work > Method > Experiments

    > Conclusion 階層的・非階層的フレームワーク • 階層的フレームワーク 2段階の操作によって各モダリティの 特徴量における階層構造を学習する Level-1 ❏ 各発話に対して、ユニモーダル特徴量を contextual LSTMに通して context-sensitive な表現を得る Level-2 ❏ Level-1から得られた表現を結合し、 さらにcontextual LSTMに通す (学習は独立)
  21. Method 21 Introduction > Related work > Method > Experiments

    > Conclusion 階層的・非階層的フレームワーク • 階層的フレームワーク 2段階の操作によって各モダリティの 特徴量における階層構造を学習する Level-2 詳細 We train Level-1 and Level-2 successively but separately, ie., the training is not performed“end-to-end”. ❏ Level-1とLevel-2はend-to-endでは学 習されていない
  22. Method 22 Introduction > Related work > Method > Experiments

    > Conclusion モデルのトレーニング方法 Contextual LSTMの学習 • Categorical cross-entropyを用いたパラメータの最適化 • 正則化手法の適用 ◦ dropout [Hinton+ 2012] • パラメータのチューニング ◦ トレーニングセットを8:2で分割 [Hinton+ 2012] Hinton, Geoffrey E., et al. "Improving neural networks by preventing co-adaptation of feature detectors." arXiv preprint arXiv:1207.0580 (2012).
  23. Experiments 23 Introduction > Related work > Method > Experiments

    > Conclusion 評価用データセットについて 正確な汎化性能を測るための ”話者独立” train/test 分割 マルチモーダルの感情分析データセット ◦ MOSI [Zadeh+ 2016] ▪ 93人の英語話者がある話題について意見を述べる動画 ▪ 5人のアノテータが -3 ~ +3 の感情値を付与 • 感情値の平均を計算しpositive/negativeの2クラスに ◦ MOUD [Perez-Rosas+ 2013] ▪ 55人のスペイン語話者がある製品について レビューしている動画 ▪ Google Translate APIを用いてスペイン語→英語 ▪ pos / neu / neg が付与されているが、pos / negだけ使用
  24. Experiments 24 Introduction > Related work > Method > Experiments

    > Conclusion 評価用データセットについて 正確な汎化性能を測るための ”話者独立” train/test 分割 マルチモーダルの感情認識データセット ◦ IEMOCAP [Busso+ 2008] ▪ 10人の英語話者が対話している動画 ▪ データセットには9つの感情値が付与されている • anger, happiness, sadness, neutral, excitement, frustration, fear, surprise, other • 先行研究と比較するため、上記最初の4つを使用 ▪ 8人を学習用データ、2人をテスト用データとして使用
  25. Experiments 25 Introduction > Related work > Method > Experiments

    > Conclusion 評価用データセットについて 正確な汎化性能を測るための ”話者独立” train/test 分割 データセットの分布について Cross datasetについて ◦ 汎化性能を確認するためにMOSIで学習したモデルを MOUDで評価
  26. Experiments 26 Introduction > Related work > Method > Experiments

    > Conclusion • 各モデルのパフォーマンス比較 ◦ 階層的 vs 非階層的フレームワーク ◦ 異なる各LSTMの性能比較 ◦ ベースラインとの性能比較 ◦ 各モダリティの重要性 ◦ モデルの汎化性能 ◦ その他定性的な分析
  27. Experiments 27 Introduction > Related work > Method > Experiments

    > Conclusion • 階層的 vs 非階層的フレームワーク ◦ 非階層的フレームワーク (non-hier) はベースラインの uni-SVMを超えた ◦ 階層的フレームワーク (hierarchical) が一番良かった
  28. Experiments 28 Introduction > Related work > Method > Experiments

    > Conclusion • 異なる各LSTMの性能比較 ◦ sc-LSTM・bc-LSTMともに良い結果が出ている ◦ sc-LSTMよりbc-LSTMが良かった ▪ bc-LSTMは双方向のコンテキストを考慮できるため ◦ 全結合層が無いh-LSTMより、有るほうが性能が良い
  29. Experiments 29 Introduction > Related work > Method > Experiments

    > Conclusion • ベースラインとの性能比較 ◦ ベースラインのSVMよりLSTMモデルのほうが性能が高い ▪ 発話間の文脈依存性を捉えられている ◦ IEMOCAPではベースラインとの性能差が現れた ▪ 発話に対してより広い文脈依存を捉える必要があった
  30. Experiments 30 Introduction > Related work > Method > Experiments

    > Conclusion • 既存SoTA 1[Poria+ 2015], 2[Rozgic+ 2012]との性能比較 ◦ 既存SoTAは実験の際に話者が独立するように train / test 分割を行っていない ◦ 発話間の文脈依存を考慮したモデルではない ◦ 提案手法が既存SoTAモデルを上回る性能を示した
  31. Experiments 31 Introduction > Related work > Method > Experiments

    > Conclusion • 各モダリティの重要性 ◦ Unimodalな特徴だけ使う場合より、bimodalやtrimodalと いったmultimodalな特徴を使ったほうが性能は良い ◦ 音声特徴は映像特徴よりも効果的であった ◦ MOSI・IEMOCAPにおいてテキスト特徴が有効 ◦ MOUDにおいてテキスト特徴より音声特徴のほうが有効
  32. Experiments 32 Introduction > Related work > Method > Experiments

    > Conclusion • 各モダリティの重要性 ◦ Unimodalな特徴だけ使う場合より、bimodalやtrimodalと いったmultimodalな特徴を使ったほうが性能は良い ◦ 音声特徴は映像特徴よりも効果的であった ◦ MOSI・IEMOCAPにおいてテキスト特徴が有効 ◦ MOUDにおいてテキスト特徴より音声特徴のほうが有効 ▪ スペイン語から英語に翻訳した影響 ▪ スペイン語のword vectorを用いることでテキスト特徴 における性能が向上したことを確認
  33. Experiments 33 Introduction > Related work > Method > Experiments

    > Conclusion • モデルの汎化性能 MOSIでモデルの学習を行い、MOUDで評価 ◦ 音声特徴、テキスト特徴を用いた場合性能が低下した ▪ 英語のモデルでスペイン語を予測していたから ◦ 映像特徴を用いた場合は性能が良かった ▪ クロスリンガルであっても視覚的特徴は一般的な概念を 学習することが可能であると言える
  34. Experiments 34 Introduction > Related work > Method > Experiments

    > Conclusion • 定性分析 ◦ 発話の文脈依存を考慮できることで、対象の発話を正確に 分析することが可能になった “What would have been a better name for the movie” ▪ 話者が適切な名前をつけて映画の品質をコメントしよう としている文 ▪ この発話には暗黙的な感情が含まれている ▪ ベースラインのSVMではこの発話の分類に失敗
  35. Experiments 35 Introduction > Related work > Method > Experiments

    > Conclusion • 定性分析 ◦ 発話の文脈依存を考慮できることで、対象の発話を正確に 分析することが可能になった “What would have been a better name for the movie” ▪ 対象発話の文脈を含めて学習してる本提案手法は適切 に分類することができている “And I really enjoy it”, “The countryside which they showed while going through Ireland was astoundingly beautiful” • これはポジティブな文脈であり、対象の発話を 分類する際の助けとなっている
  36. Experiments 36 Introduction > Related work > Method > Experiments

    > Conclusion • 定性分析 (音声✗ → テキスト◎) ◦ 音声特徴のみでは正しく分類できない場合でも、テキスト特徴 と合わせることで正しく分類することが出来る “who doesn’t have any presence or greatness at all” ✗ 音声特徴だけではこの発話はpositiveと判定 • “presence”や”greatness at all”に熱意があった ◎ テキスト特徴 “doesn’t” に反応してnegativeと判定 ◦ 同様な判定がなされた例 “amazing special effects” ✗ 音声だけではこの発話はnegativeと判定 ◎ テキスト特徴ではpositiveと判定
  37. Experiments 37 Introduction > Related work > Method > Experiments

    > Conclusion • 定性分析 (テキスト✗ → 音声◎) ◦ テキスト特徴ではポジティブな文脈でも、感情がこもった 音声特徴から正しく分類できる例もある “that like to see comic book characters treated responsibly” ✗ テキスト特徴だけではこの発話はpositiveと判定 • “like to see”や”responsibly”に反応 ◎ 音声特徴 (high pitch of anger) を捉えてnegativeと判定 ◎ 映像から怒った顔の表情を捉えてnegativeと判定 ◦ 音声や映像のノイズで提案手法が分類失敗する場合もある ◦ 発話が無感情であったりバイアスが存在する場合もある
  38. Conclusion 38 Introduction > Related work > Method > Experiments

    > Conclusion • まとめ ◦ 先行研究で無視されていた発話の文脈依存を考慮 ▪ LSTMベースのネットワークを用いて文脈を捉える ◦ 提案手法が先行研究を超えるパフォーマンスを示した • 今後の展望 ◦ LSTMにAttentionを導入し、各発話に対して どのモダリティが貢献しているか可視化したい • 最新の関連研究 (気になった) ◦ Masumura, Ryo, et al. (NTT) "Adversarial Training for Multi-task and Multi-lingual Joint Modeling of Utterance Intent Classification." Proceedings of the 2018 Conference on EMNLP, 2018