[論文紹介] Context-Dependent Sentiment Analysis in User-Generated Videos [ACL 2017] / Paper summary of Context-Dependent Sentiment Analysis in User-Generated Videos

Context-Dependent Sentiment Analysis in User-Generated Videos Soujanya Poria1 Erik Cambria1
Devamanyu Hazarika2 Navonil Majumder3 Amir Zadeh4 Louis-Philippe Morency4 １NTU Singapore, 2NITW India, 3IPN Mexico, 4CMU, USA Presented by Shunsuke KITADA Advanced course of Human Interaction Nov 19, 2018 資料を公開しています： http://bit.ly/hosei_paper_summary_human

自己紹介 2 • 北田俊輔 (Shunsuke KITADA) @shunk031 shunk031 ◦
法政大学大学院理工学研究科 M1 彌冨研所属 ▪ 文字形状に着目した CJK 自然言語処理 ▪ 皮膚障害画像を用いた自動診断システムの構築 ▪ 広告自動生成に向けた基礎研究 ◦ 100本程度読んだ論文のサマリを公開しています https://shunk031.github.io/paper-survey/ 資料を公開しています： http://bit.ly/hosei_paper_summary_human

文献情報 Poria, Soujanya and Cambria, Erik and Hazarika, Devamanyu and
Majumder, Navonil and Zadeh, Amir and Morency, Louis-Philippe "Context-dependent sentiment analysis in user-generated videos." Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL) (Volume 1: Long Papers). Vol. 1. 2017. http://www.aclweb.org/anthology/P17-1081 3 資料を公開しています： http://bit.ly/hosei_paper_summary_human

TL;DR • 発話レベルの依存関係から感情分析を行う ◦ マルチモーダルから発話レベルの特徴を抽出 ◦ 特徴の依存関係を学習し、感情分析を行う ▪ 先行研究では依存関係を無視 ◦
話者独立な評価方法を採用 ▪ 先行研究では評価データに学習データの話者が存在 ◦ 依存関係を考慮した提案モデルがSoTAを記録 • この論文を選んだ理由 ◦ マルチモーダルを用いた自然言語処理に興味があった ◦ 自然言語処理のトップカンファレンスであるACLに採択 Deep learningの手法 (LSTMやCNN) の説明は省きます 4

Introduction • 自然言語処理 (NLP) における感情分析 ◦ 属性抽出 (Aspect extraction) ◦
固有表現抽出 (Named entity recognition) ◦ 概念抽出 (Concept extraction) ◦ 人格認識 (Personality recognition) • 動画にフォーカスした感情分析 ◦ ユーザーが作り出したコンテンツの分析がトレンド ▪ ソーシャルメディア (e.g. Youtube, Facebook, etc.) ◦ テキストと比べて情報量が多い ▪ 視覚的・音声的な情報が付与 ◦ 感情分析 (Pos / Neg) からより粒度の細かい感情認識へ 5 Introduction > Related work > Method > Experiments > Conclusion

Introduction • Utterance [Olson 1997] について An utterance os a
unit of speech bound by breathes or pauses. ◦ 発話中の呼吸や小休止を1つの単位 ▪ この資料ではUtteranceを発話として扱います • 発話レベルの感情分析 ◦ 動画内の各発話に対して感情値が付与されている ◦ 話者が話す内容に付随する様々な感情の動きを分析できる 6 Introduction > Related work > Method > Experiments > Conclusion [Olson 1997] Olson, David. "From utterance to text: The bias of language in speech and writing." Harvard educational review 47.3 (1977): 257-281.

[Pérez-Rosas+ 2013] Pérez-Rosas, Verónica, Rada Mihalcea, and Louis-Philippe Morency. "Utterance-level
multimodal sentiment analysis." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vol. 1. 2013. [Wollmer+ 2013] Wollmer, Martin, et al. "Youtube movie reviews: In, cross, and open-domain sentiment analysis in an audiovisual context." IEEE Intelligent Systems 99.1 (2013) [Poria+ 2015] Poria, Soujanya, Erik Cambria, and Alexander Gelbukh. "Deep convolutional neural network textual features and multiple kernel learning for utterance-level multimodal sentiment analysis." Proceedings of the 2015 conference on empirical methods in natural language processing. 2015. [Cambria+ 2017] Cambria, Erik, et al. "Benchmarking multimodal sentiment analysis." arXiv preprint arXiv:1707.09538 (2017). Introduction • マルチモーダルな感情分析 ◦ 複数の先行研究が存在 [Pérez-Rosas+ 2013] [Wollmer+ 2013] [Poria+ 2015] 7 ✗ 先行研究では発話間の依存関係を考慮されていない ✗ SoTAモデルでは発話を独立と見なし無視 [Cambria+ 2017] ◦ 動画中の発話は順序に関係がある ▪ 発話単位の連続として扱う必要がある Introduction > Related work > Method > Experiments > Conclusion

Introduction • 本研究の立ち位置 ◦ 連続した発話単位を入力 ◦ 文脈依存の発話レベルの特徴を抽出 ▪ LSTM [Hochreiter+
1997] に基づく枠組み ◦ 話者独立の評価方法 ▪ 汎化性能を正確に評価する • 本研究での提案手法 ◦ 連続する発話の順序・情報の保持 ◦ 3つのベンチマークでSoTAを5〜10%上回る 8 Introduction > Related work > Method > Experiments > Conclusion [Hochreiter+ 1997] Hochreiter, Sepp, and Jürgen Schmidhuber. "Long short-term memory." Neural computation 9.8 (1997): 1735-1780.

Related work • 自然言語処理における感情分析 ◦ テキストベース [Cambria+ 2017] ◦ 知識ベース
[Cambria+2016; Poria+ 2016] ◦ 統計ベース [Socher+ 2013; Oneto+ 2016] • 感情表現における表情 [Ekman 1974] • 音声・映像モダリティを用いた感情認識 ◦ 古くから研究がされている [De Silva+ 1997; Chen+ 1998] ◦ Feature-level [Kessous+ 2010], decision-level [Schuller 2011] ◦ 追加でテキスト情報を用いる研究は少ない ▪ [Wollmer+ 2013; Rozgic+ 2012] 9 Introduction > Related work > Method > Experiments > Conclusion

Related work • 音声・映像・テキストを用いた感情分析 ◦ Poriaら(本研究の著者でもある) が中心に進めている [Poria+ 2015; 2016d;
2017b] ▪ 特徴量抽出に convolutional neural network (CNN) ▪ 特徴量結合に multiple kernel learning (MKL) • 音声・テキストのみを用いた感情認識 ◦ Feature-level [Metalinou+ 2008; Eyben+ 2010a] ◦ Decision-level [Wu and Liang 2011] 10 Introduction > Related work > Method > Experiments > Conclusion

Method 11 Introduction > Related work > Method > Experiments
> Conclusion • 提案手法の枠組み ◦ 文脈独立な発話レベルの特徴量抽出 ▪ text-CNN • テキストからの特徴量抽出 ▪ openSMILE • 音声からの特徴量抽出 ▪ 3D-CNN • 映像からの特徴量抽出 ◦ 文脈依存な特徴量抽出 ▪ Contextual LSTM ◦ モダリティの結合 ▪ 階層的 vs 非階層的

> Conclusion 文脈独立な発話レベルの特徴量抽出テキストからの特徴量抽出 • text-CNN ◦ 入力 ▪ 事前学習済みword2vec ◦ モデルのアーキテクチャ ▪ 2層の畳み込み層 • 1層目は複数カーネルサイズ • 2層目は単一カーネルサイズ ▪ チャンクサイズ50words 畳み込みにより発話のセマンティックな特徴をモデルが獲得

> Conclusion 文脈独立な発話レベルの特徴量抽出音声からの特徴量抽出 • openSMILE [Eyben+ 2010b] ◦ オープンソースのソフトウエア ◦ 入力 ▪ 30 Hzフレームレート ▪ 100 ms スライドウィンドウ ◦ 得られる特徴 (6,373特徴) ▪ 強度・ピッチ etc. ▪ 統計量 (平均、二乗平均平方根) 音声から複数のlow-level descriptor (低次元特徴) を抽出 [Eyben+ 2010] Eyben, Florian, Martin Wöllmer, and Björn Schuller. "Opensmile: the munich versatile and fast open-source audio feature extractor." Proceedings of the 18th ACM international conference on Multimedia. ACM, 2010.

> Conclusion 文脈独立な発話レベルの特徴量抽出映像からの特徴量抽出 • 3D-CNN [Ji+ 2013] ◦ 通常のCNNに時間軸方向を追加 ◦ 入力 ▪ ◦ モデルのアーキテクチャ ▪ 畳み込みフィルタ各フレームから関連する特徴を学習するだけでなく与えられたフレームの変化を学習することを期待 [Ji+ 2013] Ji, Shuiwang, et al. "3D convolutional neural networks for human action recognition." IEEE transactions on pattern analysis and machine intelligence 35.1 (2013): 221-231.

> Conclusion 文脈依存な特徴量抽出 Contextual LSTM • LSTMを用いて、発話ごとの関係性をを学習 • 複数種類のLSTMを比較 ◦ sc-LSTM (simple contextual LSTM) ◦ h-LSTM (hidden-LSTM) ◦ bc-LSTM (bi-directional contextual LSTM) • ベースラインにはSVM

> Conclusion 階層的・非階層的フレームワーク • 非階層的フレームワーク ◦ テキスト・音声・映像から得られた文脈独立なユニモーダル特徴量を単純に結合 ◦ contextual LSTM (i.e. sc-LSTM, bc-LSTM) に通す各モダリティから得られた特徴量の相互作用を考慮しない場合のモデル

> Conclusion 階層的・非階層的フレームワーク • 階層的フレームワーク 2段階の操作によって各モダリティの特徴量における階層構造を学習する Level-1 ❏ 各発話に対して、ユニモーダル特徴量を contextual LSTMに通して context-sensitive な表現を得る Level-2 ❏ Level-1から得られた表現を結合し、さらにcontextual LSTMに通す (学習は独立)

> Conclusion 階層的・非階層的フレームワーク • 階層的フレームワーク 2段階の操作によって各モダリティの特徴量における階層構造を学習する Level-2 詳細 We train Level-1 and Level-2 successively but separately, ie., the training is not performed“end-to-end”. ❏ Level-1とLevel-2はend-to-endでは学習されていない

> Conclusion モデルのトレーニング方法 Contextual LSTMの学習 • Categorical cross-entropyを用いたパラメータの最適化 • 正則化手法の適用 ◦ dropout [Hinton+ 2012] • パラメータのチューニング ◦ トレーニングセットを8:2で分割 [Hinton+ 2012] Hinton, Geoffrey E., et al. "Improving neural networks by preventing co-adaptation of feature detectors." arXiv preprint arXiv:1207.0580 (2012).

Experiments 23 Introduction > Related work > Method > Experiments
> Conclusion 評価用データセットについて正確な汎化性能を測るための ”話者独立” train/test 分割マルチモーダルの感情分析データセット ◦ MOSI [Zadeh+ 2016] ▪ 93人の英語話者がある話題について意見を述べる動画 ▪ 5人のアノテータが -3 ~ +3 の感情値を付与 • 感情値の平均を計算しpositive/negativeの2クラスに ◦ MOUD [Perez-Rosas+ 2013] ▪ 55人のスペイン語話者がある製品についてレビューしている動画 ▪ Google Translate APIを用いてスペイン語→英語 ▪ pos / neu / neg が付与されているが、pos / negだけ使用

> Conclusion 評価用データセットについて正確な汎化性能を測るための ”話者独立” train/test 分割マルチモーダルの感情認識データセット ◦ IEMOCAP [Busso+ 2008] ▪ 10人の英語話者が対話している動画 ▪ データセットには9つの感情値が付与されている • anger, happiness, sadness, neutral, excitement, frustration, fear, surprise, other • 先行研究と比較するため、上記最初の4つを使用 ▪ 8人を学習用データ、2人をテスト用データとして使用

> Conclusion 評価用データセットについて正確な汎化性能を測るための ”話者独立” train/test 分割データセットの分布について Cross datasetについて ◦ 汎化性能を確認するためにMOSIで学習したモデルを MOUDで評価

> Conclusion • 各モデルのパフォーマンス比較 ◦ 階層的 vs 非階層的フレームワーク ◦ 異なる各LSTMの性能比較 ◦ ベースラインとの性能比較 ◦ 各モダリティの重要性 ◦ モデルの汎化性能 ◦ その他定性的な分析

> Conclusion • 階層的 vs 非階層的フレームワーク ◦ 非階層的フレームワーク (non-hier) はベースラインの uni-SVMを超えた ◦ 階層的フレームワーク (hierarchical) が一番良かった

> Conclusion • 異なる各LSTMの性能比較 ◦ sc-LSTM・bc-LSTMともに良い結果が出ている ◦ sc-LSTMよりbc-LSTMが良かった ▪ bc-LSTMは双方向のコンテキストを考慮できるため ◦ 全結合層が無いh-LSTMより、有るほうが性能が良い

> Conclusion • ベースラインとの性能比較 ◦ ベースラインのSVMよりLSTMモデルのほうが性能が高い ▪ 発話間の文脈依存性を捉えられている ◦ IEMOCAPではベースラインとの性能差が現れた ▪ 発話に対してより広い文脈依存を捉える必要があった

> Conclusion • 既存SoTA 1[Poria+ 2015], 2[Rozgic+ 2012]との性能比較 ◦ 既存SoTAは実験の際に話者が独立するように train / test 分割を行っていない ◦ 発話間の文脈依存を考慮したモデルではない ◦ 提案手法が既存SoTAモデルを上回る性能を示した

> Conclusion • 各モダリティの重要性 ◦ Unimodalな特徴だけ使う場合より、bimodalやtrimodalといったmultimodalな特徴を使ったほうが性能は良い ◦ 音声特徴は映像特徴よりも効果的であった ◦ MOSI・IEMOCAPにおいてテキスト特徴が有効 ◦ MOUDにおいてテキスト特徴より音声特徴のほうが有効

> Conclusion • 各モダリティの重要性 ◦ Unimodalな特徴だけ使う場合より、bimodalやtrimodalといったmultimodalな特徴を使ったほうが性能は良い ◦ 音声特徴は映像特徴よりも効果的であった ◦ MOSI・IEMOCAPにおいてテキスト特徴が有効 ◦ MOUDにおいてテキスト特徴より音声特徴のほうが有効 ▪ スペイン語から英語に翻訳した影響 ▪ スペイン語のword vectorを用いることでテキスト特徴における性能が向上したことを確認

> Conclusion • モデルの汎化性能 MOSIでモデルの学習を行い、MOUDで評価 ◦ 音声特徴、テキスト特徴を用いた場合性能が低下した ▪ 英語のモデルでスペイン語を予測していたから ◦ 映像特徴を用いた場合は性能が良かった ▪ クロスリンガルであっても視覚的特徴は一般的な概念を学習することが可能であると言える

> Conclusion • 定性分析 ◦ 発話の文脈依存を考慮できることで、対象の発話を正確に分析することが可能になった “What would have been a better name for the movie” ▪ 話者が適切な名前をつけて映画の品質をコメントしようとしている文 ▪ この発話には暗黙的な感情が含まれている ▪ ベースラインのSVMではこの発話の分類に失敗

> Conclusion • 定性分析 ◦ 発話の文脈依存を考慮できることで、対象の発話を正確に分析することが可能になった “What would have been a better name for the movie” ▪ 対象発話の文脈を含めて学習してる本提案手法は適切に分類することができている “And I really enjoy it”, “The countryside which they showed while going through Ireland was astoundingly beautiful” • これはポジティブな文脈であり、対象の発話を分類する際の助けとなっている

> Conclusion • 定性分析 (音声✗ → テキスト◎) ◦ 音声特徴のみでは正しく分類できない場合でも、テキスト特徴と合わせることで正しく分類することが出来る “who doesn’t have any presence or greatness at all” ✗ 音声特徴だけではこの発話はpositiveと判定 • “presence”や”greatness at all”に熱意があった ◎ テキスト特徴 “doesn’t” に反応してnegativeと判定 ◦ 同様な判定がなされた例 “amazing special effects” ✗ 音声だけではこの発話はnegativeと判定 ◎ テキスト特徴ではpositiveと判定

> Conclusion • 定性分析 (テキスト✗ → 音声◎) ◦ テキスト特徴ではポジティブな文脈でも、感情がこもった音声特徴から正しく分類できる例もある “that like to see comic book characters treated responsibly” ✗ テキスト特徴だけではこの発話はpositiveと判定 • “like to see”や”responsibly”に反応 ◎ 音声特徴 (high pitch of anger) を捉えてnegativeと判定 ◎ 映像から怒った顔の表情を捉えてnegativeと判定 ◦ 音声や映像のノイズで提案手法が分類失敗する場合もある ◦ 発話が無感情であったりバイアスが存在する場合もある

Conclusion 38 Introduction > Related work > Method > Experiments
> Conclusion • まとめ ◦ 先行研究で無視されていた発話の文脈依存を考慮 ▪ LSTMベースのネットワークを用いて文脈を捉える ◦ 提案手法が先行研究を超えるパフォーマンスを示した • 今後の展望 ◦ LSTMにAttentionを導入し、各発話に対してどのモダリティが貢献しているか可視化したい • 最新の関連研究 (気になった) ◦ Masumura, Ryo, et al. (NTT) "Adversarial Training for Multi-task and Multi-lingual Joint Modeling of Utterance Intent Classification." Proceedings of the 2018 Conference on EMNLP, 2018

[論文紹介] Context-Dependent Sentiment Analysis in ...

[論文紹介] Context-Dependent Sentiment Analysis in User-Generated Videos [ACL 2017] / Paper summary of Context-Dependent Sentiment Analysis in User-Generated Videos

More Decks by Shunsuke KITADA

Other Decks in Research

Featured

Transcript