$30 off During Our Annual Pro Sale. View Details »

[論文紹介] Context-Dependent Sentiment Analysis in User-Generated Videos [ACL 2017] / Paper summary of Context-Dependent Sentiment Analysis in User-Generated Videos

[論文紹介] Context-Dependent Sentiment Analysis in User-Generated Videos [ACL 2017] / Paper summary of Context-Dependent Sentiment Analysis in User-Generated Videos

法政大学理工学研究科 ヒューマンインタラクション特論 の講義で発表した論文紹介のスライドです。

Shunsuke KITADA

November 19, 2018
Tweet

More Decks by Shunsuke KITADA

Other Decks in Research

Transcript

  1. Context-Dependent Sentiment Analysis in
    User-Generated Videos
    Soujanya Poria1 Erik Cambria1 Devamanyu Hazarika2
    Navonil Majumder3 Amir Zadeh4 Louis-Philippe Morency4
    1NTU Singapore, 2NITW India, 3IPN Mexico, 4CMU, USA
    Presented by Shunsuke KITADA
    Advanced course of Human Interaction
    Nov 19, 2018
    資料を公開しています: http://bit.ly/hosei_paper_summary_human

    View Slide

  2. 自己紹介
    2
    ● 北田 俊輔 (Shunsuke KITADA)
    @shunk031 shunk031
    ○ 法政大学大学院 理工学研究科 M1 彌冨研 所属
    ■ 文字形状に着目した CJK 自然言語処理
    ■ 皮膚障害画像を用いた自動診断システムの構築
    ■ 広告自動生成に向けた基礎研究
    ○ 100本程度読んだ論文のサマリを公開しています
    https://shunk031.github.io/paper-survey/
    資料を公開しています: http://bit.ly/hosei_paper_summary_human

    View Slide

  3. 文献情報
    Poria, Soujanya and Cambria, Erik and Hazarika,
    Devamanyu and Majumder, Navonil and Zadeh, Amir and
    Morency, Louis-Philippe
    "Context-dependent sentiment analysis in
    user-generated videos."
    Proceedings of the 55th Annual Meeting of the Association
    for Computational Linguistics (ACL) (Volume 1: Long
    Papers). Vol. 1. 2017.
    http://www.aclweb.org/anthology/P17-1081
    3
    資料を公開しています: http://bit.ly/hosei_paper_summary_human

    View Slide

  4. TL;DR
    ● 発話レベルの依存関係から感情分析を行う
    ○ マルチモーダルから発話レベルの特徴を抽出
    ○ 特徴の依存関係を学習し、感情分析を行う
    ■ 先行研究では依存関係を無視
    ○ 話者独立な評価方法を採用
    ■ 先行研究では評価データに学習データの話者が存在
    ○ 依存関係を考慮した提案モデルがSoTAを記録
    ● この論文を選んだ理由
    ○ マルチモーダルを用いた自然言語処理に興味があった
    ○ 自然言語処理のトップカンファレンスであるACLに採択
    Deep learningの手法 (LSTMやCNN) の説明は省きます
    4

    View Slide

  5. Introduction
    ● 自然言語処理 (NLP) における感情分析
    ○ 属性抽出 (Aspect extraction)
    ○ 固有表現抽出 (Named entity recognition)
    ○ 概念抽出 (Concept extraction)
    ○ 人格認識 (Personality recognition)
    ● 動画にフォーカスした感情分析
    ○ ユーザーが作り出したコンテンツの分析がトレンド
    ■ ソーシャルメディア (e.g. Youtube, Facebook, etc.)
    ○ テキストと比べて情報量が多い
    ■ 視覚的・音声的な情報が付与
    ○ 感情分析 (Pos / Neg) からより粒度の細かい感情認識へ
    5
    Introduction > Related work > Method > Experiments > Conclusion

    View Slide

  6. Introduction
    ● Utterance [Olson 1997] について
    An utterance os a unit of speech bound by
    breathes or pauses.
    ○ 発話中の呼吸や小休止を1つの単位
    ■ この資料ではUtteranceを発話として扱います
    ● 発話レベルの感情分析
    ○ 動画内の各発話に対して感情値が付与されている
    ○ 話者が話す内容に付随する様々な感情の動きを分析できる
    6
    Introduction > Related work > Method > Experiments > Conclusion
    [Olson 1997] Olson, David. "From utterance to text: The bias of language in speech and writing." Harvard educational review 47.3 (1977): 257-281.

    View Slide

  7. [Pérez-Rosas+ 2013] Pérez-Rosas, Verónica, Rada Mihalcea, and Louis-Philippe Morency. "Utterance-level multimodal sentiment analysis." Proceedings of the
    51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vol. 1. 2013.
    [Wollmer+ 2013] Wollmer, Martin, et al. "Youtube movie reviews: In, cross, and open-domain sentiment analysis in an audiovisual context." IEEE Intelligent
    Systems 99.1 (2013)
    [Poria+ 2015] Poria, Soujanya, Erik Cambria, and Alexander Gelbukh. "Deep convolutional neural network textual features and multiple kernel learning for
    utterance-level multimodal sentiment analysis." Proceedings of the 2015 conference on empirical methods in natural language processing. 2015.
    [Cambria+ 2017] Cambria, Erik, et al. "Benchmarking multimodal sentiment analysis." arXiv preprint arXiv:1707.09538 (2017).
    Introduction
    ● マルチモーダルな感情分析
    ○ 複数の先行研究が存在
    [Pérez-Rosas+ 2013] [Wollmer+ 2013] [Poria+ 2015]
    7
    ✗ 先行研究では発話間の依存関係を考慮されていない
    ✗ SoTAモデルでは発話を独立と見なし無視 [Cambria+ 2017]
    ○ 動画中の発話は順序に関係がある
    ■ 発話単位の連続として扱う必要がある
    Introduction > Related work > Method > Experiments > Conclusion

    View Slide

  8. Introduction
    ● 本研究の立ち位置
    ○ 連続した発話単位を入力
    ○ 文脈依存の発話レベルの特徴を抽出
    ■ LSTM [Hochreiter+ 1997] に基づく枠組み
    ○ 話者独立の評価方法
    ■ 汎化性能を正確に評価する
    ● 本研究での提案手法
    ○ 連続する発話の順序・情報の保持
    ○ 3つのベンチマークでSoTAを5〜10%上回る
    8
    Introduction > Related work > Method > Experiments > Conclusion
    [Hochreiter+ 1997] Hochreiter, Sepp, and Jürgen Schmidhuber. "Long short-term memory." Neural computation 9.8 (1997): 1735-1780.

    View Slide

  9. Related work
    ● 自然言語処理における感情分析
    ○ テキストベース [Cambria+ 2017]
    ○ 知識ベース [Cambria+2016; Poria+ 2016]
    ○ 統計ベース [Socher+ 2013; Oneto+ 2016]
    ● 感情表現における表情 [Ekman 1974]
    ● 音声・映像モダリティを用いた感情認識
    ○ 古くから研究がされている [De Silva+ 1997; Chen+ 1998]
    ○ Feature-level [Kessous+ 2010], decision-level [Schuller 2011]
    ○ 追加でテキスト情報を用いる研究は少ない
    ■ [Wollmer+ 2013; Rozgic+ 2012]
    9
    Introduction > Related work > Method > Experiments > Conclusion

    View Slide

  10. Related work
    ● 音声・映像・テキストを用いた感情分析
    ○ Poriaら(本研究の著者でもある) が中心に進めている
    [Poria+ 2015; 2016d; 2017b]
    ■ 特徴量抽出に convolutional neural network (CNN)
    ■ 特徴量結合に multiple kernel learning (MKL)
    ● 音声・テキストのみを用いた感情認識
    ○ Feature-level [Metalinou+ 2008; Eyben+ 2010a]
    ○ Decision-level [Wu and Liang 2011]
    10
    Introduction > Related work > Method > Experiments > Conclusion

    View Slide

  11. Method
    11
    Introduction > Related work > Method > Experiments > Conclusion
    ● 提案手法の枠組み
    ○ 文脈独立な発話レベルの特徴量抽出
    ■ text-CNN
    ● テキストからの特徴量抽出
    ■ openSMILE
    ● 音声からの特徴量抽出
    ■ 3D-CNN
    ● 映像からの特徴量抽出
    ○ 文脈依存な特徴量抽出
    ■ Contextual LSTM
    ○ モダリティの結合
    ■ 階層的 vs 非階層的

    View Slide

  12. Method
    12
    Introduction > Related work > Method > Experiments > Conclusion
    ● 提案手法の枠組み
    ○ 文脈独立な発話レベルの特徴量抽出
    ■ text-CNN
    ● テキストからの特徴量抽出
    ■ openSMILE
    ● 音声からの特徴量抽出
    ■ 3D-CNN
    ● 映像からの特徴量抽出
    ○ 文脈依存な特徴量抽出
    ■ Contextual LSTM
    ○ モダリティの結合
    ■ 階層的 vs 非階層的

    View Slide

  13. Method
    13
    Introduction > Related work > Method > Experiments > Conclusion
    文脈独立な発話レベルの特徴量抽出
    テキストからの特徴量抽出
    ● text-CNN
    ○ 入力
    ■ 事前学習済みword2vec
    ○ モデルのアーキテクチャ
    ■ 2層の畳み込み層
    ● 1層目は複数カーネルサイズ
    ● 2層目は単一カーネルサイズ
    ■ チャンクサイズ50words
    畳み込みにより発話のセマンティックな特徴をモデルが獲得

    View Slide

  14. Method
    14
    Introduction > Related work > Method > Experiments > Conclusion
    文脈独立な発話レベルの特徴量抽出
    音声からの特徴量抽出
    ● openSMILE [Eyben+ 2010b]
    ○ オープンソースのソフトウエア
    ○ 入力
    ■ 30 Hzフレームレート
    ■ 100 ms スライドウィンドウ
    ○ 得られる特徴 (6,373特徴)
    ■ 強度・ピッチ etc.
    ■ 統計量 (平均、二乗平均平方根)
    音声から複数のlow-level descriptor (低次元特徴) を抽出
    [Eyben+ 2010] Eyben, Florian, Martin Wöllmer, and Björn Schuller. "Opensmile: the munich versatile and fast open-source audio feature extractor."
    Proceedings of the 18th ACM international conference on Multimedia. ACM, 2010.

    View Slide

  15. Method
    15
    Introduction > Related work > Method > Experiments > Conclusion
    文脈独立な発話レベルの特徴量抽出
    映像からの特徴量抽出
    ● 3D-CNN [Ji+ 2013]
    ○ 通常のCNNに時間軸方向を追加
    ○ 入力

    ○ モデルのアーキテクチャ
    ■ 畳み込みフィルタ
    各フレームから関連する特徴を学習するだけでなく
    与えられたフレームの変化を学習することを期待
    [Ji+ 2013] Ji, Shuiwang, et al. "3D convolutional neural networks for human action recognition." IEEE transactions on pattern analysis and machine intelligence
    35.1 (2013): 221-231.

    View Slide

  16. Method
    16
    Introduction > Related work > Method > Experiments > Conclusion
    ● 提案手法の枠組み
    ○ 文脈独立な発話レベルの特徴量抽出
    ■ text-CNN
    ● テキストからの特徴量抽出
    ■ openSMILE
    ● 音声からの特徴量抽出
    ■ 3D-CNN
    ● 映像からの特徴量抽出
    ○ 文脈依存な特徴量抽出
    ■ Contextual LSTM
    ○ モダリティの結合
    ■ 階層的 vs 非階層的

    View Slide

  17. Method
    17
    Introduction > Related work > Method > Experiments > Conclusion
    ● 提案手法の枠組み
    ○ 文脈独立な発話レベルの特徴量抽出
    ■ text-CNN
    ● テキストからの特徴量抽出
    ■ openSMILE
    ● 音声からの特徴量抽出
    ■ 3D-CNN
    ● 映像からの特徴量抽出
    ○ 文脈依存な特徴量抽出
    ■ Contextual LSTM
    ○ モダリティの結合
    ■ 階層的 vs 非階層的

    View Slide

  18. Method
    18
    Introduction > Related work > Method > Experiments > Conclusion
    文脈依存な特徴量抽出
    Contextual LSTM
    ● LSTMを用いて、発話ごとの
    関係性をを学習
    ● 複数種類のLSTMを比較
    ○ sc-LSTM
    (simple contextual LSTM)
    ○ h-LSTM
    (hidden-LSTM)
    ○ bc-LSTM
    (bi-directional contextual LSTM)
    ● ベースラインにはSVM

    View Slide

  19. Method
    19
    Introduction > Related work > Method > Experiments > Conclusion
    階層的・非階層的フレームワーク
    ● 非階層的フレームワーク
    ○ テキスト・音声・映像から
    得られた文脈独立なユニモーダル
    特徴量を単純に結合
    ○ contextual LSTM (i.e. sc-LSTM,
    bc-LSTM) に通す
    各モダリティから得られた特徴量の
    相互作用を考慮しない場合のモデル

    View Slide

  20. Method
    20
    Introduction > Related work > Method > Experiments > Conclusion
    階層的・非階層的フレームワーク
    ● 階層的フレームワーク
    2段階の操作によって各モダリティの
    特徴量における階層構造を学習する
    Level-1
    ❏ 各発話に対して、ユニモーダル特徴量を
    contextual LSTMに通して
    context-sensitive な表現を得る
    Level-2
    ❏ Level-1から得られた表現を結合し、
    さらにcontextual LSTMに通す (学習は独立)

    View Slide

  21. Method
    21
    Introduction > Related work > Method > Experiments > Conclusion
    階層的・非階層的フレームワーク
    ● 階層的フレームワーク
    2段階の操作によって各モダリティの
    特徴量における階層構造を学習する
    Level-2 詳細
    We train Level-1 and Level-2 successively
    but separately, ie., the training is not
    performed“end-to-end”.
    ❏ Level-1とLevel-2はend-to-endでは学
    習されていない

    View Slide

  22. Method
    22
    Introduction > Related work > Method > Experiments > Conclusion
    モデルのトレーニング方法
    Contextual LSTMの学習
    ● Categorical cross-entropyを用いたパラメータの最適化
    ● 正則化手法の適用
    ○ dropout [Hinton+ 2012]
    ● パラメータのチューニング
    ○ トレーニングセットを8:2で分割
    [Hinton+ 2012] Hinton, Geoffrey E., et al. "Improving neural networks by preventing co-adaptation of feature detectors." arXiv preprint arXiv:1207.0580 (2012).

    View Slide

  23. Experiments
    23
    Introduction > Related work > Method > Experiments > Conclusion
    評価用データセットについて
    正確な汎化性能を測るための ”話者独立” train/test 分割
    マルチモーダルの感情分析データセット
    ○ MOSI [Zadeh+ 2016]
    ■ 93人の英語話者がある話題について意見を述べる動画
    ■ 5人のアノテータが -3 ~ +3 の感情値を付与
    ● 感情値の平均を計算しpositive/negativeの2クラスに
    ○ MOUD [Perez-Rosas+ 2013]
    ■ 55人のスペイン語話者がある製品について
    レビューしている動画
    ■ Google Translate APIを用いてスペイン語→英語
    ■ pos / neu / neg が付与されているが、pos / negだけ使用

    View Slide

  24. Experiments
    24
    Introduction > Related work > Method > Experiments > Conclusion
    評価用データセットについて
    正確な汎化性能を測るための ”話者独立” train/test 分割
    マルチモーダルの感情認識データセット
    ○ IEMOCAP [Busso+ 2008]
    ■ 10人の英語話者が対話している動画
    ■ データセットには9つの感情値が付与されている
    ● anger, happiness, sadness, neutral, excitement,
    frustration, fear, surprise, other
    ● 先行研究と比較するため、上記最初の4つを使用
    ■ 8人を学習用データ、2人をテスト用データとして使用

    View Slide

  25. Experiments
    25
    Introduction > Related work > Method > Experiments > Conclusion
    評価用データセットについて
    正確な汎化性能を測るための ”話者独立” train/test 分割
    データセットの分布について
    Cross datasetについて
    ○ 汎化性能を確認するためにMOSIで学習したモデルを
    MOUDで評価

    View Slide

  26. Experiments
    26
    Introduction > Related work > Method > Experiments > Conclusion
    ● 各モデルのパフォーマンス比較
    ○ 階層的 vs 非階層的フレームワーク
    ○ 異なる各LSTMの性能比較
    ○ ベースラインとの性能比較
    ○ 各モダリティの重要性
    ○ モデルの汎化性能
    ○ その他定性的な分析

    View Slide

  27. Experiments
    27
    Introduction > Related work > Method > Experiments > Conclusion
    ● 階層的 vs 非階層的フレームワーク
    ○ 非階層的フレームワーク (non-hier) はベースラインの
    uni-SVMを超えた
    ○ 階層的フレームワーク (hierarchical) が一番良かった

    View Slide

  28. Experiments
    28
    Introduction > Related work > Method > Experiments > Conclusion
    ● 異なる各LSTMの性能比較
    ○ sc-LSTM・bc-LSTMともに良い結果が出ている
    ○ sc-LSTMよりbc-LSTMが良かった
    ■ bc-LSTMは双方向のコンテキストを考慮できるため
    ○ 全結合層が無いh-LSTMより、有るほうが性能が良い

    View Slide

  29. Experiments
    29
    Introduction > Related work > Method > Experiments > Conclusion
    ● ベースラインとの性能比較
    ○ ベースラインのSVMよりLSTMモデルのほうが性能が高い
    ■ 発話間の文脈依存性を捉えられている
    ○ IEMOCAPではベースラインとの性能差が現れた
    ■ 発話に対してより広い文脈依存を捉える必要があった

    View Slide

  30. Experiments
    30
    Introduction > Related work > Method > Experiments > Conclusion
    ● 既存SoTA 1[Poria+ 2015], 2[Rozgic+ 2012]との性能比較
    ○ 既存SoTAは実験の際に話者が独立するように
    train / test 分割を行っていない
    ○ 発話間の文脈依存を考慮したモデルではない
    ○ 提案手法が既存SoTAモデルを上回る性能を示した

    View Slide

  31. Experiments
    31
    Introduction > Related work > Method > Experiments > Conclusion
    ● 各モダリティの重要性
    ○ Unimodalな特徴だけ使う場合より、bimodalやtrimodalと
    いったmultimodalな特徴を使ったほうが性能は良い
    ○ 音声特徴は映像特徴よりも効果的であった
    ○ MOSI・IEMOCAPにおいてテキスト特徴が有効
    ○ MOUDにおいてテキスト特徴より音声特徴のほうが有効

    View Slide

  32. Experiments
    32
    Introduction > Related work > Method > Experiments > Conclusion
    ● 各モダリティの重要性
    ○ Unimodalな特徴だけ使う場合より、bimodalやtrimodalと
    いったmultimodalな特徴を使ったほうが性能は良い
    ○ 音声特徴は映像特徴よりも効果的であった
    ○ MOSI・IEMOCAPにおいてテキスト特徴が有効
    ○ MOUDにおいてテキスト特徴より音声特徴のほうが有効
    ■ スペイン語から英語に翻訳した影響
    ■ スペイン語のword vectorを用いることでテキスト特徴
    における性能が向上したことを確認

    View Slide

  33. Experiments
    33
    Introduction > Related work > Method > Experiments > Conclusion
    ● モデルの汎化性能
    MOSIでモデルの学習を行い、MOUDで評価
    ○ 音声特徴、テキスト特徴を用いた場合性能が低下した
    ■ 英語のモデルでスペイン語を予測していたから
    ○ 映像特徴を用いた場合は性能が良かった
    ■ クロスリンガルであっても視覚的特徴は一般的な概念を
    学習することが可能であると言える

    View Slide

  34. Experiments
    34
    Introduction > Related work > Method > Experiments > Conclusion
    ● 定性分析
    ○ 発話の文脈依存を考慮できることで、対象の発話を正確に
    分析することが可能になった
    “What would have been a better name for the movie”
    ■ 話者が適切な名前をつけて映画の品質をコメントしよう
    としている文
    ■ この発話には暗黙的な感情が含まれている
    ■ ベースラインのSVMではこの発話の分類に失敗

    View Slide

  35. Experiments
    35
    Introduction > Related work > Method > Experiments > Conclusion
    ● 定性分析
    ○ 発話の文脈依存を考慮できることで、対象の発話を正確に
    分析することが可能になった
    “What would have been a better name for the movie”
    ■ 対象発話の文脈を含めて学習してる本提案手法は適切
    に分類することができている
    “And I really enjoy it”, “The countryside which
    they showed while going through Ireland was
    astoundingly beautiful”
    ● これはポジティブな文脈であり、対象の発話を
    分類する際の助けとなっている

    View Slide

  36. Experiments
    36
    Introduction > Related work > Method > Experiments > Conclusion
    ● 定性分析 (音声✗ → テキスト◎)
    ○ 音声特徴のみでは正しく分類できない場合でも、テキスト特徴
    と合わせることで正しく分類することが出来る
    “who doesn’t have any presence or greatness at all”
    ✗ 音声特徴だけではこの発話はpositiveと判定
    ● “presence”や”greatness at all”に熱意があった
    ◎ テキスト特徴 “doesn’t” に反応してnegativeと判定
    ○ 同様な判定がなされた例
    “amazing special effects”
    ✗ 音声だけではこの発話はnegativeと判定
    ◎ テキスト特徴ではpositiveと判定

    View Slide

  37. Experiments
    37
    Introduction > Related work > Method > Experiments > Conclusion
    ● 定性分析 (テキスト✗ → 音声◎)
    ○ テキスト特徴ではポジティブな文脈でも、感情がこもった
    音声特徴から正しく分類できる例もある
    “that like to see comic book characters treated responsibly”
    ✗ テキスト特徴だけではこの発話はpositiveと判定
    ● “like to see”や”responsibly”に反応
    ◎ 音声特徴 (high pitch of anger) を捉えてnegativeと判定
    ◎ 映像から怒った顔の表情を捉えてnegativeと判定
    ○ 音声や映像のノイズで提案手法が分類失敗する場合もある
    ○ 発話が無感情であったりバイアスが存在する場合もある

    View Slide

  38. Conclusion
    38
    Introduction > Related work > Method > Experiments > Conclusion
    ● まとめ
    ○ 先行研究で無視されていた発話の文脈依存を考慮
    ■ LSTMベースのネットワークを用いて文脈を捉える
    ○ 提案手法が先行研究を超えるパフォーマンスを示した
    ● 今後の展望
    ○ LSTMにAttentionを導入し、各発話に対して
    どのモダリティが貢献しているか可視化したい
    ● 最新の関連研究 (気になった)
    ○ Masumura, Ryo, et al. (NTT) "Adversarial Training for Multi-task
    and Multi-lingual Joint Modeling of Utterance Intent
    Classification." Proceedings of the 2018 Conference on
    EMNLP, 2018

    View Slide