2018/10/22文献紹介の発表内容
Tensor Fusion Network forMultimodal Sentiment Analysis長岡技術科学大学自然言語処理研究室上脇優人Amir Zadeh, Minghai Chen, Soujanya Poria,Erik Cambria, Louis-Philippe MorencyEMNLP2017, pages 1103–111410月文献紹介※各人の所属については,paperを参照
View Slide
Abstract• マルチモーダル感情分析についての論文.• モーダル内及びモーダル間のダイナミクスをエンドツーエンドで学習するTensor Fusion Networkという新しいモデルを提案.• 提案されたアプローチは,オンラインビデオにおける音声言語の揮発性と,付随するジェスチャと音声に合わせて調整されている.• 提案モデルは,マルチモーダルとユニモーダルの両方の感情分析のための最先端のアプローチよりも優れている.2
Introduction• テキストベースの感情分析を一般化する.• 言語(テキスト),視覚(ジェスチャー),聴覚(音声)• SNSなどの分析などオピニオンマイニングと感情分析を扱うNLPタスクで非常に重要.• マルチモーダル感情分析の主な課題は,モダリティ間のダイナミクスを表現することである.• つまり,表現された感情の認識を変える言語,視覚,および音響の行動間の相互作用が重要.3
4
CMU-MOSI Dataset•YouTubeムービーレビューからのビデオ意見の注釈付きデータセット.•感情の注釈は,Stanford Sentiment Treebankのアノテーションスキームに従っている.•感情はvery negativeからvery positiveな7段階のスケールで注釈付けされます.•Stanford Sentiment Treebankは文で区切られているのに対し,CMU-MOSIデータセットは,文章の境界がテキストほど明確ではない音声言語に対応するために,意見発話によってセグメント化されている.5
CMU-MOSI Dataset•CMU-MOSIの93人の話し手には2199件の意見発言がある.•各動画に平均23.2の意見セグメントがある.•各動画の平均再生時間は4.2秒.•意見発話には合計26,295語がある.•これらの発話には,メカニカル・タークの5人の注釈者が感情の注釈を付ける.6
CMU-MOSI Dataset7
Tensor Fusion Network• 提案するTFNは,3つの主要な要素で構成される.1. モダリティ埋め込みサブネットワークは,入力としてユニモーダルな特徴を取り込み,豊富なモダリティ埋め込みを出力する.2. Tensor Fusion Layerは,モダリティ埋め込みからの3倍デカルト積を使用して,ユニモーダルからトリモーダルまでの相互作用を明示的にモデル化する.3. センチメント推論サブネットワークは,TensorFusion Layerの出力を条件とし,感情推論を行うネットワークである.• セクション3のタスクに応じて,バイナリ分類,5クラス分類または回帰に対応するようにネットワーク出力が変更される.• TFNへの入力は,言語,視覚,聴覚の3つのモダリティを含む意見発話である.8
Modality Embedding Subnetworks:Spoken Language Embedding Subnetwork• 音声テキストは,レビュー等とは異なる.例:“I think it was alright...Hmmm...let methink...yeah...no...ok yeah”• 最初の部分は実際のメッセージを伝え,残りは最終的に最初の部分に賛同するような形になっている.• 音声言語の揮発性の性質の課題に対処するために提案されているアプローチは,各単語区間での話し言葉の豊かな表現を学び,それを完全に接続されたDeep Networkへの入力として使用するものである.9
10
Modality Embedding Subnetworks:Visual Embedding Subnetwork,Acoustic Embedding Subnetwork• 表情の情報が視覚情報の最も重要なソースである.• 話者の表情は,30Hzでサンプリングされたフレームごとに検出され,7つの基本感情(怒り,軽蔑,嫌悪感,恐怖,喜び,悲しみ,驚き)と2つの高度な感情(欲求不満と混乱)(Ekman,1992)をFACET表情解析フレームワーク1を用いて抽出する.• 顔の詳細な筋肉の動きを示す20個の顔面アクションユニット(Ekman et al.,1980)のセットも,FACETを使用して抽出する.• 音声についてもフレームワークを用いて特徴を抽出した.抽出された特徴は,人間の声の様々な特徴を捕捉し,感情に関連することが示されている. 11
Tensor Fusion Layer12
Sentiment Inference Subnetwork•Tensor Fusion層の後,各意見発声は,マルチモーダルテンソルzmとして表すことができる.•我々は,zm上で条件付けされた重みWsを有する感情推論サブネットワークUsと呼ばれる完全に接続されたDeep Neural Networkを使用する.•ネットワークのアーキテクチャは,決定レイヤに接続された128個のReLUアクティベーションユニットの2つのレイヤーで構成される.13
Sentiment Inference Subnetwork•センチメント推論サブネットワークの尤度関数は,以下のように定義される.ここで,φはセンチメント予測である.ここで,φmax(φm)は,我々のネットワーク.•第1のネットワークは,バイナリのクロスエントロピー損失を使用する単一のシグモイド出力ニューロンを用いて,バイナリセンチメント分類のために訓練される.•第2のネットワークは,5クラスのセンチメント分類のために設計され,カテゴリクロスエントロピー損失を使用するソフトマックス確率関数を使用する.•第3のネットワークは,単一のシグモイド出力を使用して,平均誤差除去を使用して感情回帰を実行する.14
E1: Multimodal Sentiment Analysis15
E3: Modality Embedding SubnetworksEvaluation16
Qualitative Analysis17
Conclusions•Tensor Fusion Networkを提案した.•公に利用可能なCMU-MOSIデータセットに関する本実験は,他のマルチモーダルアプローチと比較して最先端のパフォーマンスであった.18
Methodology•すべてのモデルは,CMUMOSIによって提案された5-fold cross-validationを使用してテストされる.•最適なハイパーパラメータは,バリデーションセットのモデル性能に基づいたグリッド検索を使用して選択される.•TFNモデルは,学習率5e4のAdamオプティマイザを使用して訓練される.•UvとUa,Usサブネットワークはp = 0.15とL2ノルム係数0.01ですべての隠れ層でドロップアウトを使用して正則化される.•train, test and validationは,すべてのベースラインでまったく同じである.19