Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning Approach

Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning
Approach 長岡技術科学大学自然言語処理研究室上脇優人 Guillaume Daval-Frerot, Abdessalam Bouchekif, Anatole Moreau Graduate school of computer science, EPITA, France SemEval-2018, pages 151–155 11月文献紹介

Introduction • 転移学習を使ったsentiment analysisに関する文献 • very negative (-3), moderately negative
(-2), slightly negative (-1), neutral/mixed (0), slightly positive (1), moderately positive (2) and very positive (3)の7つに分類する問題． 2

SemEval-2018 Task1 Affect in Tweet • 英語，アラビア語，スペイン語（training & test） •
EI-reg（感情強度回帰タスク）：0か1かで出力． • EI-oc（感情強度順序付けタスク）：４クラス分類 • V-reg（感情強度回帰タスク）：0か1かで出力 • V-oc（感情分析，順序分類，タスク）：７クラス分類 • E-c（感情分類タスク）：１１クラス分類 • ここで，Eは感情，EIは感情の強さ，Vは価数や感情の強さ， regは回帰，ocは序数，cは分類を意味する． 3

Proposed System 1. 生のテキストデータからノイズをフィルタリングするためのテキスト処理 2. 複数の特徴を連結することによって，長さ426のベクトルとしてツイートの単語を表現するための特徴抽出 3.
外部データに基づいてツイートの極性を予測する事前トレーニングモデル 4. 事前トレーニングモデルと完全接続されたモデルを追加する 5. 出力 4

Text processing •ekphrasis 1 tool • トークン化，単語正規化，（ハッシュタグの分割のための）単語セグメンテーション，およびスペルの訂正（スペルミスの単語を最も可能性の高い候補ワードで置き換える）を実行する
• すべての単語は小文字． • 電子メール，URL，ユーザーハンドルは正規化されている． 5

Feature extraction 各ツイートの各単語は，以下の特徴の連結によって得られる426個の次元のベクトルによって表される． • AFINN & Emoji Valence 2：-5（非常にマイナス）から+5（非常にプラス）までの
English & Emoji data • Depeche Mood：8クラスの感情に分類された37k単語辞書 • Emoji Sentiment Lexicon：Emojis（969）の辞書 • Linguistic Inquiry & Word Count：言語次元から心理学的プロセスまでの64カテゴリに関連する5,690の語幹を含む辞書 • NRC Word-Emotion Association & Hashtag Emotion/Sentiment and Affect Intensity Lexicons：感情と感情の両方の強度スコアは，0と1の間の値をとる． • Opinion Lexicon English：約7,000の正と負のsentiment wordを含んでいる- Sentiment140：肯定的および否定的な感情の単語およびその関連のリスト • Words embeddings 2012年12月から2016年7月までに投稿された330M英語のtwitterメッセージで訓練されたデータストア埋め込みを使用．埋め込みは300次元． 6

Pre-training model 7

Learning model •モデルを訓練するために，タスクで提供されたデータセットを使用する． •トレーニングと開発のデータセットにはそれぞれ 1180と448のつぶやきが含まれている． •データセットが小さいため，微調整を行うとオーバーフィットになることがある． •事前訓練後に除去される3つのクラスのセンチメント分析に関連する最終的な高密度レイヤーを除いて
ネットワークレイヤーをフリーズすることを提案する． 8

Learning model 9

Pre-trained model evaluation • size of LSTM layers is 150
(300 for B-LSTM), 2 layers of B-LSTM, with a dropout of 0.3 and 0.5 for embedding and LSTM layers respectively. • Gaussian noise with σ of 0.3 • L2 regularization of 0.0001. • over 18 epochs • learning rate of 0.01 • batch size of 128 sequences. • モデルを外部データで訓練したが，評価のためにタスクで提供された training & development setを適合させた． • さまざまなレベルの肯定的な感情が同じクラスで再編成された． • さまざまなレベルの否定的な感情についても同じことが言える． • モデルは69.4％の精度を達成． 10

Model evaluation •over 8 epochs •learning rate of 0.01 •batch
size of 50 sequences. Positive： 0.776 のスコアを達成． Negative： 0.763 のスコアを達成． 11

Other experiments 12

Conclusion •転移学習を使ったsentiment analysisを提案-- SemEval2018 Task1 •システムは，ピアソン相関係数で0.776のスコアを達成． •2クラス(Pos,Neg)->3クラス(Pos,Neg,Neu)->5 クラス-->7クラスへの転移学習をする． 13

Epita at SemEval-2018 Task 1: Sentiment Analysi...

Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning Approach

Yuto Kamiwaki

More Decks by Yuto Kamiwaki

Other Decks in Research

Featured

Transcript