Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning Approach

Yuto Kamiwaki
November 19, 2018

Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning Approach

2018/11/19 文献紹介の発表内容

Yuto Kamiwaki

November 19, 2018
Tweet

More Decks by Yuto Kamiwaki

Other Decks in Research

Transcript

  1. Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning

    Approach 長岡技術科学大学 自然言語処理研究室 上脇優人 Guillaume Daval-Frerot, Abdessalam Bouchekif, Anatole Moreau Graduate school of computer science, EPITA, France SemEval-2018, pages 151–155 11月文献紹介
  2. Introduction • 転移学習を使ったsentiment analysisに関する文献 • very negative (-3), moderately negative

    (-2), slightly negative (-1), neutral/mixed (0), slightly positive (1), moderately positive (2) and very positive (3)の7つに分類する問題. 2
  3. SemEval-2018 Task1 Affect in Tweet • 英語,アラビア語,スペイン語(training & test) •

    EI-reg(感情強度回帰タスク):0か1かで出力. • EI-oc(感情強度順序付けタスク):4クラス分類 • V-reg(感情強度回帰タスク):0か1かで出力 • V-oc(感情分析,順序分類,タスク):7クラス分類 • E-c(感情分類タスク):11クラス分類 • ここで,Eは感情,EIは感情の強さ,Vは価数や感情の強さ, regは回帰,ocは序数,cは分類を意味する. 3
  4. Proposed System 1. 生のテキストデータからノイズをフィルタリング するためのテキスト処理 2. 複数の特徴を連結することによって,長さ426の ベクトルとしてツイートの単語を表現するための 特徴抽出 3.

    外部データに基づいてツイートの極性を予測する 事前トレーニングモデル 4. 事前トレーニングモデルと完全接続されたモデル を追加する 5. 出力 4
  5. Feature extraction 各ツイートの各単語は,以下の特徴の連結によって得られる426個の次元のベクトルによっ て表される. • AFINN & Emoji Valence 2:-5(非常にマイナス)から+5(非常にプラス)までの

    English & Emoji data • Depeche Mood:8クラスの感情に分類された37k単語辞書 • Emoji Sentiment Lexicon:Emojis(969)の辞書 • Linguistic Inquiry & Word Count:言語次元から心理学的プロセスまでの64カテ ゴリに関連する5,690の語幹を含む辞書 • NRC Word-Emotion Association & Hashtag Emotion/Sentiment and Affect Intensity Lexicons:感情と感情の両方の強度スコアは,0と1の間の値を とる. • Opinion Lexicon English:約7,000の正と負のsentiment wordを含んでいる- Sentiment140:肯定的および否定的な感情の単語およびその関連のリスト • Words embeddings 2012年12月から2016年7月までに投稿された330M英語のtwitterメッセージで訓練された データストア埋め込みを使用.埋め込みは300次元. 6
  6. Pre-trained model evaluation • size of LSTM layers is 150

    (300 for B-LSTM), 2 layers of B-LSTM, with a dropout of 0.3 and 0.5 for embedding and LSTM layers respectively. • Gaussian noise with σ of 0.3 • L2 regularization of 0.0001. • over 18 epochs • learning rate of 0.01 • batch size of 128 sequences. • モデルを外部データで訓練したが,評価のためにタスクで提供された training & development setを適合させた. • さまざまなレベルの肯定的な感情が同じクラスで再編成された. • さまざまなレベルの否定的な感情についても同じことが言える. • モデルは69.4%の精度を達成. 10
  7. Model evaluation •over 8 epochs •learning rate of 0.01 •batch

    size of 50 sequences. Positive: 0.776 のスコアを達成. Negative: 0.763 のスコアを達成. 11