Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning Approach

Yuto Kamiwaki
November 19, 2018

Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning Approach

2018/11/19 文献紹介の発表内容

Yuto Kamiwaki

November 19, 2018
Tweet

More Decks by Yuto Kamiwaki

Other Decks in Research

Transcript

  1. Epita at SemEval-2018 Task 1:
    Sentiment Analysis Using Transfer
    Learning Approach
    長岡技術科学大学
    自然言語処理研究室
    上脇優人
    Guillaume Daval-Frerot, Abdessalam Bouchekif,
    Anatole Moreau
    Graduate school of computer science, EPITA, France
    SemEval-2018, pages 151–155
    11月文献紹介

    View Slide

  2. Introduction
    • 転移学習を使ったsentiment analysisに関する文献
    • very negative (-3), moderately negative (-2),
    slightly negative (-1), neutral/mixed (0),
    slightly positive (1), moderately positive (2)
    and very positive (3)の7つに分類する問題.
    2

    View Slide

  3. SemEval-2018 Task1
    Affect in Tweet
    • 英語,アラビア語,スペイン語(training & test)
    • EI-reg(感情強度回帰タスク):0か1かで出力.
    • EI-oc(感情強度順序付けタスク):4クラス分類
    • V-reg(感情強度回帰タスク):0か1かで出力
    • V-oc(感情分析,順序分類,タスク):7クラス分類
    • E-c(感情分類タスク):11クラス分類
    • ここで,Eは感情,EIは感情の強さ,Vは価数や感情の強さ,
    regは回帰,ocは序数,cは分類を意味する.
    3

    View Slide

  4. Proposed System
    1. 生のテキストデータからノイズをフィルタリング
    するためのテキスト処理
    2. 複数の特徴を連結することによって,長さ426の
    ベクトルとしてツイートの単語を表現するための
    特徴抽出
    3. 外部データに基づいてツイートの極性を予測する
    事前トレーニングモデル
    4. 事前トレーニングモデルと完全接続されたモデル
    を追加する
    5. 出力
    4

    View Slide

  5. Text processing
    •ekphrasis 1 tool
    • トークン化,単語正規化,(ハッシュタグの分割のための)
    単語セグメンテーション,およびスペルの訂正(スペルミ
    スの単語を最も可能性の高い候補ワードで置き換える)を
    実行する
    • すべての単語は小文字.
    • 電子メール,URL,ユーザーハンドルは正規化されてい
    る.
    5

    View Slide

  6. Feature extraction
    各ツイートの各単語は,以下の特徴の連結によって得られる426個の次元のベクトルによっ
    て表される.
    • AFINN & Emoji Valence 2:-5(非常にマイナス)から+5(非常にプラス)までの
    English & Emoji data
    • Depeche Mood:8クラスの感情に分類された37k単語辞書
    • Emoji Sentiment Lexicon:Emojis(969)の辞書
    • Linguistic Inquiry & Word Count:言語次元から心理学的プロセスまでの64カテ
    ゴリに関連する5,690の語幹を含む辞書
    • NRC Word-Emotion Association & Hashtag Emotion/Sentiment and
    Affect Intensity Lexicons:感情と感情の両方の強度スコアは,0と1の間の値を
    とる.
    • Opinion Lexicon English:約7,000の正と負のsentiment wordを含んでいる-
    Sentiment140:肯定的および否定的な感情の単語およびその関連のリスト
    • Words embeddings
    2012年12月から2016年7月までに投稿された330M英語のtwitterメッセージで訓練された
    データストア埋め込みを使用.埋め込みは300次元.
    6

    View Slide

  7. Pre-training model
    7

    View Slide

  8. Learning model
    •モデルを訓練するために,タスクで提供されたデー
    タセットを使用する.
    •トレーニングと開発のデータセットにはそれぞれ
    1180と448のつぶやきが含まれている.
    •データセットが小さいため,微調整を行うとオーバ
    ーフィットになることがある.
    •事前訓練後に除去される3つのクラスのセンチメン
    ト分析に関連する最終的な高密度レイヤーを除いて
    ネットワークレイヤーをフリーズすることを提案す
    る.
    8

    View Slide

  9. Learning model
    9

    View Slide

  10. Pre-trained model
    evaluation
    • size of LSTM layers is 150 (300 for B-LSTM), 2 layers
    of B-LSTM, with a dropout of 0.3 and 0.5 for embedding
    and LSTM layers respectively.
    • Gaussian noise with σ of 0.3
    • L2 regularization of 0.0001.
    • over 18 epochs
    • learning rate of 0.01
    • batch size of 128 sequences.
    • モデルを外部データで訓練したが,評価のためにタスクで提供された
    training & development setを適合させた.
    • さまざまなレベルの肯定的な感情が同じクラスで再編成された.
    • さまざまなレベルの否定的な感情についても同じことが言える.
    • モデルは69.4%の精度を達成.
    10

    View Slide

  11. Model evaluation
    •over 8 epochs
    •learning rate of 0.01
    •batch size of 50 sequences.
    Positive: 0.776 のスコアを達成.
    Negative: 0.763 のスコアを達成.
    11

    View Slide

  12. Other experiments
    12

    View Slide

  13. Conclusion
    •転移学習を使ったsentiment analysisを提案--
    SemEval2018 Task1
    •システムは,ピアソン相関係数で0.776のスコアを
    達成.
    •2クラス(Pos,Neg)->3クラス(Pos,Neg,Neu)->5
    クラス-->7クラスへの転移学習をする.
    13

    View Slide