Upgrade to Pro — share decks privately, control downloads, hide ads and more …

BB_twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs and LSTMs

BB_twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs and LSTMs

2018/05/30文献紹介の発表内容

Yuto Kamiwaki

May 29, 2018
Tweet

More Decks by Yuto Kamiwaki

Other Decks in Research

Transcript

  1. BB_twtr at SemEval-2017 Task 4:
    Twitter Sentiment Analysis with
    CNNs and LSTMs
    長岡技術科学大学
    自然言語処理研究室
    上脇優人
    Mathieu Cliche
    Bloomberg
    SemEval-2017 pp573-580
    5月文献紹介
    ※sentiment=感情としています

    View Slide

  2. Abstract
    •内容は,SoTAを達成したTwitterの感情分類
    器(CNNとLSTM)について.
    •最終的なCNNとLSTMは,再度fine tuneした
    SemEval-2017 Twitter datasetでトレー
    ニングした.
    •パフォーマンスを向上させるためにいくつかの
    CNNとLSTMを一緒に使う.
    •この手法は,40のチームの中で5つの英語のサ
    ブタスクで1位であった.
    2

    View Slide

  3. Introduction
    •Tweetの極性を決定するタスクは,タスクの
    理解がしやすく,簡単な方法で良い結果を得る
    ことが可能.
    •SemEval-2017のコンペは,5つのサブタス
    ク.
    • (タスクの種類については,Rosenthal et
    al.,2017を参照)
    •深層学習の手法は,いくつかのNLPタスクで従
    来の手法を大幅に凌駕していて感情分析も例外
    でない.
    •感情分析においても有用な深層学習のCNNと
    LSTMを用いて(組み合わせたりして)感情分
    類器を構築する.
    3

    View Slide

  4. CNN
    4
    Input:
    単語にトークン化されたTweet
    全体のツイートが
    ツイート内の単語の数×200の
    マトリクスにマッピングされる.

    View Slide

  5. LSTM
    5

    View Slide

  6. Training
    •subtask A:
    • 49693 human labeled tweets
    •subtask C and E:
    • 30849 human labeled tweets
    •subtask B and D:
    • 18948 human labeled tweets
    •上記のデータの他に1億の英語のツイートを取
    得し,500万のポジティブツイートと500万の
    ネガティブツイートのデータ抽出.
    ※:)等はポジティブになっている
    6

    View Slide

  7. Unsupervised training
    •取得した1億のラベルなしデータを使用.
    •学習に使用したモデルは,下記3種類のアルゴ
    リズム.
    • Word2vec
    • FastText
    • GloVe
    •全てのアルゴリズムにおいて論文著者が提供す
    るコードをデフォルトで使用.
    7

    View Slide

  8. Distant training
    •極性情報を追加するためにDistant
    training.
    •Distant trainingには、CNNを使用し,初
    期値は教師なしフェーズで学習した
    embeddingを使用.
    •次に,抽出した500万のポジティブツイートと
    500万のネガティブツイートのデータを用いて
    CNNをtrainingしてノイズを分類.
    8

    View Slide

  9. Supervised training
    •このtrainingでは,SemEval-2017から提
    供されるhuman labeled tweetsを使用す
    る.
    •CNNとLSTMのembeddingの初期値は,前のフ
    ェーズでfine tuneされた
    embedding.(epoch:1~5)
    •モデルはTensorFlowで実装され、実験は
    GeForce GTX Titan X GPUで実行.
    •分散を軽減し、精度を向上させるために、10
    のCNNと10のLSTMを統合.
    9

    View Slide

  10. Result
    10

    View Slide

  11. Result
    11

    View Slide

  12. Conclusion
    •SemEval-2017 Twitter sentiment
    analysis competitionのpaper.
    •Tweetの分類器を現代のtraining法に加えて
    深層学習のモデルで実験した.
    •最後のモデルは,10のCNNと10のLSTMを用い
    た.(異なるハイパーパラメータ・トレーニン
    グ).
    •参加したタスク全てで1位だった.
    12

    View Slide

  13. Future work
    •CNNとLSTMを組み合わせたモデルの探求
    •unlabeled dataとdistant dataの量によ
    るモデルのパフォーマンスの変化の調査
    13

    View Slide