BB_twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs and LSTMs

BB_twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs
and LSTMs 長岡技術科学大学自然言語処理研究室上脇優人 Mathieu Cliche Bloomberg SemEval-2017 pp573-580 5月文献紹介 ※sentiment=感情としています

Abstract •内容は，SoTAを達成したTwitterの感情分類器(CNNとLSTM)について． •最終的なCNNとLSTMは，再度fine tuneした SemEval-2017 Twitter datasetでトレーニングした． •パフォーマンスを向上させるためにいくつかの
CNNとLSTMを一緒に使う． •この手法は，40のチームの中で5つの英語のサブタスクで1位であった． 2

Introduction •Tweetの極性を決定するタスクは，タスクの理解がしやすく，簡単な方法で良い結果を得ることが可能． •SemEval-2017のコンペは，5つのサブタスク． • （タスクの種類については，Rosenthal et al.,2017を参照）
•深層学習の手法は，いくつかのNLPタスクで従来の手法を大幅に凌駕していて感情分析も例外でない． •感情分析においても有用な深層学習のCNNと LSTMを用いて（組み合わせたりして）感情分類器を構築する． 3

CNN 4 Input: 単語にトークン化されたTweet 全体のツイートがツイート内の単語の数×200のマトリクスにマッピングされる．

LSTM 5

Training •subtask A: • 49693 human labeled tweets •subtask C
and E: • 30849 human labeled tweets •subtask B and D: • 18948 human labeled tweets •上記のデータの他に1億の英語のツイートを取得し，500万のポジティブツイートと500万のネガティブツイートのデータ抽出． ※:)等はポジティブになっている 6

Unsupervised training •取得した1億のラベルなしデータを使用． •学習に使用したモデルは，下記3種類のアルゴリズム． • Word2vec • FastText •
GloVe •全てのアルゴリズムにおいて論文著者が提供するコードをデフォルトで使用． 7

Distant training •極性情報を追加するためにDistant training. •Distant trainingには、CNNを使用し，初期値は教師なしフェーズで学習した embeddingを使用． •次に，抽出した500万のポジティブツイートと 500万のネガティブツイートのデータを用いて
CNNをtrainingしてノイズを分類． 8

Supervised training •このtrainingでは，SemEval-2017から提供されるhuman labeled tweetsを使用する． •CNNとLSTMのembeddingの初期値は，前のフェーズでfine tuneされた
embedding.(epoch:1~5) •モデルはTensorFlowで実装され、実験は GeForce GTX Titan X GPUで実行． •分散を軽減し、精度を向上させるために、10 のCNNと10のLSTMを統合． 9

Result 10

Result 11

Conclusion •SemEval-2017 Twitter sentiment analysis competitionのpaper． •Tweetの分類器を現代のtraining法に加えて深層学習のモデルで実験した． •最後のモデルは，10のCNNと10のLSTMを用いた．（異なるハイパーパラメータ・トレーニン
グ）． •参加したタスク全てで1位だった． 12

Future work •CNNとLSTMを組み合わせたモデルの探求 •unlabeled dataとdistant dataの量によるモデルのパフォーマンスの変化の調査 13

BB_twtr at SemEval-2017 Task 4: Twitter Sentime...

BB_twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs and LSTMs

Yuto Kamiwaki

More Decks by Yuto Kamiwaki

Other Decks in Research

Featured

Transcript