2018/05/30文献紹介の発表内容
BB_twtr at SemEval-2017 Task 4:Twitter Sentiment Analysis withCNNs and LSTMs長岡技術科学大学自然言語処理研究室上脇優人Mathieu ClicheBloombergSemEval-2017 pp573-5805月文献紹介※sentiment=感情としています
View Slide
Abstract•内容は,SoTAを達成したTwitterの感情分類器(CNNとLSTM)について.•最終的なCNNとLSTMは,再度fine tuneしたSemEval-2017 Twitter datasetでトレーニングした.•パフォーマンスを向上させるためにいくつかのCNNとLSTMを一緒に使う.•この手法は,40のチームの中で5つの英語のサブタスクで1位であった.2
Introduction•Tweetの極性を決定するタスクは,タスクの理解がしやすく,簡単な方法で良い結果を得ることが可能.•SemEval-2017のコンペは,5つのサブタスク.• (タスクの種類については,Rosenthal etal.,2017を参照)•深層学習の手法は,いくつかのNLPタスクで従来の手法を大幅に凌駕していて感情分析も例外でない.•感情分析においても有用な深層学習のCNNとLSTMを用いて(組み合わせたりして)感情分類器を構築する.3
CNN4Input:単語にトークン化されたTweet全体のツイートがツイート内の単語の数×200のマトリクスにマッピングされる.
LSTM5
Training•subtask A:• 49693 human labeled tweets•subtask C and E:• 30849 human labeled tweets•subtask B and D:• 18948 human labeled tweets•上記のデータの他に1億の英語のツイートを取得し,500万のポジティブツイートと500万のネガティブツイートのデータ抽出.※:)等はポジティブになっている6
Unsupervised training•取得した1億のラベルなしデータを使用.•学習に使用したモデルは,下記3種類のアルゴリズム.• Word2vec• FastText• GloVe•全てのアルゴリズムにおいて論文著者が提供するコードをデフォルトで使用.7
Distant training•極性情報を追加するためにDistanttraining.•Distant trainingには、CNNを使用し,初期値は教師なしフェーズで学習したembeddingを使用.•次に,抽出した500万のポジティブツイートと500万のネガティブツイートのデータを用いてCNNをtrainingしてノイズを分類.8
Supervised training•このtrainingでは,SemEval-2017から提供されるhuman labeled tweetsを使用する.•CNNとLSTMのembeddingの初期値は,前のフェーズでfine tuneされたembedding.(epoch:1~5)•モデルはTensorFlowで実装され、実験はGeForce GTX Titan X GPUで実行.•分散を軽減し、精度を向上させるために、10のCNNと10のLSTMを統合.9
Result10
Result11
Conclusion•SemEval-2017 Twitter sentimentanalysis competitionのpaper.•Tweetの分類器を現代のtraining法に加えて深層学習のモデルで実験した.•最後のモデルは,10のCNNと10のLSTMを用いた.(異なるハイパーパラメータ・トレーニング).•参加したタスク全てで1位だった.12
Future work•CNNとLSTMを組み合わせたモデルの探求•unlabeled dataとdistant dataの量によるモデルのパフォーマンスの変化の調査13