Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BB_twtr at SemEval-2017 Task 4: Twitter Sentime...
Search
Yuto Kamiwaki
May 29, 2018
Research
0
250
BB_twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs and LSTMs
2018/05/30文献紹介の発表内容
Yuto Kamiwaki
May 29, 2018
Tweet
Share
More Decks by Yuto Kamiwaki
See All by Yuto Kamiwaki
Emo2Vec: Learning Generalized Emotion Representation by Multi-task Training
yuto_kamiwaki
0
120
Modeling Naive Psychology of Characters in Simple Commonsense Stories
yuto_kamiwaki
1
210
Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm
yuto_kamiwaki
0
110
Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning Approach
yuto_kamiwaki
0
130
Tensor Fusion Network for Multimodal Sentiment Analysis
yuto_kamiwaki
0
260
Sentiment Analysis: It’s Complicated!
yuto_kamiwaki
0
81
ADAPT at IJCNLP-2017 Task 4: A Multinomial Naive Bayes Classification Approach for Customer Feedback Analysis task
yuto_kamiwaki
0
160
EmoWordNet: Automatic Expansion of Emotion Lexicon Using English WordNet
yuto_kamiwaki
0
110
ATTENTION-BASED LSTM FOR PSYCHOLOGICAL STRESS DETECTION FROM SPOKEN LANGUAGE USING DISTANT SUPERVISION
yuto_kamiwaki
0
150
Other Decks in Research
See All in Research
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
170
近似動的計画入門
mickey_kubo
4
1k
AIグラフィックデザインの進化:断片から統合(One Piece)へ / From Fragment to One Piece: A Survey on AI-Driven Graphic Design
shunk031
0
430
問いを起点に、社会と共鳴する知を育む場へ
matsumoto_r
PRO
0
610
Large Language Model Agent: A Survey on Methodology, Applications and Challenges
shunk031
16
9.9k
在庫管理のための機械学習と最適化の融合
mickey_kubo
3
1.1k
PhD Defense 2025: Visual Understanding of Human Hands in Interactions
tkhkaeio
1
180
A scalable, annual aboveground biomass product for monitoring carbon impacts of ecosystem restoration projects
satai
4
230
cvpaper.challenge 10年の軌跡 / cvpaper.challenge a decade-long journey
gatheluck
3
310
不確実性下における目的と手段の統合的探索に向けた連続腕バンディットの応用 / iot70_gp_rff_mab
monochromegane
2
160
2021年度-基盤研究B-研究計画調書
trycycle
PRO
0
290
カスタマーサクセスの視点からAWS Summitの展示を考える~製品開発で活用できる勘所~
masakiokuda
2
190
Featured
See All Featured
Making the Leap to Tech Lead
cromwellryan
135
9.5k
Done Done
chrislema
185
16k
Intergalactic Javascript Robots from Outer Space
tanoku
272
27k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
It's Worth the Effort
3n
187
28k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
187
55k
Building Better People: How to give real-time feedback that sticks.
wjessup
368
19k
Code Reviewing Like a Champion
maltzj
525
40k
Site-Speed That Sticks
csswizardry
10
810
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.4k
Designing Experiences People Love
moore
142
24k
Transcript
BB_twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs
and LSTMs 長岡技術科学大学 自然言語処理研究室 上脇優人 Mathieu Cliche Bloomberg SemEval-2017 pp573-580 5月文献紹介 ※sentiment=感情としています
Abstract •内容は,SoTAを達成したTwitterの感情分類 器(CNNとLSTM)について. •最終的なCNNとLSTMは,再度fine tuneした SemEval-2017 Twitter datasetでトレー ニングした. •パフォーマンスを向上させるためにいくつかの
CNNとLSTMを一緒に使う. •この手法は,40のチームの中で5つの英語のサ ブタスクで1位であった. 2
Introduction •Tweetの極性を決定するタスクは,タスクの 理解がしやすく,簡単な方法で良い結果を得る ことが可能. •SemEval-2017のコンペは,5つのサブタス ク. • (タスクの種類については,Rosenthal et al.,2017を参照)
•深層学習の手法は,いくつかのNLPタスクで従 来の手法を大幅に凌駕していて感情分析も例外 でない. •感情分析においても有用な深層学習のCNNと LSTMを用いて(組み合わせたりして)感情分 類器を構築する. 3
CNN 4 Input: 単語にトークン化されたTweet 全体のツイートが ツイート内の単語の数×200の マトリクスにマッピングされる.
LSTM 5
Training •subtask A: • 49693 human labeled tweets •subtask C
and E: • 30849 human labeled tweets •subtask B and D: • 18948 human labeled tweets •上記のデータの他に1億の英語のツイートを取 得し,500万のポジティブツイートと500万の ネガティブツイートのデータ抽出. ※:)等はポジティブになっている 6
Unsupervised training •取得した1億のラベルなしデータを使用. •学習に使用したモデルは,下記3種類のアルゴ リズム. • Word2vec • FastText •
GloVe •全てのアルゴリズムにおいて論文著者が提供す るコードをデフォルトで使用. 7
Distant training •極性情報を追加するためにDistant training. •Distant trainingには、CNNを使用し,初 期値は教師なしフェーズで学習した embeddingを使用. •次に,抽出した500万のポジティブツイートと 500万のネガティブツイートのデータを用いて
CNNをtrainingしてノイズを分類. 8
Supervised training •このtrainingでは,SemEval-2017から提 供されるhuman labeled tweetsを使用す る. •CNNとLSTMのembeddingの初期値は,前のフ ェーズでfine tuneされた
embedding.(epoch:1~5) •モデルはTensorFlowで実装され、実験は GeForce GTX Titan X GPUで実行. •分散を軽減し、精度を向上させるために、10 のCNNと10のLSTMを統合. 9
Result 10
Result 11
Conclusion •SemEval-2017 Twitter sentiment analysis competitionのpaper. •Tweetの分類器を現代のtraining法に加えて 深層学習のモデルで実験した. •最後のモデルは,10のCNNと10のLSTMを用い た.(異なるハイパーパラメータ・トレーニン
グ). •参加したタスク全てで1位だった. 12
Future work •CNNとLSTMを組み合わせたモデルの探求 •unlabeled dataとdistant dataの量によ るモデルのパフォーマンスの変化の調査 13