Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BB_twtr at SemEval-2017 Task 4: Twitter Sentime...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yuto Kamiwaki
May 29, 2018
Research
0
250
BB_twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs and LSTMs
2018/05/30文献紹介の発表内容
Yuto Kamiwaki
May 29, 2018
Tweet
Share
More Decks by Yuto Kamiwaki
See All by Yuto Kamiwaki
Emo2Vec: Learning Generalized Emotion Representation by Multi-task Training
yuto_kamiwaki
0
120
Modeling Naive Psychology of Characters in Simple Commonsense Stories
yuto_kamiwaki
1
220
Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm
yuto_kamiwaki
0
110
Epita at SemEval-2018 Task 1: Sentiment Analysis Using Transfer Learning Approach
yuto_kamiwaki
0
140
Tensor Fusion Network for Multimodal Sentiment Analysis
yuto_kamiwaki
0
270
Sentiment Analysis: It’s Complicated!
yuto_kamiwaki
0
86
ADAPT at IJCNLP-2017 Task 4: A Multinomial Naive Bayes Classification Approach for Customer Feedback Analysis task
yuto_kamiwaki
0
180
EmoWordNet: Automatic Expansion of Emotion Lexicon Using English WordNet
yuto_kamiwaki
0
110
ATTENTION-BASED LSTM FOR PSYCHOLOGICAL STRESS DETECTION FROM SPOKEN LANGUAGE USING DISTANT SUPERVISION
yuto_kamiwaki
0
160
Other Decks in Research
See All in Research
自動運転におけるデータ駆動型AIに対する安全性の考え方 / Safety Engineering for Data-Driven AI in Autonomous Driving Systems
ishikawafyu
0
130
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
210
Ankylosing Spondylitis
ankh2054
0
120
AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 / AI Supercomputer LLM Benchmarking and Observability
yuukit
1
660
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
900
ウェブ・ソーシャルメディア論文読み会 第36回: The Stepwise Deception: Simulating the Evolution from True News to Fake News with LLM Agents (EMNLP, 2025)
hkefka385
0
160
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
1
500
2026-01-30-MandSL-textbook-jp-cos-lod
yegusa
0
230
Tiaccoon: Unified Access Control with Multiple Transports in Container Networks
hiroyaonoe
0
640
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
15
20k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
340
2025-11-21-DA-10th-satellite
yegusa
0
120
Featured
See All Featured
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.6k
Accessibility Awareness
sabderemane
0
57
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
650
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
330
Building AI with AI
inesmontani
PRO
1
710
Documentation Writing (for coders)
carmenintech
77
5.3k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
130
Fireside Chat
paigeccino
41
3.8k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.4k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
70
Transcript
BB_twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs
and LSTMs 長岡技術科学大学 自然言語処理研究室 上脇優人 Mathieu Cliche Bloomberg SemEval-2017 pp573-580 5月文献紹介 ※sentiment=感情としています
Abstract •内容は,SoTAを達成したTwitterの感情分類 器(CNNとLSTM)について. •最終的なCNNとLSTMは,再度fine tuneした SemEval-2017 Twitter datasetでトレー ニングした. •パフォーマンスを向上させるためにいくつかの
CNNとLSTMを一緒に使う. •この手法は,40のチームの中で5つの英語のサ ブタスクで1位であった. 2
Introduction •Tweetの極性を決定するタスクは,タスクの 理解がしやすく,簡単な方法で良い結果を得る ことが可能. •SemEval-2017のコンペは,5つのサブタス ク. • (タスクの種類については,Rosenthal et al.,2017を参照)
•深層学習の手法は,いくつかのNLPタスクで従 来の手法を大幅に凌駕していて感情分析も例外 でない. •感情分析においても有用な深層学習のCNNと LSTMを用いて(組み合わせたりして)感情分 類器を構築する. 3
CNN 4 Input: 単語にトークン化されたTweet 全体のツイートが ツイート内の単語の数×200の マトリクスにマッピングされる.
LSTM 5
Training •subtask A: • 49693 human labeled tweets •subtask C
and E: • 30849 human labeled tweets •subtask B and D: • 18948 human labeled tweets •上記のデータの他に1億の英語のツイートを取 得し,500万のポジティブツイートと500万の ネガティブツイートのデータ抽出. ※:)等はポジティブになっている 6
Unsupervised training •取得した1億のラベルなしデータを使用. •学習に使用したモデルは,下記3種類のアルゴ リズム. • Word2vec • FastText •
GloVe •全てのアルゴリズムにおいて論文著者が提供す るコードをデフォルトで使用. 7
Distant training •極性情報を追加するためにDistant training. •Distant trainingには、CNNを使用し,初 期値は教師なしフェーズで学習した embeddingを使用. •次に,抽出した500万のポジティブツイートと 500万のネガティブツイートのデータを用いて
CNNをtrainingしてノイズを分類. 8
Supervised training •このtrainingでは,SemEval-2017から提 供されるhuman labeled tweetsを使用す る. •CNNとLSTMのembeddingの初期値は,前のフ ェーズでfine tuneされた
embedding.(epoch:1~5) •モデルはTensorFlowで実装され、実験は GeForce GTX Titan X GPUで実行. •分散を軽減し、精度を向上させるために、10 のCNNと10のLSTMを統合. 9
Result 10
Result 11
Conclusion •SemEval-2017 Twitter sentiment analysis competitionのpaper. •Tweetの分類器を現代のtraining法に加えて 深層学習のモデルで実験した. •最後のモデルは,10のCNNと10のLSTMを用い た.(異なるハイパーパラメータ・トレーニン
グ). •参加したタスク全てで1位だった. 12
Future work •CNNとLSTMを組み合わせたモデルの探求 •unlabeled dataとdistant dataの量によ るモデルのパフォーマンスの変化の調査 13