Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm

Fb31b0b39ecedd2353fa1a6e68200449?s=47 Yuto Kamiwaki
December 16, 2018

Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm

2018/12/17 文献紹介の発表内容

Fb31b0b39ecedd2353fa1a6e68200449?s=128

Yuto Kamiwaki

December 16, 2018
Tweet

More Decks by Yuto Kamiwaki

Other Decks in Research

Transcript

  1. Using millions of emoji occurrences to learn any-domain representations for

    detecting sentiment, emotion and sarcasm Nagaoka University of Technology Yuto Kamiwaki Literature Review
  2. Literature • Using millions of emoji occurrences to learn any-domain

    representations for detecting sentiment, emotion and sarcasm • Bjarke Felbo, Alan Mislove, Anders Søgaard, Iyad Rahwan, Sune Lehmann • EMNLP 2017 2
  3. Abstract • sentiment analysis, emotion analysis and sarcasm classificationにおける8つのbenchmarkでSoTA達成 •

    感情ラベルの多様性が以前のdistant supervisonのアプ ローチよりもパフォーマンスの向上をもたらすことを確認 3
  4. Introduction • NLPのタスクでは,アノテーション済み(感情が付与された)の データは少ない. • Distant supervisionを用いてSoTAを達成している研究があ る. Distant supervision

    : (http://web.stanford.edu/~jurafsky/mintz.pdf) ラベル付きデータの情報を手がかりに全く別のラベルなしデータからラベル付きの学 習データを生成し、モデルを学習する手法 4
  5. Related work • Ekman, Plutchikなどの感情の理論を用いて手作業によって 分類 ◦ 感情の理解が難しく,時間がかかる. • official

    emoji tables (Eisner et al., 2016)からembeddingす る手法 ◦ emojiの使われ方を考慮しない. • マルチタスク学習 ◦ データストレージの観点から問題あり. 5
  6. Pretraining • 2013年1月から2017年6月までのTweet data(emojiあり) • Only English tweets without URL’s

    are used for the pretraining dataset. • All tweets are tokenized on a word-by-word basis. 6
  7. Model 7

  8. Transfer Learning(ChainThaw) 8

  9. Emoji Prediction 9

  10. Benchmarking 10 8 Benchmarks(3tasks,5domains)

  11. Benchmarking 11

  12. Importance of emoji diversity 12 Pos/Neg Emoji:8 types DeepMoji:64 types

    感情ラベルの多様性が重要 64種類のemojiの細かい ニュアンスを学習できている. (次ページの図を参照)
  13. Importance of emoji diversity 13

  14. Model architecture 14 Pretraining時点では,差がない benchmark時点では,Attention ありの方が精度が高い 低層の特徴へのアクセスが簡単 勾配消失がなく,学習可能

  15. Analyzing the effect of pretraining 15 Pretraining+chainthawで語彙が 増加 ->word coverageが改善

  16. Comparing with human-level agreement 16 Human:76.1% Deepmoji:82.4% Deepmojiの方が,精度 が高い (実験内容については,論文

    を参照)
  17. Conclusion • sentiment analysis, emotion analysis and sarcasm classificationにおける8つのbenchmarkでSoTA達成 •

    感情ラベルの多様性が以前のdistant supervisonのアプ ローチよりもパフォーマンスの向上をもたらすことを確認 • Pretraining済みモデルを公開 ◦ (Demo : https://deepmoji.mit.edu/) 17