Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sentiment Analysis: It’s Complicated!

Fb31b0b39ecedd2353fa1a6e68200449?s=47 Yuto Kamiwaki
September 20, 2018

Sentiment Analysis: It’s Complicated!

2018/09/21文献紹介の発表内容

Fb31b0b39ecedd2353fa1a6e68200449?s=128

Yuto Kamiwaki

September 20, 2018
Tweet

More Decks by Yuto Kamiwaki

Other Decks in Research

Transcript

  1. Sentiment Analysis: It’s Complicated! 長岡技術科学大学 自然言語処理研究室 上脇優人 Kian Kenyon-Dean,Eisha Ahmed,Scott

    Fujimoto, Jeremy Georges-Filteau,Christopher Glasz, Barleen Kaur,Auguste Lalande,Shruti Bhanderi, Robert Belfer,Nirmal Kanagasabai,Roman Sarrazingendron,Rohit Verma,2Derek Ruths McGill University, Department of Computer Science Proceedings of NAACL-HLT 2018, pages 1886–1895 9月文献紹介
  2. Abstract • 感情分析のデータセットでは,適切なラベルに大きな不一致がある場合, 「ノイズの多い」または「複雑な」データを破棄することが一般的で す. • Twitter Sentiment Analysis(TSA)の目的で構築されたデータセ ットでは,上記の様なデータが,最初にアノテーションしたデータの

    30%以上を構成している. • 上記の様なデータの削除は,短文のReal-time sentiment Classificationを実行するとき,自動化されたシステムがどのよう なサンプルが上記の様なカテゴリに入るかを事前に知ることができない ため,問題がある. • したがって,このようなテキストを分類するための「複雑な」クラスの 感情の概念を提案し,短文のSentiment analysisフレームワークに 含めることで,現実の設定で実装されるAutomatic sentiment analysis systemの品質が向上すると考えた. 2
  3. Introduction • ツイートの感情を自動的に判断できるTSAモデルを構築す ることは,ここ数年で大きな注目を集めている. • しかし,最新のTSAモデルでは機械学習を使用してパラメ ータを調整しているため,実際の実装環境との関連性やパ フォーマンスは,訓練されたデータセットに大きく依存す る. •

    残念ながら,TSAデータセットの構築には,TSAモデルの 設計よりも注意が払われていない. 3
  4. 4

  5. Current Problems in TSA • TSAデータセットを構築するときに,多くのデータをフィ ルタリングしてしまっている. • 研究者は,もっと実世界の環境で使用することを想定して データセットを構築しないといけない.

    • 例えば,ツイートがSTRONGLY NEGATIVEを2つ, STRONGGLY POSITIVEを2つ,NEUTRALのラベルを1つ受 け取った場合,結果のラベルはNEUTRALになります。 • しかし,ツイートは確かに「ニュートラル」ではないだろ うが,ニュートラルのラベリングに関する全会一致でツイ ートと質的に異なる. 5
  6. Data Collection 6

  7. Data Annotation • データのアノテーションには,CrowdFlowerプラットフ ォームを使用した. • 指示書では,ツイートに表現された感情があいまいである か,混在しているか,または肯定的/否定的なものとして 解釈される可能性がある場合に,COMPLICATEDが好まし い選択肢として提示された。

    • 181人の信頼できる投稿者によって合計35,926件のタス クが完了し,7,026個の注釈付きツイートを作成. 7
  8. Dataset Analysis • 注釈付きのツイートは,満場一致(5つのうち5つがラベル で合意),コンセンサス(5つのうち4つが合意),多数 (5つのうち3つが合意),またはそれ以外. 8

  9. Dataset Analysis 9

  10. Experiment • 目的は,最適精度で最先端の分類器を構築することではな く,アノテータの不一致に基づいてツイートサブセットを 含むか除外するかが分類精度にどのように影響するかを理 解. • 実験1 • 従来通り,アノテータの不一致ツイートを削除(3クラス分類

    問題) • 実験2 • アノテータの不一致ツイートを含める(4クラス分類問題) 10
  11. Results 11

  12. Results 12

  13. Discussion • 我々の結果は、注釈の不一致は単に人間の誤りに起因する ものではないことを示している。 • 短いテキストの感情分析の分野を進めるためには、データ セットの設計と開発における共通のプラクティスを変更す る必要があります。 • 将来のデータセットは,アノテートされたデータを破棄す

    ることなく,生の注釈ラベルの割り当てと共に公開される べきである. 13
  14. Conclusions • McGill Twitter Sentiment Analysis(MTSA)デ ータセットを作成することによって,人間が実際に短文の Sentiment analysisデータセット構築において,デー タに注釈を付ける方法をよりよく理解する必要性を強調し

    た. 14
  15. Future work • 生の人間の注釈を利用してSentiment analysis分類子 を改善し,注釈の不一致を引き起こすこれらのサンプルの 「複雑な」特性をよりよく検出し理解する方法を見つける ことが必要. • さらに,研究者は,教師なし,レキシコンベース,および

    ルールベースの方法を含む短文Sentiment analysisの ための他の方法の開発にMTSAを使用することを推奨す る. 15