Upgrade to Pro — share decks privately, control downloads, hide ads and more …

EmoWordNet: Automatic Expansion of Emotion Lexicon Using English WordNet

EmoWordNet: Automatic Expansion of Emotion Lexicon Using English WordNet

2018/07/26文献紹介の発表内容

Yuto Kamiwaki

July 25, 2018
Tweet

More Decks by Yuto Kamiwaki

Other Decks in Research

Transcript

  1. EmoWordNet:
    Automatic Expansion of Emotion
    Lexicon Using English WordNet
    長岡技術科学大学
    自然言語処理研究室
    上脇優人
    Gilbert Badaro,Hussein Jundi,Harzem Hajj,
    Wassim El-Hajj
    Lexical and Computational Semantics(*SEM),
    2018,pp86-93
    7月文献紹介

    View Slide

  2. Abstract
    •過去10年間,テキストから感情極性を抽出する
    ために多くの研究がされている.
    •最近は,テキストから感情認識もできるように
    なって来ている.
    •英語のWordNetを活用して,既存の感情辞書
    DepecheMoodを拡張し,EmoWordNet(以下,
    EWN)を構築するといった内容.
    •語数は,67000語.(DepecheMoodの約1.8倍)
    2

    View Slide

  3. Introduction
    •SNSのユーザーが増えたことによって,大量の
    意見・感情の含まれたテキストが使えるように
    なった.
    •感情辞書は,感情分類モデルの精度向上に寄与
    している.
    •感情は,通常,「ポジティブ・ネガティブ・ニ
    ュートラル」の3つのラベルで表される.
    • Ekmanの感情分類(Ekman 1992)(幸福・悲しみ・
    恐怖・怒り・驚き・嫌悪感)やPlutchikのモデルに
    は,Ekmanの感情分類に加えて,信頼と期待が含ま
    れている.
    3

    View Slide

  4. Introduction
    •英語で大規模な感情辞書を作成する研究は多く
    あったが,既存の感情辞書のサイズは,小さい
    ままである.
    •Example:
    • 英語最大の感情辞書:DepecheMood
    • (Staiano and Guerini 2014),約37000語
    • SentiWordNet(SWN)
    • (Esuli and Sebastiani 2007;Baccianella et al
    2010)
    • EWN(Fellbaum 1998)を使用して半自動的に生成された
    英文の語彙レキシコンには「Positive・Negative・
    Objective」の3つの感情が付与された約150000語が含ま
    れている.
    4

    View Slide

  5. Introduction
    •本研究は,EWNで利用可能なシソーラスを用い
    て,既存の感情辞書であるDepecheMoodの適
    用範囲を拡大することに焦点を当てる.
    •DepecheMoodは,公開されている最大の感情
    辞書の1つであり,その用語はEWNと整合してい
    る.
    •従って,DepecheMoodを拡張する.
    5

    View Slide

  6. Approach
    •DepecheMoodは,それぞれのエントリに8つの
    感情ラベル(afraid・amused・angry・
    annoyed・don’t care・happy・inspired
    ・sad)のスコア,POSタグと共に37771の見出
    しから構成されている.
    •DepecheMoodには,スコア表現の3つのバリエ
    ーションが存在する.
    • 今回は,正規化スコアを用いたバリエーションを選
    択.
    6

    View Slide

  7. 7

    View Slide

  8. Dataset & Coverage
    •SemEval 2007 task on Affective
    text(Strapparava and Mihalcea, 2007)
    •データセットは,「anger,disgust,fear,
    joy,sadness,surprise」の6つの感情が
    付与された1000の新しい見出しで構成されてい
    る.
    •(Staiano and Guerini,2014)の感情マッ
    ピングを考慮.
    • Fear → Afraid,Anger → Angry,Joy → Happy,
    Sadness → Sad,Surprise → Inspired.
    8

    View Slide

  9. Dataset & Coverage
    •カバレッジを計算するために,Python NLTKパッケ
    ージで入手可能なWordNet lemmatizerを使ってニ
    ュースheadlinesの見出し語化を行った.
    •名詞,動詞,形容詞,副詞とは異なるPOSタグを含む
    すべての単語を除外した.
    •EmoWordNetは68.6%のカバレッジを達成し,
    DepecheMoodは67.1%のカバレッジを達成した.
    •カバレッジの増加が予想されたが,データセットのサ
    イズが比較的小さいため,増加は約1.5%に過ぎなか
    った。
    9

    View Slide

  10. Regression and
    Classification Results
    •DepecheMoodを評価するために提示されたアプロー
    チと同様のアプローチに従った.
    •前処理として,最初にPython NLTKパッケージで利
    用可能なWordNet lemmatizerを使ってheadline
    の見出し語化をした.
    •見出し語化後にnグラム(n = 3まで)を調べることで,
    EmoWordNetで利用可能な複数単語の語句を取得し
    た.
    •次に,名詞,動詞,形容詞,副詞の4つのPOSタグの
    いずれにも属していない用語をすべて削除した.
    10

    View Slide

  11. Regression and
    Classification Results
    •特徴量計算では,EmoWordNetとSemEvalデー
    タセットで重なる5つの感情ラベルの感情スコ
    アの合計と平均の2つのバリエーションを検討
    した.
    •平均のスコアを用いるほうが,両方のデータの
    合計スコアを使用するよりも優れたパフォーマ
    ンスを発揮することが分かった.
    11

    View Slide

  12. 12

    View Slide

  13. 13

    View Slide

  14. 14

    View Slide

  15. 15

    View Slide

  16. Conclusion and Future Work
    • EmoWordNet(大規模な感情辞書)を製作した.EmoWordNetは,約
    67000のEWNの単語と58000のEWN synsetと8つの感情スコアで
    構成されている.
    • EmoWordNetは,EWNとDepecheMoodを使用した意味拡張アプロ
    ーチを適用することによって自動的に構築した.
    • EmoWordNetは,既存の感情辞書より優れており,より優れた語彙
    カバレッジを持っている.
    • 将来的には,より大きなデータセットでEmoWordNetのパフォーマ
    ンスを評価し,認識モデルの精度を向上させたい.
    • EmoWordNetはhttp://oma-project.comに公開されている.
    16

    View Slide