Upgrade to Pro — share decks privately, control downloads, hide ads and more …

EmoWordNet: Automatic Expansion of Emotion Lexicon Using English WordNet

EmoWordNet: Automatic Expansion of Emotion Lexicon Using English WordNet

2018/07/26文献紹介の発表内容

Yuto Kamiwaki

July 25, 2018
Tweet

More Decks by Yuto Kamiwaki

Other Decks in Research

Transcript

  1. EmoWordNet:
    Automatic Expansion of Emotion
    Lexicon Using English WordNet
    長岡技術科学大学
    自然言語処理研究室
    上脇優人
    Gilbert Badaro,Hussein Jundi,Harzem Hajj,
    Wassim El-Hajj
    Lexical and Computational Semantics(*SEM),
    2018,pp86-93
    7月文献紹介

    View full-size slide

  2. Abstract
    •過去10年間,テキストから感情極性を抽出する
    ために多くの研究がされている.
    •最近は,テキストから感情認識もできるように
    なって来ている.
    •英語のWordNetを活用して,既存の感情辞書
    DepecheMoodを拡張し,EmoWordNet(以下,
    EWN)を構築するといった内容.
    •語数は,67000語.(DepecheMoodの約1.8倍)
    2

    View full-size slide

  3. Introduction
    •SNSのユーザーが増えたことによって,大量の
    意見・感情の含まれたテキストが使えるように
    なった.
    •感情辞書は,感情分類モデルの精度向上に寄与
    している.
    •感情は,通常,「ポジティブ・ネガティブ・ニ
    ュートラル」の3つのラベルで表される.
    • Ekmanの感情分類(Ekman 1992)(幸福・悲しみ・
    恐怖・怒り・驚き・嫌悪感)やPlutchikのモデルに
    は,Ekmanの感情分類に加えて,信頼と期待が含ま
    れている.
    3

    View full-size slide

  4. Introduction
    •英語で大規模な感情辞書を作成する研究は多く
    あったが,既存の感情辞書のサイズは,小さい
    ままである.
    •Example:
    • 英語最大の感情辞書:DepecheMood
    • (Staiano and Guerini 2014),約37000語
    • SentiWordNet(SWN)
    • (Esuli and Sebastiani 2007;Baccianella et al
    2010)
    • EWN(Fellbaum 1998)を使用して半自動的に生成された
    英文の語彙レキシコンには「Positive・Negative・
    Objective」の3つの感情が付与された約150000語が含ま
    れている.
    4

    View full-size slide

  5. Introduction
    •本研究は,EWNで利用可能なシソーラスを用い
    て,既存の感情辞書であるDepecheMoodの適
    用範囲を拡大することに焦点を当てる.
    •DepecheMoodは,公開されている最大の感情
    辞書の1つであり,その用語はEWNと整合してい
    る.
    •従って,DepecheMoodを拡張する.
    5

    View full-size slide

  6. Approach
    •DepecheMoodは,それぞれのエントリに8つの
    感情ラベル(afraid・amused・angry・
    annoyed・don’t care・happy・inspired
    ・sad)のスコア,POSタグと共に37771の見出
    しから構成されている.
    •DepecheMoodには,スコア表現の3つのバリエ
    ーションが存在する.
    • 今回は,正規化スコアを用いたバリエーションを選
    択.
    6

    View full-size slide

  7. Dataset & Coverage
    •SemEval 2007 task on Affective
    text(Strapparava and Mihalcea, 2007)
    •データセットは,「anger,disgust,fear,
    joy,sadness,surprise」の6つの感情が
    付与された1000の新しい見出しで構成されてい
    る.
    •(Staiano and Guerini,2014)の感情マッ
    ピングを考慮.
    • Fear → Afraid,Anger → Angry,Joy → Happy,
    Sadness → Sad,Surprise → Inspired.
    8

    View full-size slide

  8. Dataset & Coverage
    •カバレッジを計算するために,Python NLTKパッケ
    ージで入手可能なWordNet lemmatizerを使ってニ
    ュースheadlinesの見出し語化を行った.
    •名詞,動詞,形容詞,副詞とは異なるPOSタグを含む
    すべての単語を除外した.
    •EmoWordNetは68.6%のカバレッジを達成し,
    DepecheMoodは67.1%のカバレッジを達成した.
    •カバレッジの増加が予想されたが,データセットのサ
    イズが比較的小さいため,増加は約1.5%に過ぎなか
    った。
    9

    View full-size slide

  9. Regression and
    Classification Results
    •DepecheMoodを評価するために提示されたアプロー
    チと同様のアプローチに従った.
    •前処理として,最初にPython NLTKパッケージで利
    用可能なWordNet lemmatizerを使ってheadline
    の見出し語化をした.
    •見出し語化後にnグラム(n = 3まで)を調べることで,
    EmoWordNetで利用可能な複数単語の語句を取得し
    た.
    •次に,名詞,動詞,形容詞,副詞の4つのPOSタグの
    いずれにも属していない用語をすべて削除した.
    10

    View full-size slide

  10. Regression and
    Classification Results
    •特徴量計算では,EmoWordNetとSemEvalデー
    タセットで重なる5つの感情ラベルの感情スコ
    アの合計と平均の2つのバリエーションを検討
    した.
    •平均のスコアを用いるほうが,両方のデータの
    合計スコアを使用するよりも優れたパフォーマ
    ンスを発揮することが分かった.
    11

    View full-size slide

  11. Conclusion and Future Work
    • EmoWordNet(大規模な感情辞書)を製作した.EmoWordNetは,約
    67000のEWNの単語と58000のEWN synsetと8つの感情スコアで
    構成されている.
    • EmoWordNetは,EWNとDepecheMoodを使用した意味拡張アプロ
    ーチを適用することによって自動的に構築した.
    • EmoWordNetは,既存の感情辞書より優れており,より優れた語彙
    カバレッジを持っている.
    • 将来的には,より大きなデータセットでEmoWordNetのパフォーマ
    ンスを評価し,認識モデルの精度を向上させたい.
    • EmoWordNetはhttp://oma-project.comに公開されている.
    16

    View full-size slide