Pro Yearly is on sale from $80 to $50! »

感情分析に使う極性辞書を生成してみる

Ee75708e3c2443e0d3f61db11ef3b0a0?s=47 g-k
June 26, 2020

 感情分析に使う極性辞書を生成してみる

Ee75708e3c2443e0d3f61db11ef3b0a0?s=128

g-k

June 26, 2020
Tweet

Transcript

  1. 感情分析に使う 極性辞書を⽣成してみる 2020/06/26 @Menbers.data機械学習LT編 Goda kanto

  2. ⾃⼰紹介 1 • Goda Kanto • この会を主催している会社の⼈です • 機械学習に関わっているデータアナリスト •

    やってみた系LTなのでゆるくお聞きください • Qiita https://qiita.com/g-k • Twitter @G_K_data
  3. 感情分析とは 2 いわゆるネガポジ分析です ポジティブ ニュートラル ネガティブ ⽂書 分類器

  4. 感情分析をやりたいと思うと 3 極性辞書ベース ディープラーニング系の教師あり学習 既存の感情分析API (Cloud Natural Languge APIとか) だいたいこの3つ⼿段を取ることになると思います

  5. 感情分析をやりたいと思うと 4 極性辞書ベース ディープラーニング系の教師あり学習 既存の感情分析API (Cloud Natural Languge APIとか) 今回は極性辞書ベースの話

  6. いまさら極性辞書? 5 極性辞書ベース ディープラーニング系の教師あり学習 既存の感情分析API (Cloud Natural Languge APIとか) 極性辞書ベースのメリット

    ü ロジックがシンプル ü 解釈が容易
  7. 超有名な極性辞書が2つ 6 やってみた系記事はだいたいこれが使⽤されている ⽇本語極性辞書 ※1 • 東北⼤学 乾・岡崎研究室が公開 • 「ネガティブ」「ポジティブ」「ニュートラル」のよう

    に⽤語や単語にフラグ付けがなされる • 「⽇本語極性辞書(⽤語編)」と「⽇本語極性辞書(名詞 編)」がある • クレジット表記すれば商⽤利⽤可 単語極性対応表 ※2 • 東⼯⼤の⾼村教授が公開 • 各単語に「-1〜1」の連続的な極性値がふられている • 良い:よい:形容詞:0.999995 • 祝う:いわう:動詞:0.999122 • 酷い:ひどい:形容詞:-0.999997 • 商⽤不可 ※1 https://www.cl.ecei.tohoku.ac.jp/index.php?Open%20Resources%2FJapanese%20Sentiment%20Polarity%20Dictionary ※2 http://www.lr.pi.titech.ac.jp/~takamura/pndic_ja.html
  8. 使える極性辞書少ない問題 7 既存の極性辞書の問題点 感覚に合致しない判断が場合が多々ある チューニングが⾮常に⾯倒 全ての単語を網羅されている訳では無い

  9. 極性辞書を作ろう 8 既存の問題点を解決した極性辞書 感覚に合致しない判断が場合が多々ある チューニングが⾮常に⾯倒 全ての単語を網羅されている訳では無い fastTextを使⽤した 極性辞書の⽣成

  10. fastTextとは? 9 • Facebookの研究チームが2015年に発表した単語分散表現獲得モデル • Word2Vecの進化系 • Word2VecにSubwordの考え⽅を追加して精度を向上させた (字⾯の近い単語同⼠により意味のまとまり持たせる) •

    Word2Vecより反意語に強い(肌感)
  11. アイデア 10 ⽇本語ウィキペディア全量を素材として学習して単語の分散表現を 得るモデルを作成

  12. アイデア 11 各単語の「ポジティブ語群」との平均類似度と「ネガティブ語群」 との平均類似度を計算し、近い⽅を極性値として採⽤ • 優れる • 嬉しい • 喜ぶ

    • 良い • 祝う • めでたい • 素敵 • 褒める …etc • 悪い • 嫌 • 苦しい • ⾟い • 死ぬ • 悲しい • 残念 • 罵る …etc 幸せ 類似度計算 類似度計算 ポジティブ 語群 ネガティブ 語群 0.70 0.23 より近い⽅を採⽤※
  13. ⽣成された極性辞書 12 Livedoorニュースコーパスの記事を形態素解析した結果の各形態素 対して先程のロジックで極性値を振りました※ ポジティブTOP10 ネガティブTOP10 ※最終的に極性値を-1〜1の間でスケーリングしています

  14. この極性辞書の良いところ 13 先程の問題点を解消している 感覚に合致しない判断が場合が多々ある チューニングが⾮常に⾯倒 全ての単語を網羅されている訳では無い ü ネガティブ語群とポジ ティブ語群の単語を調整 するだけでOK

    ü 全ての単語に極性値が割 り振られる
  15. 参考 14 同内容をQiitaにまとめているので興味のある⽅はご参照ください • 感情分析に⽤いる極性辞書を⾃動⽣成する https://qiita.com/g-k/items/1b7c765fa6520297ca7c • 感情分析でニュース記事のネガポジ度合いをスコア化する https://qiita.com/g-k/items/e49f68d7e2fed6e300ea