文献紹介:Opinion Mining in Newspaper Articles by Entropy-based Word Connections

文献紹介:Opinion Mining in Newspaper Articles by Entropy-based Word Connections

27e4e0f5dbfd966f5912c6834c5ceabf?s=128

Shohei Okada

April 04, 2014
Tweet

Transcript

  1. 文献紹介 2014/04/04 長岡技術科学大学 自然言語処理研究室 岡田 正平

  2. 紹介する文献 Thomas Scholz and Stefan Conrad. Opinion Mining in Newspaper

    Articles by Entropy-based Word Connections. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pp. 1828-1839. (2013) 2
  3. 概要 • 新聞記事中の主張部分のtonalityを推定 – その主張が肯定/否定的か あるいは客観的(中性的)かを決定 • entropy-based word connection

    – 素性を求めるときに利用 3
  4. 背景 • 企業・組織等のPRの結果を解析 – Media Response Analysis (MRA) • Opinion

    Miningの自動化がもたらす恩恵 • 新聞記事は主観でない記述も含む • 使われる単語が似ていてもtonalityが異な る場合がある 4
  5. タスク定義 : = 1 , 2 , ⋯ , ↦

    ∈ {positive, neutral, negative} • : newspaper article • ⊆ : statement • : tonality 5
  6. Example statement (positive) There are structural factors behind the African

    growth story: a growing and sizable population which is increasingly urbanised with disposable income; growing political stability; and a financial services industry that is still in its infancy. 6
  7. 提案手法 | Graph Model (node): 単語 (名詞,形容詞,動詞,副詞,否定表現) , 間のedge 𝑖

    の重み: 𝑖 = 𝑖 , 𝑖 , 𝑖 𝑖 : positive statement における と の共起回数 𝑖 : neutral statement 〃 𝑖 : negative statement 〃 (元文献より引用) 7
  8. 提案手法 | 素性の生成 番目の文 There are structural factors behind the

    African growth story. に対応するsubgraph (実線) (元文献より引用) 8
  9. 提案手法 | 素性の生成 • positive/negative の確率 𝑝 = ∑ 𝑖

    ∈ ∑ 𝑖 + 𝑖 ∈ 𝑛 = ∑ 𝑖 ∈ ∑ 𝑖 + 𝑖 ∈ 9
  10. 提案手法 | 素性の生成 𝑝 factor = 5+2+2+2 10

  11. 提案手法 | 素性の生成 𝑝 factor = 5+2 5+2+2+2 ≃ 0.64

    11
  12. 提案手法 | 素性の生成 • subjective/neutral(objective) の確率 = ∑ 𝑖 +

    𝑖 ∈ ∑ 𝑖 + 𝑖 + 𝑖 ∈ 𝑛𝑛 = ∑ 𝑖 ∈ ∑ 𝑖 + 𝑖 + 𝑖 ∈ 12
  13. 提案手法 | 素性の生成 factor = 5+1+2+2+2+2 13

  14. 提案手法 | 素性の生成 factor = 5+2+2+2 5+1+2+2+2+2 ≃ 0.79 14

  15. 提案手法 | 素性の生成 • エントロピーの考え方を適用 = − � log2 (

    ) =1 15
  16. 提案手法 | 素性の生成 𝑝 = � 1 + 𝑝 ∗

    log2 (𝑝| ) if 𝑛 ≤ (𝑝| ) −1 − 𝑛 ∗ log2 (𝑛| ) otherwise • −1 ≤ 𝑝 ≤ 1 • 第2項を2倍する必要があるのでは? 16
  17. 提案手法 | 素性の生成 = � 1 + ∗ log2 (|

    ) if 𝑛𝑛 ≤ (| ) −1 − 𝑛𝑛 ∗ log2 (𝑛𝑛| ) otherwise 17
  18. 提案手法 | 素性の生成 • 取り得る品詞ごとに各node(単語)の素 性が平均値が計算される • , = �

    if ∈ 𝑐 0 if ∉ 𝑐 • 𝑐 ∈ {𝑎𝑎, 𝑎𝑎𝑎, , } 18
  19. 提案手法 | 素性の生成 • 最終的な素性8種(元論文から引用) • SVMによる分類 19

  20. 実験 | データ • pressrelation dataset (PDS) – 1,521 statements

    • 金融情報機関に関するニュースから抽出した statements(Finace) – 8,500 statements • 4人の作業者によるアノテーション • それぞれ30%でグラフの学習 • 残りのうち20%でSVMの学習 20
  21. 実験 | 結果 • PDSに対して64%の精度 – 比較手法の最高精度より15ポイント上昇 • Financeに対して65%の精度 –

    比較手法の最高精度より4ポイント上昇 • SVMの学習データ量を減少させても, 提案手法は比較的安定した結果 21
  22. まとめ • 単語間のEntropy-basedの重み付けを利用 した手法 • 訓練データをあまり必要としない • 主張部分の抽出手法・視点の決定手法と 組み合わせることで,MRAのための Opinion

    Miningを実現可能となる 22