Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Opinion Mining in Newspaper Articles by En...

文献紹介:Opinion Mining in Newspaper Articles by Entropy-based Word Connections

Shohei Okada

April 04, 2014
Tweet

More Decks by Shohei Okada

Other Decks in Research

Transcript

  1. 紹介する文献 Thomas Scholz and Stefan Conrad. Opinion Mining in Newspaper

    Articles by Entropy-based Word Connections. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pp. 1828-1839. (2013) 2
  2. 背景 • 企業・組織等のPRの結果を解析 – Media Response Analysis (MRA) • Opinion

    Miningの自動化がもたらす恩恵 • 新聞記事は主観でない記述も含む • 使われる単語が似ていてもtonalityが異な る場合がある 4
  3. タスク定義 : = 1 , 2 , ⋯ , ↦

    ∈ {positive, neutral, negative} • : newspaper article • ⊆ : statement • : tonality 5
  4. Example statement (positive) There are structural factors behind the African

    growth story: a growing and sizable population which is increasingly urbanised with disposable income; growing political stability; and a financial services industry that is still in its infancy. 6
  5. 提案手法 | Graph Model (node): 単語 (名詞,形容詞,動詞,副詞,否定表現) , 間のedge 𝑖

    の重み: 𝑖 = 𝑖 , 𝑖 , 𝑖 𝑖 : positive statement における と の共起回数 𝑖 : neutral statement 〃 𝑖 : negative statement 〃 (元文献より引用) 7
  6. 提案手法 | 素性の生成 番目の文 There are structural factors behind the

    African growth story. に対応するsubgraph (実線) (元文献より引用) 8
  7. 提案手法 | 素性の生成 • positive/negative の確率 𝑝 = ∑ 𝑖

    ∈ ∑ 𝑖 + 𝑖 ∈ 𝑛 = ∑ 𝑖 ∈ ∑ 𝑖 + 𝑖 ∈ 9
  8. 提案手法 | 素性の生成 • subjective/neutral(objective) の確率 = ∑ 𝑖 +

    𝑖 ∈ ∑ 𝑖 + 𝑖 + 𝑖 ∈ 𝑛𝑛 = ∑ 𝑖 ∈ ∑ 𝑖 + 𝑖 + 𝑖 ∈ 12
  9. 提案手法 | 素性の生成 𝑝 = � 1 + 𝑝 ∗

    log2 (𝑝| ) if 𝑛 ≤ (𝑝| ) −1 − 𝑛 ∗ log2 (𝑛| ) otherwise • −1 ≤ 𝑝 ≤ 1 • 第2項を2倍する必要があるのでは? 16
  10. 提案手法 | 素性の生成 = � 1 + ∗ log2 (|

    ) if 𝑛𝑛 ≤ (| ) −1 − 𝑛𝑛 ∗ log2 (𝑛𝑛| ) otherwise 17
  11. 実験 | データ • pressrelation dataset (PDS) – 1,521 statements

    • 金融情報機関に関するニュースから抽出した statements(Finace) – 8,500 statements • 4人の作業者によるアノテーション • それぞれ30%でグラフの学習 • 残りのうち20%でSVMの学習 20
  12. 実験 | 結果 • PDSに対して64%の精度 – 比較手法の最高精度より15ポイント上昇 • Financeに対して65%の精度 –

    比較手法の最高精度より4ポイント上昇 • SVMの学習データ量を減少させても, 提案手法は比較的安定した結果 21