文献紹介：Opinion Mining in Newspaper Articles by Entropy-based Word Connections

文献紹介 2014/04/04 長岡技術科学大学自然言語処理研究室岡田正平

紹介する文献 Thomas Scholz and Stefan Conrad. Opinion Mining in Newspaper
Articles by Entropy-based Word Connections. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pp. 1828-1839. (2013) 2

概要 • 新聞記事中の主張部分のtonalityを推定 – その主張が肯定/否定的かあるいは客観的（中性的）かを決定 • entropy-based word connection
– 素性を求めるときに利用 3

背景 • 企業・組織等のPRの結果を解析 – Media Response Analysis (MRA) • Opinion
Miningの自動化がもたらす恩恵 • 新聞記事は主観でない記述も含む • 使われる単語が似ていてもtonalityが異なる場合がある 4

タスク定義 : = 1 , 2 , ⋯ , ↦
∈ {positive, neutral, negative} • : newspaper article • ⊆ : statement • : tonality 5

Example statement (positive) There are structural factors behind the African
growth story: a growing and sizable population which is increasingly urbanised with disposable income; growing political stability; and a financial services industry that is still in its infancy. 6

提案手法 | Graph Model (node): 単語（名詞，形容詞，動詞，副詞，否定表現） , 間のedge 𝑖
の重み: 𝑖 = 𝑖 , 𝑖 , 𝑖 𝑖 : positive statement におけるとの共起回数 𝑖 : neutral statement 〃 𝑖 : negative statement 〃（元文献より引用） 7

提案手法 | 素性の生成番目の文 There are structural factors behind the
African growth story. に対応するsubgraph （実線）（元文献より引用） 8

提案手法 | 素性の生成 • positive/negative の確率 𝑝 = ∑ 𝑖
∈ ∑ 𝑖 + 𝑖 ∈ 𝑛 = ∑ 𝑖 ∈ ∑ 𝑖 + 𝑖 ∈ 9

提案手法 | 素性の生成 𝑝 factor = 5+2+2+2 10

提案手法 | 素性の生成 𝑝 factor = 5+2 5+2+2+2 ≃ 0.64
11

提案手法 | 素性の生成 • subjective/neutral(objective) の確率 = ∑ 𝑖 +
𝑖 ∈ ∑ 𝑖 + 𝑖 + 𝑖 ∈ 𝑛𝑛 = ∑ 𝑖 ∈ ∑ 𝑖 + 𝑖 + 𝑖 ∈ 12

提案手法 | 素性の生成 factor = 5+1+2+2+2+2 13

提案手法 | 素性の生成 factor = 5+2+2+2 5+1+2+2+2+2 ≃ 0.79 14

提案手法 | 素性の生成 • エントロピーの考え方を適用 = − � log2 (
) =1 15

提案手法 | 素性の生成 𝑝 = � 1 + 𝑝 ∗
log2 (𝑝| ) if 𝑛 ≤ (𝑝| ) −1 − 𝑛 ∗ log2 (𝑛| ) otherwise • −1 ≤ 𝑝 ≤ 1 • 第2項を2倍する必要があるのでは？ 16

提案手法 | 素性の生成 = � 1 + ∗ log2 (|
) if 𝑛𝑛 ≤ (| ) −1 − 𝑛𝑛 ∗ log2 (𝑛𝑛| ) otherwise 17

提案手法 | 素性の生成 • 取り得る品詞ごとに各node（単語）の素性が平均値が計算される • , = �
if ∈ 𝑐 0 if ∉ 𝑐 • 𝑐 ∈ {𝑎𝑎, 𝑎𝑎𝑎, , } 18

提案手法 | 素性の生成 • 最終的な素性8種（元論文から引用） • SVMによる分類 19

実験 | データ • pressrelation dataset (PDS) – 1,521 statements
• 金融情報機関に関するニュースから抽出した statements(Finace) – 8,500 statements • 4人の作業者によるアノテーション • それぞれ30%でグラフの学習 • 残りのうち20%でSVMの学習 20

実験 | 結果 • PDSに対して64%の精度 – 比較手法の最高精度より15ポイント上昇 • Financeに対して65%の精度 –
比較手法の最高精度より4ポイント上昇 • SVMの学習データ量を減少させても，提案手法は比較的安定した結果 21

まとめ • 単語間のEntropy-basedの重み付けを利用した手法 • 訓練データをあまり必要としない • 主張部分の抽出手法・視点の決定手法と組み合わせることで，MRAのための Opinion
Miningを実現可能となる 22

文献紹介：Opinion Mining in Newspaper Articles by En...

文献紹介：Opinion Mining in Newspaper Articles by Entropy-based Word Connections

Shohei Okada

More Decks by Shohei Okada

Other Decks in Research

Featured

Transcript

文献紹介 2014/04/04 長岡技術科学大学自然言語処理研究室岡田正平

紹介する文献 Thomas Scholz and Stefan Conrad. Opinion Mining in Newspaper

概要 • 新聞記事中の主張部分のtonalityを推定 – その主張が肯定/否定的かあるいは客観的（中性的）かを決定 • entropy-based word connection

背景 • 企業・組織等のPRの結果を解析 – Media Response Analysis (MRA) • Opinion

タスク定義 : = 1 , 2 , ⋯ , ↦

Example statement (positive) There are structural factors behind the African

提案手法 | Graph Model (node): 単語（名詞，形容詞，動詞，副詞，否定表現） , 間のedge 𝑖

提案手法 | 素性の生成番目の文 There are structural factors behind the

提案手法 | 素性の生成 • positive/negative の確率 𝑝 = ∑ 𝑖

提案手法 | 素性の生成 𝑝 factor = 5+2+2+2 10

提案手法 | 素性の生成 𝑝 factor = 5+2 5+2+2+2 ≃ 0.64

提案手法 | 素性の生成 • subjective/neutral(objective) の確率 = ∑ 𝑖 +

提案手法 | 素性の生成 factor = 5+1+2+2+2+2 13

提案手法 | 素性の生成 factor = 5+2+2+2 5+1+2+2+2+2 ≃ 0.79 14

提案手法 | 素性の生成 • エントロピーの考え方を適用 = − � log2 (

提案手法 | 素性の生成 𝑝 = � 1 + 𝑝 ∗

提案手法 | 素性の生成 = � 1 + ∗ log2 (|

提案手法 | 素性の生成 • 取り得る品詞ごとに各node（単語）の素性が平均値が計算される • , = �

提案手法 | 素性の生成 • 最終的な素性8種（元論文から引用） • SVMによる分類 19

実験 | データ • pressrelation dataset (PDS) – 1,521 statements

実験 | 結果 • PDSに対して64%の精度 – 比較手法の最高精度より15ポイント上昇 • Financeに対して65%の精度 –

まとめ • 単語間のEntropy-basedの重み付けを利用した手法 • 訓練データをあまり必要としない • 主張部分の抽出手法・視点の決定手法と組み合わせることで，MRAのための Opinion