構文片を用いた意見・評判情報抽出手法

構文片を用いた意見・評判情報抽出手法電気電子情報工学専攻山本研究室 06509091 青木優

2 背景  情報爆発時代  インターネットの発展  個人が様々な情報を容易に発信可能  情報を整理、要約、検索する技術が必要不
可欠となってきている  市場調査  製品やサービスに対する評判を調査  人手によるアンケートはコストがかかる  電子掲示板やWeblogに注目が集まる →　テキストマイニング技術に注目

3 目的  評判情報の抽出  商品やサービスに対する個人の主観的な意見や評判を収集  Web上のWeblogや電子掲示板などの大規模テキストが対象
 評価の極性、評価表現の特定  収集した意見や評判について  ある製品の評判は好評か不評か (極性)  不評であれば、製品のどの部分が不評か (評価表現)

4 既存の評判抽出手法  辞書構築 [Turney 2002]  評価表現を収集（単語、単語N-gram)  例）良い、きれい、大きい、少ない
 例）``高い''は好評、不評？  表現の網羅性、拡張性の問題  文書分類 [Pang 2002]  文書の傾向を好評、不評で分類  文書中にも複数の意見が存在  個々の意見まで特定出来ない

5 既存の評判抽出手法  評価箇所の特定 [小林 2005]  評価箇所を要素組で表現  要素組：{分野、属性、評価}
 分野：携帯電話  属性：画面、音質、コンテンツ  評価：大きい、きれい、豊富  各要素毎に辞書を作成  分野毎に辞書が必要となる

6 本研究では  構文片の提案  構文構造を考慮した処理単位が必要  新たな処理単位である構文片を提案  辞書構築
 自動的に辞書を構築、拡張  高精度で網羅性の高い辞書を作成  文単位での分類  好評、不評、その他に分類  文書中の評価箇所まで特定可能

7 構文片  構文片とは  係り受けの最小単位  修飾要素と被修飾要素の対  以下のように表現
構文片 : 修飾要素 → 被修飾要素

8 構文片の例  画面-が → きれい  とても → おいしい
 キャノン-の → カメラ ×  くつろげる → 店  おいしい → ケーキ  携帯-電話 ×  高-画質赤：評価表現ただし、評価表現を含まない構文片　　　　　　　　　　　　　は対象外とする

9 構文片の特徴  抽出が容易  単純な係り受け関係しか使っていない  統計も取りやすく、扱いやすい  部分的な構文構造を保持
 単語N-gramsと比較し文の構造を考慮  慣用句と同様  意味のまとまりとして取り扱うことができる  例）気-に→なる、腹-が→立つ

10 構文片の特徴  分野の同定が不要  属性と評価を同時に扱うことができる  そのため、高精度の評価表現抽出が可能  例）単語　：``大きい''
＝好評？不評？  例）構文片：``画面-が → 大きい'' ＝好評！  例）　　　：``騒音-が → 大きい'' ＝不評…  同じ``大きい''でも分野によって評価は異なる

11 構文片の特徴

12 提案手法 1.構文片の抽出 2.極性スコアの計算（種辞書） 3.構文片の汎化（汎化辞書） 4.辞書の拡張（拡張辞書） 5.文分類

14 1. 構文片の抽出入力文 : シャープのケータイは画質がとてもいいです画質がとてもいいですシャープの
ケータイはテキスト木構造シャープの→ケータイケータイは→いい画質が→いいとても→いい構文解析構文片係り受けの対を抽出

15 1. 構文片の抽出入力文 : シャープのケータイは画質がとてもいいです画質がとてもいいですシャープの
ケータイはテキスト木構造シャープの→ケータイケータイは→いい画質が→いいとても→いい構文解析構文片係り受けの対を抽出 ×

17 2. 極性スコアの計算  単語の極性  好評文には好評を示す単語  不評文には不評を示す単語 
が出現しやすい[藤村 2004]  構文片の極性  構文片にも単語と同様のことが言える  そこで、  好評文と不評文に出現する　　構文片の偏りから極性を判定する

18 2. 極性スコアの計算

19 2. 極性スコアの計算

20 2. 極性スコアの計算  構文片の極性スコアを計算 [藤村 2004] score piece i
= P piece i −N  piece i  P piece i N  piece i  −1≤score piece i ≤1 piece i は構文片 score piece i は piece i の極性スコア P piece i  piece は好評文における i の出現確率 N  piece i  piece は不評文における i の出現確率 {score piece i 0 好評表現 score piece i 0 不評表現 }

22 3. 構文片の汎化  種辞書だけでは  教師データ中の構文片しか扱えない  データスパースの恐れがある 
構文片の汎化  単語に付与される極性はテキストの分野によって変化する  しかし、一部の語は極性が一意に決定する  例）良い、きれい　：　好評表現  極性が一意に決まる要素を抽出する

23 3. 構文片の汎化

28 4. 辞書の拡張  種辞書の規模は非常に小さい  そのため、評価表現が乏しい  構文片の汎化にも限界が… 
大規模な教師データが必要  しかし、人手で十分な教師データを作成するにはコストがかかりすぎる  この問題を改善するため  教師データを自動的に作成  新たな教師データから構文片を収集する

29 4. 辞書の拡張

30 4. 辞書の拡張

32 5. 文分類  ここまでの工程  種辞書及び拡張辞書を作成  構文片と極性の対 
構文片を汎化（汎化辞書、拡張汎化辞書）  汎化表現と極性の対  文の分類  文中の単語全ては必要ない  そこで、構文片を手掛かりに極性を判定  構文片自体を評価表現とし、  辞書を用いて文に極性を付与する

33 5. 文分類

34 5. 文分類

35 5. 文分類

36 5. 文分類  文の極性スコアを計算 sentence scoreS = ∑ piece
i ⊂ S score piece i  piece i S . は文から抽出した構文片 sentence scoreS  S . は文の極性を示すスコア {sentence scoreS0 好評文 sentence scoreS0 不評文 otherwise その他 }

37 評価実験  実験データ  評価方法  結果及び考察  文分類の観点から評価
 評価箇所の特定の観点から評価

39 実験データ  教師データ  Weblogs(好評/不評のタグ付き)  13分野  約3,000文
 大規模コーパス  Weblogs (タグなし)  約250,000文

40 教師データ  複数の分野が混在  好評、不評の文数は同量分野文数デジタルカメラ
476 PC 200 お茶 180 サービス 370 462 プリンタ 206 携帯電話 146 ブランド商品 92 シャンプー 346 ビール 322 ゲーム 104 化粧品 24 チョコレート 196 合計 3124 MP3プレーヤー

42 評価方法  分割交差検定  教師データを5分割  1つを正解データ、残りを教師データ  5分割交差検定
 文を分類  {好評/不評/その他}に分類  正解との一致率を計算  他の素性との比較  構文片の有効性を確認

 評価表現の特定の観点から評価

44 辞書毎の分類結果拡張及び汎化により　　　　　　　　再現率が向上している辞書適合率再現率種辞書 0.87 (392/453)
0.13 (392/3124) 汎化辞書 0.83 (961/1163) 0.31 (961/3124) 拡張辞書 0.79 (289/366) 0.09 (289/3124) 汎化拡張辞書 0.77 (1175/1611) 0.29 (920/3124) 全辞書 0.80 (1429/1789) 0.46 (1429/3124)

45 素性毎の分類結果他の素性と比較して、　・適合率　→　最も良い　・再現率　→　他の素性にも劣らない素性適合率再現率単語集合 0.68
(1622/2383) 0.52 (1622/3124) 内容語 0.70 (1498/2147) 0.48 (1498/3124) 0.78 (1494/1919) 0.48 (1494/3124) 0.80 (830/1033) 0.27 (830/3124) 文節 0.73 (1399/1909) 0.45 (1399/3124) 構文片 0.80 (1429/1789) 0.46 (1429/3124) 単語2-gram 単語3-gram

46 分類結果の詳細正解不正解未分類素性 p/p n/n p/n n/p
p/o n/o 単語集合 1179 443 53 708 330 411 内容語 1082 416 60 589 420 557 840 654 151 274 571 634 393 437 113 90 1056 1035 文節 964 435 59 451 539 676 構文片 741 649 159 197 662 716 単語2-gram 単語3-gram 他の素性と比較して分類誤りが少ない　　→　高精度の分類が可能高精度 p : 好評 n : 不評 o : その他

p/o n/o 単語集合 1179 443 53 708 330 411 内容語 1082 416 60 589 420 557 840 654 151 274 571 634 393 437 113 90 1056 1035 文節 964 435 59 451 539 676 構文片 741 649 159 197 662 716 単語2-gram 単語3-gram 単語3-gramは最も分類誤りは少ない　　→　しかし、未分類の数もかなり多い p : 好評 n : 不評 o : その他

p/o n/o 単語集合 1179 443 53 708 330 411 内容語 1082 416 60 589 420 557 840 654 151 274 571 634 393 437 113 90 1056 1035 文節 964 435 59 451 539 676 構文片 741 649 159 197 662 716 単語2-gram 単語3-gram 他の素性と比較して、分類誤りが少ない　→　特に、不評を好評と分類した誤りが低い p : 好評 n : 不評 o : その他

49 比較素性の誤りの原因正解不正解未分類素性 p/p n/n p/n n/p
p/o n/o 単語集合 1179 443 53 708 330 411 内容語 1082 416 60 589 420 557 840 654 151 274 571 634 393 437 113 90 1056 1035 文節 964 435 59 451 539 676 構文片 741 649 159 197 662 716 単語2-gram 単語3-gram 名詞や副詞に極性が付与される　　　例）WILLCOM、一番、とても　←好評と判定分野によって極性が変化、表現が足りない　　　例）高い、出来る、使う　　　←好評と判定 p : 好評 n : 不評 o : その他

50 比較素性の誤りの原因正解不正解未分類素性 p/p n/n p/n n/p
p/o n/o 単語集合 1179 443 53 708 330 411 内容語 1082 416 60 589 420 557 840 654 151 274 571 634 393 437 113 90 1056 1035 文節 964 435 59 451 539 676 構文片 741 649 159 197 662 716 単語2-gram 単語3-gram p : 好評 n : 不評 o : その他　構文片ではこのような分類誤りが少なく文分類の観点からも　　　　　　　　構文片の有効性を確認

 評価表現の特定の観点から評価

52 評価表現の例（比較手法）  単語集合、内容語  好評表現：充実、便利、ほしい、食べる  不評表現：トラブル、弱い、仕様、ついに  単語2-gram、文節
 好評表現：使い-やすい、香り-が、が-好き  不評表現：返品-する、匂い-が、さすが-に →　評価表現以外の表現も多数存在 →　属性や評価の片方が欠けてしまう

53 評価表現の例（比較手法）  単語3-gram  好評表現：気にいっ-て-いる、IXY-に-する  　　　　：丁寧-に-対応、が-とても-良い  不評表現：調子-が-悪い、時間-が-かかる
 　　　　：が-分かり-にくい、使い物-に-なる →　副詞を含む表現の抽出が困難 →　３単語では表現できない評価表現も見られる

54 評価表現の例（本手法）  構文片  好評表現：映像-は→きれい  　　　　：すごく→きれい  　　　　：高-感度
 不評表現：画質-が→良く-ない  　　　　：気持ち→悪い  　　　　：微妙-に→使い-づらい →　単語3-gramで抽出困難な表現も収集評価表現の特定の観点からも　　　　　　　　構文片の有効性を確認

55 結論  構文片を提案  他の素性に比べて高精度の分類が可能  分野毎に辞書を作成する必要がない  Weblogからの評判抽出
 評価表現辞書を作成  文を好評/不評/その他に分類  適合率 80%, 再現率 46%  評価表現の特定

56 ありがとうございました

57 構文片  構文片のパターン  連用修飾  格フレーム : 名詞(-格助詞)
→ 述語  画面-が→きれい  副詞修飾 : 副詞 → 述語  とても→おいしい  連体修飾  名詞修飾 : 名詞(-の) → 名詞  キャノン-の→カメラ

58 構文片  構文片のパターン  連体修飾  動詞修飾 : 動詞
→ 名詞  くつろげる→店  形容詞修飾 : 形容詞 → 名詞  おいしい→ケーキ  複合名詞 : 名詞-名詞  携帯-電話  接頭辞 : 接頭辞-名詞  高-画質

59 評価方法  適合率  再現率  ここで、  正解タグ/システムの出力
 P : 好評、N : 不評、O : その他 Precision= P/ PN / N P/ PP/ N N / PN / N Recall= P/ PN / N P/ PP/ N N / PN / NP/ON /O

60 作成した辞書の規模  種辞書  約 5,500 (2,750/2,750)  汎化辞書
 約 5,000 (2,500/2,500)  拡張辞書  約 180,000 (100,000/80,000)  汎化拡張辞書  約 9,000 (5,500/3,500) ※250,000文の大規模コーパスを　使用して拡張した場合の結果

61 構文片の例（好評表現）パターン構文片格フレーム動詞修飾副詞修飾形容詞修飾接頭辞コンテンツ-が⇒充実
好感-を⇒持てるデザイン-が⇒かわいい動作-が⇒速い心地⇒良い暖まる⇒エピソード楽しむ⇒方法とっても⇒きれいかなり⇒コンパクトいい⇒香り高い⇒品質すごい⇒お洒落新-商品省-スペース高-機能

62 構文片の例（不評表現）パターン構文片格フレーム動詞修飾副詞修飾形容詞修飾ぬるい⇒ビール接頭辞
画質-が⇒良い-ない使い勝手-が⇒悪い消耗-が⇒激しいサイズ-が⇒小さい気持ち⇒悪い違う⇒商品すぐ⇒壊れるかなり⇒高額物足りない⇒感じ異-音再-起動非-表示

63 汎化した構文片の例極性構文片好評不評＊　→　きれい＊　→　使いやすい＊　→　美味しい飲み-やすい　→　＊
＊　→　良い-ない＊　→　使い-にくい＊　→　まずいいまひとつ　→　＊不具合-が　→　＊

64 既存研究との比較  藤村2005  素性：内容語の係り受けN-gram（N=1~4）  極性スコアの計算方法は同様藤村らの手法と比較して、　　・適合率　→　本手法の方が良い
　　・再現率　→　大きく劣っている手法適合率再現率 0.74 (2178/2950)0.70 (2178/3124) 本手法 0.80 (1429/1789) 0.46 (1429/3124) 比較手法[藤村2005]

65 機械学習手法との比較  機械学習手法  SVM：サポートベクターマシン  二値分類器  単語集合を素性として学習
正解不正解未分類手法 p/p n/n p/n n/p p/o n/o SVM 1249 890 672 313 0 0 藤村らの手法 1105 1073 381 391 76 98 本手法 741 649 159 197 662 716 p : 好評 n : 不評 o : その他

66 機械学習手法との比較  システムが極性を判定した文に注目好評不評手法精度適合率再現率
適合率再現率 SVM 0.68 0.65 0.8 0.57 0.73 (2139/3124) (1249/1921) (1249/1562) (890/1562) (890/1203) 藤村 0.7 0.74 0.74 0.73 0.73 (2178/3124) (1105/1496) (1105/1486) (1073/1454) (1073/1464) 本手法 0.46 0.79 0.82 0.8 0.77 (1429/3124) (741/938) (741/900) (649/808) (649/846) システムが極性を判定したものを　　　　藤村らの手法やSVMと比較すると、　適合率、再現率　→　共に本手法の方が良い

67 機械学習手法との比較  システムが極性を判定した文に注目好評不評手法精度適合率再現率
適合率再現率 SVM 0.68 0.65 0.8 0.57 0.73 (2139/3124) (1249/1921) (1249/1562) (890/1562) (890/1203) 藤村 0.7 0.74 0.74 0.73 0.73 (2178/3124) (1105/1496) (1105/1486) (1073/1454) (1073/1464) 本手法 0.46 0.79 0.82 0.8 0.77 (1429/3124) (741/938) (741/900) (649/808) (649/846) 極性判定できた文について　→　分類誤りが少なく、高精度の分類が可能

68 分類結果の例文（正解）  入力文  「キャンパスの図書館や授業にパソコンを持って行けるので携帯性は抜群だと思います。」  極性
 正解：好評、システム：好評  評価表現  携帯性は→抜群

69 分類結果の例文（正解）  入力文  「商品が届くのが早いし注文する際の画面もわかりやすい。」  極性 
正解：好評、システム：好評  評価表現  画面-も→わかり-やすい

70 分類結果の例文（正解）  入力文  「サイズが豊富でデザインも好み」  極性  正解：好評、システム：好評
 評価表現  サイズ-が→豊富  デザイン-も→好み

71 分類結果の例文（正解）  入力文  「使いづらい携帯と感じられてしまうような気もするのです。」  極性 
正解：不評、システム：不評  評価表現  使い-づらい→携帯

72 分類結果の例文（正解）  入力文  「画質がそんなに良くないわけだ」  極性  正解：不評、システム：不評
 評価表現  画質-が→良く-ない  そんなに→良く-ない

73 分類結果の例文（正解）  入力文  「衝動買いしたチーズケーキが謳い文句ほど美味しくなかった。」  極性 
正解：不評、システム：不評  評価表現  チーズケーキ-が→美味しく-ない

74 分類結果の例文（不正解）  入力文  「生茶パンダを可愛いと思ったことがないのですよね …。」〜 
極性  正解：不評、システム：好評  評価表現  パンダ-を→可愛い

75 分類結果の例文（不正解）  入力文  「久々にプリンターを使ったので印字が良くない」  極性 
正解：不評、システム：好評  評価表現  久々-に→使う  プリンター-を→使う  印字-が→良くない

76 分類結果の例文（不正解）  入力文  「しかし、大きさが小さく、便利なので好きです。」  極性 
正解：好評、システム：不評  評価表現  大きさ-が→小さい

77 分類結果の例文（不正解）  入力文  「具合が悪くなった時に対応してくれて嬉しかった。」  極性 
正解：好評、システム：不評  評価表現  具合-が→悪く-なる

構文片を用いた意見・評判情報抽出手法

構文片を用いた意見・評判情報抽出手法

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript