Upgrade to Pro — share decks privately, control downloads, hide ads and more …

構文片を用いた意見・評判情報抽出手法

 構文片を用いた意見・評判情報抽出手法

青木 優. 構文片を用いた意見・評判情報抽出手法. 長岡技術科学大学修士論文 (2008.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 構文片を用いた
    意見・評判情報抽出手法
    電気電子情報工学専攻
    山本研究室
    06509091 青木 優

    View Slide

  2. 2
    背景
     情報爆発時代
     インターネットの発展
     個人が様々な情報を容易に発信可能
     情報を整理、要約、検索する技術が必要不
    可欠となってきている
     市場調査
     製品やサービスに対する評判を調査
     人手によるアンケートはコストがかかる
     電子掲示板やWeblogに注目が集まる
    → テキストマイニング技術に注目

    View Slide

  3. 3
    目的
     評判情報の抽出
     商品やサービスに対する個人の主観的な意
    見や評判を収集
     Web上のWeblogや電子掲示板などの大規
    模テキストが対象
     評価の極性、評価表現の特定
     収集した意見や評判について
     ある製品の評判は好評か不評か (極性)
     不評であれば、製品のどの部分が不評か
    (評価表現)

    View Slide

  4. 4
    既存の評判抽出手法
     辞書構築 [Turney 2002]
     評価表現を収集(単語、単語N-gram)
     例)良い、きれい、大きい、少ない
     例)``高い''は好評、不評?
     表現の網羅性、拡張性の問題
     文書分類 [Pang 2002]
     文書の傾向を好評、不評で分類
     文書中にも複数の意見が存在
     個々の意見まで特定出来ない

    View Slide

  5. 5
    既存の評判抽出手法
     評価箇所の特定 [小林 2005]
     評価箇所を要素組で表現
     要素組:{分野、属性、評価}
     分野:携帯電話
     属性:画面、音質、コンテンツ
     評価:大きい、きれい、豊富
     各要素毎に辞書を作成
     分野毎に辞書が必要となる

    View Slide

  6. 6
    本研究では
     構文片の提案
     構文構造を考慮した処理単位が必要
     新たな処理単位である構文片を提案
     辞書構築
     自動的に辞書を構築、拡張
     高精度で網羅性の高い辞書を作成
     文単位での分類
     好評、不評、その他に分類
     文書中の評価箇所まで特定可能

    View Slide

  7. 7
    構文片
     構文片とは
     係り受けの最小単位
     修飾要素と被修飾要素の対
     以下のように表現
    構文片 : 修飾要素 → 被修飾要素

    View Slide

  8. 8
    構文片の例
     画面-が → きれい
     とても → おいしい
     キャノン-の → カメラ ×
     くつろげる → 店
     おいしい → ケーキ
     携帯-電話 ×
     高-画質
    赤:評価表現
    ただし、評価表現を含まない構文片
                 は対象外とする

    View Slide

  9. 9
    構文片の特徴
     抽出が容易
     単純な係り受け関係しか使っていない
     統計も取りやすく、扱いやすい
     部分的な構文構造を保持
     単語N-gramsと比較し文の構造を考慮
     慣用句と同様
     意味のまとまりとして取り扱うことができる
     例)気-に→なる、腹-が→立つ

    View Slide

  10. 10
    構文片の特徴
     分野の同定が不要
     属性と評価を同時に扱うことができる
     そのため、高精度の評価表現抽出が可能
     例)単語 :``大きい'' = 好評?不評?
     例)構文片:``画面-が → 大きい'' = 好評!
     例)   :``騒音-が → 大きい'' = 不評…
     同じ``大きい''でも分野によって評価は異なる

    View Slide

  11. 11
    構文片の特徴

    View Slide

  12. 12
    提案手法
    1.構文片の抽出
    2.極性スコアの計算(種辞書)
    3.構文片の汎化(汎化辞書)
    4.辞書の拡張(拡張辞書)
    5.文分類

    View Slide

  13. 13
    提案手法
    1.構文片の抽出
    2.極性スコアの計算(種辞書)
    3.構文片の汎化(汎化辞書)
    4.辞書の拡張(拡張辞書)
    5.文分類

    View Slide

  14. 14
    1. 構文片の抽出
    入力文 : シャープのケータイは画質がとてもいいです
    画質が
    とても いいです
    シャープの ケータイは
    テキスト
    木構造
    シャープの→ケータイ
    ケータイは→いい
    画質が→いい
    とても→いい
    構文解析
    構文片
    係り受け
    の対を抽出

    View Slide

  15. 15
    1. 構文片の抽出
    入力文 : シャープのケータイは画質がとてもいいです
    画質が
    とても いいです
    シャープの ケータイは
    テキスト
    木構造
    シャープの→ケータイ
    ケータイは→いい
    画質が→いい
    とても→いい
    構文解析
    構文片
    係り受け
    の対を抽出
    ×

    View Slide

  16. 16
    提案手法
    1.構文片の抽出
    2.極性スコアの計算(種辞書)
    3.構文片の汎化(汎化辞書)
    4.辞書の拡張(拡張辞書)
    5.文分類

    View Slide

  17. 17
    2. 極性スコアの計算
     単語の極性
     好評文には好評を示す単語
     不評文には不評を示す単語
     が出現しやすい[藤村 2004]
     構文片の極性
     構文片にも単語と同様のことが言える
     そこで、
     好評文と不評文に出現する
      構文片の偏りから極性を判定する

    View Slide

  18. 18
    2. 極性スコアの計算

    View Slide

  19. 19
    2. 極性スコアの計算

    View Slide

  20. 20
    2. 極性スコアの計算
     構文片の極性スコアを計算 [藤村 2004]
    score piece
    i
    =
    P piece
    i
    −N  piece
    i

    P piece
    i
    N  piece
    i

    −1≤score piece
    i
    ≤1
    piece
    i
    は構文片
    score piece
    i
    は piece
    i
    の極性スコア
    P piece
    i
     piece
    は好評文における
    i
    の出現確率
    N  piece
    i
     piece
    は不評文における
    i
    の出現確率
    {score piece
    i
    0 好評表現
    score piece
    i
    0 不評表現
    }

    View Slide

  21. 21
    提案手法
    1.構文片の抽出
    2.極性スコアの計算(種辞書)
    3.構文片の汎化(汎化辞書)
    4.辞書の拡張(拡張辞書)
    5.文分類

    View Slide

  22. 22
    3. 構文片の汎化
     種辞書だけでは
     教師データ中の構文片しか扱えない
     データスパースの恐れがある
     構文片の汎化
     単語に付与される極性はテキストの分野に
    よって変化する
     しかし、一部の語は極性が一意に決定する
     例)良い、きれい : 好評表現
     極性が一意に決まる要素を抽出する

    View Slide

  23. 23
    3. 構文片の汎化

    View Slide

  24. 24
    3. 構文片の汎化

    View Slide

  25. 25
    3. 構文片の汎化

    View Slide

  26. 26
    3. 構文片の汎化

    View Slide

  27. 27
    提案手法
    1.構文片の抽出
    2.極性スコアの計算(種辞書)
    3.構文片の汎化(汎化辞書)
    4.辞書の拡張(拡張辞書)
    5.文分類

    View Slide

  28. 28
    4. 辞書の拡張
     種辞書の規模は非常に小さい
     そのため、評価表現が乏しい
     構文片の汎化にも限界が…
     大規模な教師データが必要
     しかし、人手で十分な教師データを作成す
    るにはコストがかかりすぎる
     この問題を改善するため
     教師データを自動的に作成
     新たな教師データから構文片を収集する

    View Slide

  29. 29
    4. 辞書の拡張

    View Slide

  30. 30
    4. 辞書の拡張

    View Slide

  31. 31
    提案手法
    1.構文片の抽出
    2.極性スコアの計算(種辞書)
    3.構文片の汎化(汎化辞書)
    4.辞書の拡張(拡張辞書)
    5.文分類

    View Slide

  32. 32
    5. 文分類
     ここまでの工程
     種辞書及び拡張辞書を作成
     構文片と極性の対
     構文片を汎化(汎化辞書、拡張汎化辞書)
     汎化表現と極性の対
     文の分類
     文中の単語全ては必要ない
     そこで、構文片を手掛かりに極性を判定
     構文片自体を評価表現とし、
     辞書を用いて文に極性を付与する

    View Slide

  33. 33
    5. 文分類

    View Slide

  34. 34
    5. 文分類

    View Slide

  35. 35
    5. 文分類

    View Slide

  36. 36
    5. 文分類
     文の極性スコアを計算
    sentence scoreS = ∑
    piece
    i
    ⊂ S
    score piece
    i

    piece
    i
    S .
    は文 から抽出した構文片
    sentence scoreS  S .
    は文 の極性を示すスコア
    {sentence scoreS0 好評文
    sentence scoreS0 不評文
    otherwise その他
    }

    View Slide

  37. 37
    評価実験
     実験データ
     評価方法
     結果及び考察
     文分類の観点から評価
     評価箇所の特定の観点から評価

    View Slide

  38. 38
    評価実験
     実験データ
     評価方法
     結果及び考察
     文分類の観点から評価
     評価箇所の特定の観点から評価

    View Slide

  39. 39
    実験データ
     教師データ
     Weblogs(好評/不評のタグ付き)
     13分野
     約3,000文
     大規模コーパス
     Weblogs (タグなし)
     約250,000文

    View Slide

  40. 40
    教師データ
     複数の分野が混在
     好評、不評の文数
    は同量
    分野 文数
    デジタルカメラ 476
    PC 200
    お茶 180
    サービス 370
    462
    プリンタ 206
    携帯電話 146
    ブランド商品 92
    シャンプー 346
    ビール 322
    ゲーム 104
    化粧品 24
    チョコレート 196
    合計 3124
    MP3プレーヤー

    View Slide

  41. 41
    評価実験
     実験データ
     評価方法
     結果及び考察
     文分類の観点から評価
     評価箇所の特定の観点から評価

    View Slide

  42. 42
    評価方法
     分割交差検定
     教師データを5分割
     1つを正解データ、残りを教師データ
     5分割交差検定
     文を分類
     {好評/不評/その他}に分類
     正解との一致率を計算
     他の素性との比較
     構文片の有効性を確認

    View Slide

  43. 43
    評価実験
     実験データ
     評価方法
     結果及び考察
     文分類の観点から評価
     評価表現の特定の観点から評価

    View Slide

  44. 44
    辞書毎の分類結果
    拡張及び汎化により
            再現率が向上している
    辞書 適合率 再現率
    種辞書 0.87 (392/453) 0.13 (392/3124)
    汎化辞書 0.83 (961/1163) 0.31 (961/3124)
    拡張辞書 0.79 (289/366) 0.09 (289/3124)
    汎化拡張辞書 0.77 (1175/1611) 0.29 (920/3124)
    全辞書 0.80 (1429/1789) 0.46 (1429/3124)

    View Slide

  45. 45
    素性毎の分類結果
    他の素性と比較して、
     ・適合率 → 最も良い
     ・再現率 → 他の素性にも劣らない
    素性 適合率 再現率
    単語集合 0.68 (1622/2383) 0.52 (1622/3124)
    内容語 0.70 (1498/2147) 0.48 (1498/3124)
    0.78 (1494/1919) 0.48 (1494/3124)
    0.80 (830/1033) 0.27 (830/3124)
    文節 0.73 (1399/1909) 0.45 (1399/3124)
    構文片 0.80 (1429/1789) 0.46 (1429/3124)
    単語2-gram
    単語3-gram

    View Slide

  46. 46
    分類結果の詳細
    正解 不正解 未分類
    素性 p/p n/n p/n n/p p/o n/o
    単語集合 1179 443 53 708 330 411
    内容語 1082 416 60 589 420 557
    840 654 151 274 571 634
    393 437 113 90 1056 1035
    文節 964 435 59 451 539 676
    構文片 741 649 159 197 662 716
    単語2-gram
    単語3-gram
    他の素性と比較して分類誤りが少ない
      → 高精度の分類が可能
    高精度
    p : 好評
    n : 不評
    o : その他

    View Slide

  47. 47
    分類結果の詳細
    正解 不正解 未分類
    素性 p/p n/n p/n n/p p/o n/o
    単語集合 1179 443 53 708 330 411
    内容語 1082 416 60 589 420 557
    840 654 151 274 571 634
    393 437 113 90 1056 1035
    文節 964 435 59 451 539 676
    構文片 741 649 159 197 662 716
    単語2-gram
    単語3-gram
    単語3-gramは最も分類誤りは少ない
      → しかし、未分類の数もかなり多い
    p : 好評
    n : 不評
    o : その他

    View Slide

  48. 48
    分類結果の詳細
    正解 不正解 未分類
    素性 p/p n/n p/n n/p p/o n/o
    単語集合 1179 443 53 708 330 411
    内容語 1082 416 60 589 420 557
    840 654 151 274 571 634
    393 437 113 90 1056 1035
    文節 964 435 59 451 539 676
    構文片 741 649 159 197 662 716
    単語2-gram
    単語3-gram
    他の素性と比較して、分類誤りが少ない
     → 特に、不評を好評と分類した誤りが低い
    p : 好評
    n : 不評
    o : その他

    View Slide

  49. 49
    比較素性の誤りの原因
    正解 不正解 未分類
    素性 p/p n/n p/n n/p p/o n/o
    単語集合 1179 443 53 708 330 411
    内容語 1082 416 60 589 420 557
    840 654 151 274 571 634
    393 437 113 90 1056 1035
    文節 964 435 59 451 539 676
    構文片 741 649 159 197 662 716
    単語2-gram
    単語3-gram
    名詞や副詞に極性が付与される
       例)WILLCOM、一番、とても ←好評と判定
    分野によって極性が変化、表現が足りない
       例)高い、出来る、使う    ←好評と判定
    p : 好評
    n : 不評
    o : その他

    View Slide

  50. 50
    比較素性の誤りの原因
    正解 不正解 未分類
    素性 p/p n/n p/n n/p p/o n/o
    単語集合 1179 443 53 708 330 411
    内容語 1082 416 60 589 420 557
    840 654 151 274 571 634
    393 437 113 90 1056 1035
    文節 964 435 59 451 539 676
    構文片 741 649 159 197 662 716
    単語2-gram
    単語3-gram
    p : 好評
    n : 不評
    o : その他
     構文片ではこのような分類誤りが少なく
    文分類の観点からも
            構文片の有効性を確認

    View Slide

  51. 51
    評価実験
     実験データ
     評価方法
     結果及び考察
     文分類の観点から評価
     評価表現の特定の観点から評価

    View Slide

  52. 52
    評価表現の例(比較手法)
     単語集合、内容語
     好評表現:充実、便利、ほしい、食べる
     不評表現:トラブル、弱い、仕様、ついに
     単語2-gram、文節
     好評表現:使い-やすい、香り-が、が-好き
     不評表現:返品-する、匂い-が、さすが-に
    → 評価表現以外の表現も多数存在
    → 属性や評価の片方が欠けてしまう

    View Slide

  53. 53
    評価表現の例(比較手法)
     単語3-gram
     好評表現:気にいっ-て-いる、IXY-に-する
         :丁寧-に-対応、が-とても-良い
     不評表現:調子-が-悪い、時間-が-かかる
         :が-分かり-にくい、使い物-に-なる
    → 副詞を含む表現の抽出が困難
    → 3単語では表現できない評価表現も見られる

    View Slide

  54. 54
    評価表現の例(本手法)
     構文片
     好評表現:映像-は→きれい
         :すごく→きれい
         :高-感度
     不評表現:画質-が→良く-ない
         :気持ち→悪い
         :微妙-に→使い-づらい
    → 単語3-gramで抽出困難な表現も収集
    評価表現の特定の観点からも
            構文片の有効性を確認

    View Slide

  55. 55
    結論
     構文片を提案
     他の素性に比べて高精度の分類が可能
     分野毎に辞書を作成する必要がない
     Weblogからの評判抽出
     評価表現辞書を作成
     文を好評/不評/その他に分類
     適合率 80%, 再現率 46%
     評価表現の特定

    View Slide

  56. 56
    ありがとうございました

    View Slide

  57. 57
    構文片
     構文片のパターン
     連用修飾
     格フレーム : 名詞(-格助詞) → 述語
     画面-が→きれい
     副詞修飾 : 副詞 → 述語
     とても→おいしい
     連体修飾
     名詞修飾 : 名詞(-の) → 名詞
     キャノン-の→カメラ

    View Slide

  58. 58
    構文片
     構文片のパターン
     連体修飾
     動詞修飾 : 動詞 → 名詞
     くつろげる→店
     形容詞修飾 : 形容詞 → 名詞
     おいしい→ケーキ
     複合名詞 : 名詞-名詞
     携帯-電話
     接頭辞 : 接頭辞-名詞
     高-画質

    View Slide

  59. 59
    評価方法
     適合率
     再現率
     ここで、
     正解タグ/システムの出力
     P : 好評、N : 不評、O : その他
    Precision=
    P/ PN / N
    P/ PP/ N N / PN / N
    Recall=
    P/ PN / N
    P/ PP/ N N / PN / NP/ON /O

    View Slide

  60. 60
    作成した辞書の規模
     種辞書
     約 5,500 (2,750/2,750)
     汎化辞書
     約 5,000 (2,500/2,500)
     拡張辞書
     約 180,000 (100,000/80,000)
     汎化拡張辞書
     約 9,000 (5,500/3,500)
    ※250,000文の大規模コーパスを
     使用して拡張した場合の結果

    View Slide

  61. 61
    構文片の例(好評表現)
    パターン 構文片
    格フレーム
    動詞修飾
    副詞修飾
    形容詞修飾
    接頭辞
    コンテンツ-が⇒充実
    好感-を⇒持てる
    デザイン-が⇒かわいい
    動作-が⇒速い
    心地⇒良い
    暖まる⇒エピソード
    楽しむ⇒方法
    とっても⇒きれい
    かなり⇒コンパクト
    いい⇒香り
    高い⇒品質
    すごい⇒お洒落
    新-商品
    省-スペース
    高-機能

    View Slide

  62. 62
    構文片の例(不評表現)
    パターン 構文片
    格フレーム
    動詞修飾
    副詞修飾
    形容詞修飾
    ぬるい⇒ビール
    接頭辞
    画質-が⇒良い-ない
    使い勝手-が⇒悪い
    消耗-が⇒激しい
    サイズ-が⇒小さい
    気持ち⇒悪い
    違う⇒商品
    すぐ⇒壊れる
    かなり⇒高額
    物足りない⇒感じ
    異-音
    再-起動
    非-表示

    View Slide

  63. 63
    汎化した構文片の例
    極性 構文片
    好評
    不評
    * → きれい
    * → 使いやすい
    * → 美味しい
    飲み-やすい → *
    * → 良い-ない
    * → 使い-にくい
    * → まずい
    いまひとつ → *
    不具合-が → *

    View Slide

  64. 64
    既存研究との比較
     藤村2005
     素性:内容語の係り受けN-gram(N=1~4)
     極性スコアの計算方法は同様
    藤村らの手法と比較して、
      ・適合率 → 本手法の方が良い
      ・再現率 → 大きく劣っている
    手法 適合率 再現率
    0.74 (2178/2950)0.70 (2178/3124)
    本手法 0.80 (1429/1789) 0.46 (1429/3124)
    比較手法[藤村2005]

    View Slide

  65. 65
    機械学習手法との比較
     機械学習手法
     SVM:サポートベクターマシン
     二値分類器
     単語集合を素性として学習
    正解 不正解 未分類
    手法 p/p n/n p/n n/p p/o n/o
    SVM 1249 890 672 313 0 0
    藤村らの手法 1105 1073 381 391 76 98
    本手法 741 649 159 197 662 716
    p : 好評
    n : 不評
    o : その他

    View Slide

  66. 66
    機械学習手法との比較
     システムが極性を判定した文に注目
    好評 不評
    手法 精度 適合率 再現率 適合率 再現率
    SVM
    0.68 0.65 0.8 0.57 0.73
    (2139/3124) (1249/1921) (1249/1562) (890/1562) (890/1203)
    藤村
    0.7 0.74 0.74 0.73 0.73
    (2178/3124) (1105/1496) (1105/1486) (1073/1454) (1073/1464)
    本手法
    0.46 0.79 0.82 0.8 0.77
    (1429/3124) (741/938) (741/900) (649/808) (649/846)
    システムが極性を判定したものを
        藤村らの手法やSVMと比較すると、 
    適合率、再現率 → 共に本手法の方が良い

    View Slide

  67. 67
    機械学習手法との比較
     システムが極性を判定した文に注目
    好評 不評
    手法 精度 適合率 再現率 適合率 再現率
    SVM
    0.68 0.65 0.8 0.57 0.73
    (2139/3124) (1249/1921) (1249/1562) (890/1562) (890/1203)
    藤村
    0.7 0.74 0.74 0.73 0.73
    (2178/3124) (1105/1496) (1105/1486) (1073/1454) (1073/1464)
    本手法
    0.46 0.79 0.82 0.8 0.77
    (1429/3124) (741/938) (741/900) (649/808) (649/846)
    極性判定できた文について
     → 分類誤りが少なく、高精度の分類が可能

    View Slide

  68. 68
    分類結果の例文(正解)
     入力文
     「キャンパスの図書館や授業にパソコンを
    持って行けるので携帯性は抜群だと思いま
    す。」
     極性
     正解:好評、システム:好評
     評価表現
     携帯性は→抜群

    View Slide

  69. 69
    分類結果の例文(正解)
     入力文
     「商品が届くのが早いし注文する際の画面
    もわかりやすい。」
     極性
     正解:好評、システム:好評
     評価表現
     画面-も→わかり-やすい

    View Slide

  70. 70
    分類結果の例文(正解)
     入力文
     「サイズが豊富でデザインも好み」
     極性
     正解:好評、システム:好評
     評価表現
     サイズ-が→豊富
     デザイン-も→好み

    View Slide

  71. 71
    分類結果の例文(正解)
     入力文
     「使いづらい携帯と感じられてしまうよう
    な気もするのです。」
     極性
     正解:不評、システム:不評
     評価表現
     使い-づらい→携帯

    View Slide

  72. 72
    分類結果の例文(正解)
     入力文
     「画質がそんなに良くないわけだ」
     極性
     正解:不評、システム:不評
     評価表現
     画質-が→良く-ない
     そんなに→良く-ない

    View Slide

  73. 73
    分類結果の例文(正解)
     入力文
     「衝動買いしたチーズケーキが謳い文句ほ
    ど美味しくなかった。」
     極性
     正解:不評、システム:不評
     評価表現
     チーズケーキ-が→美味しく-ない

    View Slide

  74. 74
    分類結果の例文(不正解)
     入力文
     「生茶パンダを可愛いと思ったことがない
    のですよね …。」

     極性
     正解:不評、システム:好評
     評価表現
     パンダ-を→可愛い

    View Slide

  75. 75
    分類結果の例文(不正解)
     入力文
     「久々にプリンターを使ったので印字が良
    くない」
     極性
     正解:不評、システム:好評
     評価表現
     久々-に→使う
     プリンター-を→使う
     印字-が→良くない

    View Slide

  76. 76
    分類結果の例文(不正解)
     入力文
     「しかし、大きさが小さく、便利なので好
    きです。」
     極性
     正解:好評、システム:不評
     評価表現
     大きさ-が→小さい

    View Slide

  77. 77
    分類結果の例文(不正解)
     入力文
     「具合が悪くなった時に対応してくれて嬉
    しかった。」
     極性
     正解:好評、システム:不評
     評価表現
     具合-が→悪く-なる

    View Slide