Blogを対象とした商品価値の分析実験

 Blogを対象とした商品価値の分析実験

青木 優, 山本 和英. Blogを対象とした商品価値の分析実験. 言語処理学会第13回年次大会, pp.680-683 (2007.3)

Transcript

  1. Blogを対象とした 商品価値の分析実験 長岡技術科学大学 電気系 青木優  山本和英

  2. 2 はじめに  背景  近年、Blogや電子掲示板など、書き手の主 観的な意見や評価が容易に入手可能  肯定的、否定的以外の分類指標について は言及されていない

    商品の価値観に注目した分類指標 が必要なのでは?
  3. 3 価値分類とは?  肯定的意見  否定的意見  機能的価値  商品の機能や性能、もしくは使い方に関す

    る説明が述べられている。  情緒的価値  商品に対する印象や思い入れが述べられ ている。
  4. 4 タスク設定  Blogを対象とする  文単位で分類  意見文判定  意見文orノイズの判定

     価値分類  機能的or情緒的の判定  肯定的or否定的の判定 二値分類 問題 SVMで判定
  5. 5 SVMの素性(1/2)  1-gram  記号、未知語を除いた形態素  2-gram  記号を除いた形態素の連接

     Stopword1  品詞が名詞、形容詞の形態素  Stopword2  品詞が名詞、形容詞、動詞、副詞の形態素 +助動詞「ない」
  6. 6 SVMの素性(2/2)  Weight1  Stopword2の素性のみ重みを2倍  Weight2  Stopword2の素性を使用

     素性の重みを以下の式より決定 scorew= Pw−N w PwN w P(w) : 正例で素性wが出現する頻度 N(w) : 負例で素性wが出現する頻度
  7. 7 評価実験  意見文判定、 価値分類の 精度をそ れ ぞれ独立に 評価 

    訓練用デー タ  ドメインが混在 (パソコン、デジカメ、携帯 電話、MP3プレーヤー、プリンター、シャン プー、化粧品、ビール、お茶、ブランド)  評価用デー タ  単独ドメイン (菓子)
  8. 8 実験データ  Blogを使用 (分析経験者が判定) 訓練用データ 評価用データ (8400/8400) (563/780) (3400/3400)

    (254/207) (1500/1500) (314/86) 意見文 / ノイズ 16800文 1343文 機能 / 情緒 6800文 461文 肯定 / 否定 3000文 406文 データ提供 : 日経リサーチ
  9. 9 各分類器の精度 意見文判定 素性 [%] [%] [%] 1-gram 67.8 76.6

    67.2 2-gram 67.6 75.6 64.4 Segment 62.2 59.4 59.4 Stopword1 68.0 69.2 67.9 Stopword2 69.0 73.6 67.5 Weight1 66.2 72.2 69.0 Weight2 69.2 76.6 68.1 従来手法 66.4 76.9 66.8 肯定 / 否定 機能 / 情緒
  10. 10 考察・検討(1/2)  情緒的価値の特徴  「楽しい」「面白い」「うれしい」など  ドメインに依存しない表現が多い? → 特徴が捉えやす

    い? しかし実際は…  複雑な表現も多数存在  特徴が掴みづ らい(特に印象など)  表層情報だけでは判定が困 難
  11. 11 考察・検討(2/2)  価値分類の定義 機能的価値 情緒的価値 一文中に混在 → 機能的価値 !

    分類誤 りの原因 に… 機能 or NOT、情緒 or NOT で判定 定義の見直しが必要
  12. 12 今後の課題 肯定 否定 情緒 機能 商品A:50% 操作性: 60% 典型文:

    ・・・ 商品A:30% 喜び: 40% 典型文: ・・・ 商品A:10% 価格:20% 典型文: ・・・ 商品A:10% 怒り: 10% 典型文: ・・・
  13. 13 分類結果の例(1/2)  機能的価値&肯定的意見  『コクのあるミルクキャラメルのおいしさを、 そのままチョコレートで再現した親しみやす い味わいです。』  情緒的価値&否定的意見

     『……なんか不味そうだ。』  情緒的価値(分類誤り)  『ズルズルっ 麺はなかなかシコシコとして おいしいかも。』
  14. 14 分類結果の例(2/2)  機能的価値(分類誤り)  『チョコレート効果は、以前にも書いたとおり 、結構はまっています。』  判定が困難 

    『久々のチョコレートは甘さが染み渡ります』  機能/情緒が混在  『印刷もキレイだし、見た目もなかなかスタイ リッシュなので気に入っています♪』
  15. 15 従来手法  藤村ら(2004) scorew= Pw−N w PwN wk P(w)

    : 正例で素性wが出現する頻度 N(w) : 負例で素性wが出現する頻度 sentence scoreS =∑ w⊂S scorew
  16. 16 システム全体の評価 0 1 2 3 4 5 0 10

    20 30 40 50 60 70 80 90 100 0 100 200 300 400 500 精度 ( 肯定否定 ) 抽出数 ( 肯定否定 ) 精度 ( 機能情緒 ) 抽出数 ( 機能情緒 ) 抽出数 閾値 抽出精度 [%]
  17. Blogを対象とした 商品価値の分析実験 長岡技術科学大学 電気系 青木優  山本和英 日経リサーチ 大浜毅美  佐藤邦弘