Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模テキストからの意見・評判情報の抽出手法

 大規模テキストからの意見・評判情報の抽出手法

峠 泰成. 大規模テキストからの意見・評判情報の抽出手法. 長岡技術科学大学修士論文 (2006.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 2  はじめに ▪ Webなどの大規模テキストを容易に取得可能へ ex) 一般 Web 文書 , Weblog

    , Web掲示板 , SNS  etc ▪ 興味や関心などの感性情報の研究に注目    ・ ティーダの室内が広い                  ・ ライトが明るいのが良い    ・ キーレスポンスが微妙   ▪ 商品やサービスに対する意見・評判情報 , 自社製品の評判           これまで知らなかった情報を抽出したい !
  2. 3  目的 目的 : 大規模テキストから意見抽出対象の情報を取得したい D902i の評判は どうなっているのか? 対象:大規模テキスト 検索語

    (D902i) D902 i に対する意見情報 抽出処理 ・ 大画面がうれしい! → 好評 ・ よく電源が落ちる   → 不評 ・ 埃が入りすぎる   → 不評
  3. 4  意見情報とは ▪ 本研究で扱う意見情報の定義 本研究で扱う意見情報の定義  製品やサービスに対する         個人による主観的な評価や意見を示す情報 ex)

    エスティマ の 乗り心地 は 良い です . エスティマ : 評価の対象 乗り心地  : 評価の項目   良い   : 評価表現 条件1) 対象 or 評価項目 と 評価表現 が含まれる 条件2) 抽出対象は1文とする (前文の照応を含む) 意見情報を構成する要素
  4. 6  タスクの分類 評価・感情表現抽出 良好 , 最悪 , 最高 etc ドメインの特徴語抽出

    エンジン , バッテリー , 画像 etc 意見文抽出 意見文抽出 フィットの燃費は最高 . IXY は手になじむ .
  5. 7  評価・感情表現の抽出(1 / 7) ▪ 評価表現は意見情報を抽出する大きな手がかり ▪ 多くの評価表現を取得することが目的 ▪ 評価表現とは

    評価表現とは  評価対象への人の評価・感情を含む表現 ex) 軽い  良い  快適  抜群    ・・・  好評表現          安っぽい  汚い  腹が立つ  嫌だ  ・・・  不評表現  ▪ 1語での表現のみではなく , 複合表現の評価表現も多い
  6. 8  評価・感情表現の抽出(2 / 7) ▪ 関連研究 関連研究  評価表現の自動抽出 [

    那須川 (04), 館野 (03), 鈴木 (04) ]  評価表現の半自動抽出 [ 小林 (04)] ▪ 問題点 問題点  評価・感情表現の自動抽出は精度が非常に低い  複合表現の取得は精度を落とす ▪ 提案手法 提案手法  文脈を考慮した半自動抽出による評価表現の獲得  1 語の表現のみでなく , 複合表現にも対応  ドメイン依存の評価表現も抽出する
  7. 9  評価・感情表現の抽出(3 / 7) ▪ 評価表現抽出処理  好評の近くには好評の表現が多く , 不評の近くには不評の表現が多い

    ➔  文脈を利用した抽出手法 ▪ 小さな評価表現辞書から大きな評価表現辞書を作成する 処理手順 ① 種評価表現辞書のマッチング 前文 : ワゴンの室内は少し狭いですね . 対象文 : でも燃費も良いし , 満足かな . 後文 : 全体的に気に入っています . 入力文書
  8. 10 評価・感情表現の抽出( 4 / 7) ② 評価表現候補抽出  文脈を利用して前後の文から評価表現候補を抽出 

    評価表現候補は文末用言を中心に抽出する  文末用言の前1~3語と係り受け関係になっている表現 ( 最悪 , 文句無い , 味を出す , [ ツボ に ] はまる etc) 前文 : ワゴンの室内は少し狭いですね . 対象文 : でも燃費も良いし , 満足かな . 後文 : 全体的に気に入っています . 狭い : [-] 良い : [+] 気に入る : [+] 少し狭い : [-] ・      ・ ・  抽出した候補表現
  9. 11  評価・感情表現の抽出( 5/ 7) ③ 抽出した候補にフィルタリング , システムが出力 ( 頻度

    , 極性一致率 , ストップワード , 負例辞書  etc ) ④ 抽出結果を人手により判別  ⑤  ①~④を反復する 種評価表現辞書を増やしていく 種評価表現辞書に追加 負例辞書に追加 正例 負例  評価表現辞書の構築
  10. 12  評価・感情表現の抽出(6 / 7) ▪ 評価実験 評価実験 ▪ 実験データ 実験データ

     種評価表現辞書 : 126表現(ドメイン共通)  入力データ(ドメイン文書)  ➔ 「携帯電話」 , 「車」 , 「デジタルカメラ」 ( 価格 .com 口コミ掲示板 ) ▪ 実験結果 実験結果  各ドメインにおける抽出語彙数と抽出精度    携帯電話 : 592語 (40.8%)    車 : 923語 (38.4%)    デジタルカメラ : 997語 (37.4%)
  11. 13  評価・感情表現の抽出(7 / 7) ▪ 考察 考察 ▪ 1語の評価表現から複合表現への拡張を行った 

    抽出精度はどの抽出パターンにおいても同程度であった ▪ ドメイン依存の評価表現も獲得することができた ・ 携帯電話 : サクサク動く , もっさりする etc ・ 車 : パワーが違う , 小回りが利く etc ・ デジタルカメラ : 手になじむ , グリップ感がある  etc ▪ 精度は40%程度であり , 抽出精度の向上が不可欠 ▪ 品詞による絞込みと頻度による絞込みにより抽出対象が減少
  12. 14  タスクの分類 評価・感情表現抽出 良好 , 最悪 , 最高 etc ドメインの特徴語抽出

    エンジン , バッテリー , 画像 etc 意見文抽出 意見文抽出 フィットの燃費は最高 . IXY は手になじむ .
  13. 15  クエリーに関連するドメイン特徴語の抽出 (1/12) ▪ ドメインにより評価の対象となる表現が異なる 車 : ハンドル ,  アクセル ,  シート

    etc デジタルカメラ : メモリー , シャッター , フラッシュ etc ▪ 本研究での評価対象となる表現 →  ドメインの” ドメインの”特徴語 特徴語” と定義 ” と定義  ▪ 関連研究 関連研究  評価対象の半自動抽出 [ 小林 (04), Liu (05)]  関連用語抽出 [ 山本 (05), 山本 (02), 佐藤 (03)] ▪ 問題点 問題点  ドメインの特徴語の自動抽出が困難である  意見情報を抽出するために語の関連性を考慮
  14. 16 クエリーに関連するドメイン特徴語の抽出 (2/12) ▪ 提案手法 ( 峠 提案手法 ( 峠 [06] [06]

    ) )  名詞連接からの 名詞連接からの複合名詞同定 複合名詞同定手法 手法   一眼レフ利用  ⇒  一眼レフ    一眼レフ利用  ⇒  一眼レフ  / / 利用  : 分割したい 利用  : 分割したい   外部入力端子  ⇒ 外部入力端子  : 分割したくない   外部入力端子  ⇒ 外部入力端子  : 分割したくない ➔    複合名詞を同定したい 複合名詞を同定したい! !  クエリーの関連性を考慮した クエリーの関連性を考慮した特徴語自動抽出 特徴語自動抽出 クエリー:車 アクセル エンジン 乗り心地 シート etc 対象文書データ 検索 抽出
  15. 17 クエリーに関連するドメイン特徴語の抽出 (3/12) ▪ 名詞連接からの 名詞連接からの複合名詞同定 複合名詞同定手法 手法  意見情報を明確にするために複合名詞を考慮

    ex) エンジン / 音 , シャッター / スピード  問題点 問題点 ex) リモコンキー追加 , 光学ファインダー内臓 :  × 名詞の結合により , 複合名詞として成立しない語が生成される   ⇒ 的確な位置で複合名詞を同定する必要がある  提案手法 提案手法 ➔  検索エンジンを用いた複合名詞同定
  16. 18 クエリーに関連するドメイン特徴語の抽出 (4/12) ▪ 入力文書から候補語を抽出 (名詞 , 未知語の連結) 光学 / ズーム

    / 作動 / 音  ⇒ 光学ズーム作動音 ▪ 抽出候補からの1語ごとの検索語を作成 (光学ズーム作動音) , ( 光学ズーム作動 ) , ( ズーム作動音 ) , ( 光学ズーム ) , ( ズーム作動 ) , ( 作動音 ) , ( 光学 ) , ( ズーム ) , ( 作動 ) , ( 音 ) ▪ 検索エンジンを用いて検索語のヒット件数の算出 光学ズーム作動音: 1, 光学ズーム作動: 16,  ズーム作動音 : 10, ズーム作動 : 131, 作動音 : 52300, 光学ズーム : 307000, …
  17. 19 クエリーに関連するドメイン特徴語の抽出 (5/12) ▪ 検索ヒット数と最長一致法 ( 単語数の多い順 ) を用いて複合名詞の同定   

      光学ズーム作動音 : 1  ⇒  ×   光学ズーム作動 : 16 ⇒  ×   ズーム作動音 : 10 ⇒  ×    光学ズーム : 307000 ⇒ ◦    光学ズーム / 作動音    作動音 : 52300 ⇒ ◦      光学ズーム / 作動音 ▪ 複合名詞同定処理の精度は約70~80%  (判断基準 : 同定された結果が意味のある複合名詞か否か) 処理例)      ハッピーボーナス / 対象  , 写メールモード / 起動  ,      ローパスフィルタ / ゴミ / 付着  , ミノルタ /VS/ オリンパス
  18. 20 クエリーに関連するドメイン特徴語の抽出 (6/12) ▪ 入力文書からの特徴語抽出 入力文書からの特徴語抽出  車やデジタルカメラなどのドメインにより異なる特徴語を取得したい!  意見情報検索を考慮した語の連想関係を知りたい

    ➔  クエリーとの関連性に着目 ▪ 特徴語抽出手法 特徴語抽出手法  メインクエリーの周辺には上位語や下位語 , 関連語が多く存在 ➔  クエリーとの隣接関係により候補を絞り込み  抽出した候補とクエリーとの関連度の算出
  19. 21 クエリーに関連するドメイン特徴語の抽出 (7/12) ▪ ペアによる絞込み ペアによる絞込み  入力文書から候補を抽出 : 品詞による制限 , フィルタリング

     対象の1文から隣接したペアを作成   ex)  この車のエンジンにもう少しトルクがあれば運転も楽しくなるのに      (車 , エンジン ),   ( エンジン , トルク ),   ( トルク , 運転 )  メインクエリーによる絞込み メインクエリーによる絞込み ex) メインクエリー : ”車” (  車  ,  エンジン  ) : 前に出現するパターン    ( 加速  ,  車 )  : 後ろに出現するパターン
  20. 22 クエリーに関連するドメイン特徴語の抽出 (8/12) ▪ 絞込み特徴語候補の取得 絞込み特徴語候補の取得  隣接語から前方検索と後方検索を行い , 関連語をさらに絞る

    { エンジン , トルク } : 隣接語が前方に存在 { アクセル , エンジン } : 隣接語が後方に存在 前方検索 , 後方検索の両方に含まれていた語 ➔  クエリーに関連する特徴語として抽出    ex)  ”車”  ⇒ “エンジンオイル” から派生し取得した特徴語 エンジンルーム , AT, オイル ,  ミッションオイル , タービン , 燃費 フィルター , メンテナンスノート , エンジンブレーキ etc
  21. 23 クエリーに関連するドメイン特徴語の抽出 (9/12) ▪ メインクエリーとの関連度算出 メインクエリーとの関連度算出 抽出した特徴語とメインクエリーとの関連度を検索エンジンを用いて算出 RSMq,Cw= HMq,Cw HCw

    ∗ HNw,Mq HNw ∗logS1 ※   RS : 関連度 , Mq : メインクエリー , Cw : 特徴語 , Nw : 隣接語     H(a) : a の検索ヒット数 , H(a,b) : a と b の共起検索ヒット数     S : Cw を抽出した隣接語数 車 , エンジン , トルク 携帯電話 , 液晶画面 , サイズ 3つ組の関連性のスコアを算出
  22. 24 クエリーに関連するドメイン特徴語の抽出 (10/12) ▪ 評価実験 評価実験  価格 .com の口コミ掲示板の書き込み文書を使用

     携帯電話 , 車 , デジタルカメラの3つのドメインの特徴語を抽出 ▪ 獲得語彙 獲得語彙 メインクエリー : 携帯電話 , 隣接語 : 液晶画面 特徴語 : 傷 , 性能 , 文字 , 画像 , デジカメ , QVGA, モニター ,        保護シート , サイズ , バッテリー , 消費電力 , 画素 メインクエリー : 車 , 隣接語 : キーレス 特徴語 : OP, 電池 , イモビ , ボタン , エンスタ , 開錠 , 鍵 , 鍵穴 , ターボタイマー , セキュリティ , エンジンスターター , 集中ドアロック , 赤外線
  23. 25 クエリーに関連するドメイン特徴語の抽出 (11/12) ▪ 獲得語彙数 獲得語彙数  ドメイン別抽出語彙数  車:

    7122 語 , 携帯電話 : 3503 語 , デジタルカメラ: 5803 語 ▪ 抽出精度 抽出精度  ドメイン別抽出結果上位1000語 ドメイン 精度(提案手法) 精度(頻度による手法) 車 0.80 0.42 携帯電話 0.71 0.41 デジタルカメラ 0.76 0.39 提案手法 ・抽出した語の関連度上位 頻度による手法 ・入力文書の頻度上位 1000 語
  24. 26 クエリーに関連するドメイン特徴語の抽出 (12/12) ▪ 考察 考察  上位の抽出結果は比較的良好(スコアリングが寄与)  頻度では複合名詞が下位に落ちる傾向

    ➔  提案手法は複合名詞の順位も上昇  文書内で出現頻度の多い語 ⇒ 候補を大量に取得 ➔  関連語句へのリンクが作成しづらい (ノイズとなりやすい) ➔  抽出候補をさらに絞り込む手法が必要  関連度によるスレッショルドの検討
  25. 27  タスクの分類 評価・感情表現抽出 良好 , 最悪 , 最高 etc ドメインの特徴語抽出

    エンジン , バッテリー , 画像 etc 意見文抽出 意見文抽出 フィットの燃費は最高 . IXY は手になじむ .
  26. 28 文書情報を用いた意見文の判定( 1/7 ) ▪ 評価表現と特徴語を用いて実際に意見文を判定する ▪ 関連研究 関連研究 

    意見情報の3つ組み取得 [ Kobayashi (05) , 立石 (04) ]  文型パターンを用いた意見文取得 [ 村野 (03) ]  単語の強さを用いた手法 [ 藤村 (05) ] ▪ 問題点 問題点  意見情報の手がかりを人手により構築している  文型パターンによる抽出の限界 ➔  文書から意見情報になりやすい語により意見文の判定を行う
  27. 29 文書情報を用いた意見文の判定( 2/7 ) ▪ 対象とする文が意見文か否かの判定  評価表現と特徴語のみでは意見文かを判断できない! ▪ 提案手法

    提案手法 ( ( 峠 峠 [05] ) [05] )  意見文に出現しやすい語を学習し , 意見文判別スコアを算出  意見文判別スコアを元に意見文スコアによる並び替え ▪ ドメインごとに評価に寄与する表現は異なる  ドメイン別に学習用タグつきコーパスを作成 :  ×  意見情報になりやすいデータの学習 : ◦ ➔  意見情報としての信頼性が高いデータをドメイン別に学習
  28. 30 文書情報を用いた意見文の判定( 3/7 ) ▪ 意見文抽出処理 意見文抽出処理 学習データ作成 ワードレポジトリ作成 意見文スコア付与

    評価表現 , 特徴語の有無 学習用データ 上位 10% 下位 50% ワード レポジトリ 良い : 0.789 快適 : 0.833 家族 : 0.074 電話 : 0.307 etc   意見情報 抽出対象文書
  29. 31 文書情報を用いた意見文の判定( 4/7 ) ▪ 意見情報の学習データ作成 意見情報の学習データ作成 (学習部)  意見情報は入力文書中に1~2割程度しか含まれていない ➔

     データの上位と下位を学習することができればいい - 入力データを順位づけ ⇒ 学習データの自動作成 ▪ 単語の意見判別スコアを算出 ⇒ ワードレポジトリの作成  入力文へ重み付け ➔ 評価表現 , 強調表現 , 文末表現への重みづけ  入力文に対する意見文スコアを算出 ➔ 意見文スコアの上位10%と下位50%のデータを学習データ
  30. 32 文書情報を用いた意見文の判定( 5/7 ) ▪ 実際の意見文抽出 実際の意見文抽出 ( 抽出部 ) 

    作成したワードレポジトリ  抽出対象のドメインの特徴語                                          抽出対象のドメインの評価表現  ▪ 意見文スコアの算出  特徴語と評価表現のチェック  ワードレポジトリによる意見文スコア付与 ➔  意見文スコアによりソート  ⇒ 上位は意見情報になる 3つの情報より 意見文を抽出 エンジン も 静か で スポーティー で いい です ね 0.441 0.788 0.182 0.446
  31. 33 文書情報を用いた意見文の判定( 6/7 ) ▪ 評価実験 評価実験  ” 携帯電話”

    , ” デジタルカメラ” , ” 車”の3つのドメイン  価格 .com の口コミ掲示板の製品書き込み   それぞれ200件 (約1000文)について意見文抽出 ▪ 実験結果 実験結果 ドメイン 適合率 再現率 携帯電話 0.609 ( 70 / 115 ) 0.707 ( 70 / 99 ) 0.654 デジタルカメラ 0.648 ( 223 / 344 ) 0.826 ( 223 / 270 ) 0.714 車 0.694 ( 86 / 124 ) 0.632 ( 86 / 136 ) 0.662 0.665 0.620 0.642 F値 先行研究 ( 村野 [03] ) 本手法が文型パターンを用いた手法より F 値が向上
  32. 34 文書情報を用いた意見文の判定( 7/7 ) ▪ 考察 考察  評価表現と特徴語の抽出漏れ ➔

    再現率の低下 : 表現の取得方法の拡張へ  意見文判別は正解であるが , 補完など評価表現と特徴語の対応精度 ➔ 照応解析や出現位置に着目  特徴語のリンクを使った効率の検討 ▪ 展望 展望  抽出した意見文の集約 ➔  好・不評分類 , 性能別自動分類 , ビジュアライズ手法  意見箇所特定精度の向上
  33. 35  結論 ▪ 大規模テキストから意見情報を抽出するための手法を提案  評価表現の収集の拡張手法 ➔  複合表現への対応 , 精度の向上と語彙数の増加に課題

     評価対象となるドメインの特徴語抽出手法 ➔  複合名詞の同定を含めた特徴語の抽出  大規模文書からの意見文抽出手法 ➔ 大規模データから小規模しか存在しないの意見情報を獲得可能 ➔ 個々の手法の精度 , 再現率向上が課題
  34. 37  種評価表現辞書 ▪ 種評価表現辞書  登録数 : 126語  登録語彙 : 極性付き1形態素のみ   語彙例 :

    満足 :[+]   かっこいい: [+] 面白い: [+] 素敵: [+] 素晴らしい: [+] 楽しい: [+] 最悪: [-] ひどい: [-] 安っぽい: [-] まずい: [-] ださい: [-] 汚い :[-] うるさい: [-] 好 評 表 現 不 評 表 現
  35. 38  評価表現抽出語彙 ▪ 評価表現抽出結果  携帯電話 : 1語 : オススメ , 薄い ,

    目立つ , 不便 , 充実する  2語 : 遜色ない , 大差ない , 使う 易い , 電池持つ 3語 : 消費が激しい , 差は出る , 問題なく使える 係り受け :  [ メリットが ] ある , [ 安心感が ] 違う , [ 比べ物に ] なる  車 :  1語 : はまる , 安心する , 物足りない , スムーズ 2語 : 評判いい , ストレスない , 価値ある , きびきび走る 3語 : 余裕がある , 好感が持てる ,  苦になる , 頭にくる 係り受け :  [ トルクが ] 細い , [ ターボは ] ない , [ マイルドに ] なる  デジタルカメラ: 1語 : 魅力 , 使いこなせる , キレイ , 有利 , 役立つ 2語 : ポイント高い , 遠く及ぶ , しっくりくる , サクサク撮れる 3語 : 非常に有効 , 病み付きになる , 面白みがある 係り受け :  [ 自由度が ] 高い , [ 高級感 ] がある , [ 心が ] 和む
  36. 39  評価表現抽出結果 ▪ パターン別評価表現抽出結果 抽出パターン パターン1 37.3 35 34.9 パターン2

    41.3 43.4 39.5 パターン3 42.6 38.5 37.2 パターン4 41.3 37.8 37.8 全体 40.8 38.4 37.4 携帯電話 [%] 車 [%] デジタルカメラ [%]
  37. 40 実験データ ▪ 評価実験データ  価格 .com  口コミ掲示板  使用ドメイン

     入力データは構文解析結果 ➔ 構文解析器 :  Cabocha 携帯電話 : 85万文 車 : 106万文 デジタルカメラ : 116万文
  38. 41  複合名詞同定結果 ▪ 正解例  携帯電話 :  スカイメッセージ , 電池 /

    トラブル , 京セラ / 好き , 日本語変換システム , イヤホン / 装着 , ボタン操作 / 無効 / 解除 最低 / 基本料金 / プラス  車 : フロントワイパー , メータ / 表示 , 低速 / スカスカ , 燃料電池バス ドアスイッチ / 不良 , 全席 / フルフラット , ドアミラー / 内部 ドライブシャフトブーツ / 切れ , ヘッドランプ / ハイビーム / 点灯  デジタルカメラ : 露出補正 , 高画質レンズ , オーディオ / 華やか , ワイド液晶モニタ 実質 /MF レンズ , フラッシュ / 光量 / 補正 , テレコン / 装着可能 マルチファンクション / バッテリーパック , テレコンバージョンレンズ / 使用
  39. 42  複合名詞同定結果 ▪ 不正解例  携帯電話 : 協賛 / セール ,

    外部 / カメラ , ホント学習能力 , 最大音量 / レベル キー / パネル部分 , 送信メール自動 / 振り分け , BER/W 迷惑 / メールフィルタリング , サイド / キー操作 / 無効  車 : 電装 / ケーブル , 日本輸入 ,  希薄 / 燃料 , 新車購入 / 条件 ドライバー / インフォメーションセンター , インスパイアド / ライブ フェンダー / ランプフロント / オート , 地上デジタル / 波 / 対応チューナー ・デジタルカメラ : カード持参 , マイクロ / ズーム , パーティー / シーンモード , 互換 / 製品使用 , 短縮 / 画像保存 , 写真加工 / ツール コンバージョンレンズ比較 , カメラ / メーカー保証適用
  40. 43  ワードレポジトリの作成 ▪ 学習データから意見情報判別を行うデータを作成  ワードレポジトリの作成 ▪ 入力文書におけるスコア  上位10

    % のデータ ⇒ 意見情報になる  下位50 % のデータ ⇒ 意見情報にならない ▪ 意見文判別スコアの算出 W s w i = P p  w i  P p  w i P n w i  Pp : 単語 w が意見情報として出現する確率 Pn : 単語 w が意見情報として出現しない確率
  41. 44  重み付け手法 ▪ 学習データ作成のための重みづけ手法  評価表現に対する重みづけ 評価表現辞書登録単語 : 判別スコア * 2 汎化評価表現 : 判別スコア * 1.5

     強調表現に対する重みづけ 副詞などの強調表現(75語) : 判別スコア * 1.5  文末表現に対する重みづけ (文全体に対して) 疑問文(でしょうか? Etc ) : 判別スコア * 0 掲示板特有表現 : 判別スコア * 0
  42. 51  意見文抽出結果 ▪ 意見情報の抽出結果 ▪ ドメイン : 携帯電話  ( D902I )  結果

    URL へ ⇒ http://nlp.nagaokaut.ac.jp/~touge/MiningTool/DATA/OUTHTML/D902I_data.html ▪ ドメイン : 車 ( LAPIN )  結果 URL へ ⇒ http://nlp.nagaokaut.ac.jp/~touge/MiningTool/DATA/OUTHTML/LAPIN_data.html ▪ ドメイン : デジタルカメラ ( DSC-T9 )  結果 URL へ ⇒  http://nlp.nagaokaut.ac.jp/~touge/MiningTool/DATA/OUTHTML/DSCT9_data.html