Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ドメイン特徴語の自動取得によるWeb掲示板からの意見文抽出

 ドメイン特徴語の自動取得によるWeb掲示板からの意見文抽出

峠 泰成, 大橋 一輝, 山本 和英. ドメイン特徴語の自動取得によるWeb掲示板からの意見文抽出. 言語処理学会第11回年次大会, pp.672-675 (2005.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 2 はじめに ▪ Web から大量の情報を取得可能へ  Blog 、 Web 掲示板

    、 アクセス解析 etc ▪ 興味や関心など人の感性に対する意見情報  購入したい商品に対する意見 , 自社製品の評判     意見情報を収集したい • 商品 A の音は最高 ! • ライトが明るいので   見やすい。 • ここの刺身はおいしい • ソフトのバグが多い
  2. 3 Web 掲示板について ▪ Web 掲示板 → 意見情報を大量に取得可能 例 )

     エンジンも静かでスポーティでいい  最悪なのは、リア、あんな安っぽいリアはない ▪ 問題点  大量の書き込み  多くの時間やコスト 情報をすばやく大量に取得
  3. 4 関連研究 ▪ 立石ら (2004) Web 掲示板から対象、属性、評価の 3 つ組表現を取得し、対象 の意見情報を抽出する手法

    ▪ 藤村ら (2004) 肯定、否定のタグつき掲示板文書を学習し、単語を分類  することにより評価表現を取得する手法 ▪ 問題点  ドメインごとの対象辞書作成  自動収集によるノイズの出現
  4. 5 意見文の定義 ▪ 意見文の定義  個人による評価や意見を含んでいる文 例 ) ・エスティマの乗り心地は良いです。 ・荷物もたっぷり積めるし、燃費も良いです。

    ・とにかく静かです。 ▪ Web 掲示板での意見文の特徴  対象 、属性 、評価 の組み合わせで表現される場合が多い  異表記や表記揺れが多い  主語になる単語が省略されることが多い
  5. 7 抽出プロセス ドメイン特徴語 候補の取得 Google による 関連度の算出 ドメイン特徴語 同ドメイン掲示板 重み付け辞書

    単語スコア 及び 単語の重み 付与 意見文スコア算出 単語データ 取得対象 掲示板文書 単語スコア 及び 単語の重み 付与 意見文 基準判定 並び替え 意見文 学 習 部 抽 出 部 データ 処理 上位 10% 下位 50%
  6. 8 意見情報の抽出方法 ▪ どのような処理で抽出するのか? 手がかり : 評価表現 、 ドメイン特徴語  etc →  これらを判定する必要がある ▪ それぞれの表現に対する方法

     評価表現 →  人手により収集した評価表現辞書  ドメイン特徴語 → ドメイン別に自動収集  意見文の強さ → 単語の持つ意見情報による判定                  (単語データ)
  7. 9 評価表現について ▪ 意見文を判定するために 評価表現 は大きな手がかり ▪ 評価表現とは   ・軽い    ・良い  ・快適  ・抜群

      ・安っぽい ・汚い  ・遅い  ・嫌だ     人の評価が含まれている表現 ▪ 評価表現辞書  人手により一般的な評価表現を収集し辞書を作成  1274 表現(掲示板、シソーラス、新聞などより収集) ▪ しかし、これだけの評価表現では数が少ない
  8. 10 評価表現について ▪ 汎化規則によりさらに評価表現を収集する ・ 動詞 + やすい   ・ 名詞 + 的  など

             20 の規則を作成 ▪ 以上の評価表現を用いて  学習データ作成時の重み付け  意見文判定
  9. 11 主題判定 ▪ 入力文に評価の対象となる主題単語が含まれているか?  含まれていなければ意見文としての信頼は低い 例 ) { CD }

    主題 の使い勝手もなかなか良いですよ。  取得するドメインの違いで主題が変化する 対象掲示板から主題(ドメイン特徴語)を自動取得 検索エンジン 「 Google 」 の検索ヒット数を利用
  10. 12 主題判定  主題の自動抽出 → 掲示板の話題 ( 製品名 etc) と主題候補

    ➔ 主題候補 : 未知語 、名詞 、記号列 ( アルファベット )  主題抽出 : 検索エンジン "Google” を使用 話題( Key )と主題候補 (Word) の関連度 R RKey,Word 2⋅HKey,Word HKeyHWord H(*) : Google による 単語の検索結果数 = 関連度Rが 0.01 以上であった単語を主題であると判定
  11. 14 単語データの作成 ▪ 作成した単語データ例 単語 意見文 意見文でない 単語スコア 良い 15

    4 0.789 快適 10 2 0.833 家族 2 25 0.074 電話 4 9 0.307  単語スコアの算出 W s w i = P p w i  P p w i P n w i  P p : 意見文で単語 W i が出現する確率 P n : 意見文以外で単語 W i が出現する確率 ➔ では、意見文か否かの情報のない掲示板文書  からどのように情報を判断するべきか?
  12. 15 単語・文への重みづけ ▪ 入力データ : Web 掲示板の書き込みデータ ( タグなし )

    学習データは、信頼性の高いデータでなければならない 単語や文へ重みを与えて、意見文判別に使えるデータを取り出す 重み:評価表現辞書 、 強調表現辞書 、主題判定  etc 掲示板文書は大量にあるから、同じドメインの文書を使って対応 学習データの作成
  13. 16 意見文スコアの計算 ▪ 重みを考慮し、単語データを用いて意見文スコアを算出 ▪ 文 s の意見文スコア S(s) ▪

    新出の単語 → 単語データのすべての単語の平均値を付与 S  s = ∑ i W s w i  Average W s :  単語スコア Average :  単語データの平均値を  単語数分与えた時の総和 入力文 意見文スコア 静かなのも手伝って、スピード感が殆んどないです。 2.009 ペイントシーラントいいですねぇ 1.924 今あるストックを提示して貰えば話が早そうですね 1.120 0.816 それともステレオとの組み合わせで決まるのですか?
  14. 17 単語データへの追加 ▪ 意見文スコアから意見文を推定  意見文として信頼性の高い上位 10%               学習データ  意見文として信頼性の低い下位

    50% ※ 意見文として扱わない条件    ・ 評価表現の有無    ・ 主題表現の有無 ▪ 学習データを用いて再計算し、単語データに追加  同ドメインの単語を学習    ・ ドメイン依存の問題を解決        ・ 評価表現との共起の強さも学習
  15. 18 評価実験 ( 実験データ ) ▪ 提案手法を用いて、意見文判別をどの程度行うことができるか? ▪ 評価用データ Yahoo!

    掲示板 : 車、携帯電話のドメインの書き込み  学習データ : それぞれのドメインの 5 つの製品について の書き込みデータ  評価データ :ある製品に対する書き込み100件      (  車:650文 、 携帯電話:544文  )
  16. 22 考察(評価表現辞書) ▪ 評価表現の抽出もれ 車のドメイン  (外観)が決まっている  (音)がコトコトなる 携帯電話のドメイン

     (音)が割れる  (液晶)が真っ暗 ▪ 詳細な情報まで抽出すべき場合には ドメイン依存への対応 表現の自動取得が不可欠
  17. 23 考察(ドメイン特徴語) ▪ 文中での主題判定  Google での検索ヒット数による判定 ” エスティマ” との結果 良い例

    ・ ヴィッツ 、 MPV 、 ステップワゴン  → 車名  悪い例 ・ 色 、 音 → 一般的な単語 ・ ストップワードの作成  ・ 主題スコアの検討 etc
  18. 24 考察(抽出結果) ▪ 抽出精度  抽出結果の上位に、抽出すべき文がくる傾向 ▪ 特徴 ・ このケータイ、まあまあ気に入ってます。 ・ 電源がよく落ちるせいもあるかもですが、ちょっと変です。

    ・ 意見文をすばやく特定するためには有効 ・ 照応解析を重点としての検討が必要 ・ 特徴語の意味をさらに考慮する必要がある
  19. 27

  20. 28 強調表現への重みづけ ▪ 意見文判別に、表現を強調するような単語を考慮  強調表現とは ➔ 副詞のように表現を強調する単語 例 )

    ちょっと足が堅い快適セダンですね。 TTE はとっても魅力的ですね。 強調表現の数 - 副詞を中心に 75 表現を人手により収集  強調表現 : 単語スコアに 1.5 倍 の重みを与える