Upgrade to Pro — share decks privately, control downloads, hide ads and more …

手がかり語自動取得によるWeb掲示板からの評価文抽出

 手がかり語自動取得によるWeb掲示板からの評価文抽出

峠 泰成, 山本 和英. 手がかり語自動取得によるWeb掲示板からの評価文抽出. 言語処理学会第10回年次大会, pp.107-110 (2004.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 2 研究背景  Web の普及 – 大量の電子テキストを容易に入手可能  Web 掲示板の情報量の増加

     大量の電子テキストの閲覧は困難  ユーザ、企業の要求 ・・・ 製品評価を知りたい
  2. 3 目的  Web の製品掲示板 – 生の声 – 大量の書き込み –

    非定型のため情報抽出が困難 – 多くのノイズ  目的 – Web 掲示板から、製品の 評判・評価 を抽出
  3. 4 関連研究  立石ら [2001] – 製品名を検索語として、評価表現をもとに評判抽出  村野ら [2003]

    – キーワードを人手で収集し、パターンを元に評判抽出  問題点 – 製品名がない文に未対応 – キーワードを手作業で収集
  4. 5 処理の流れ 2 . 対象表現の抽出 3 . ノイズ表現の削除 4 .

    評価文の抽出 1 . 評価表現辞書の作成 人手により分類 規則により 自動抽出 特長 : 対象表現を自動抽出 → 高汎用性
  5. 6 評価表現辞書の作成 (1/2)  評価表現 ・・・ 主観的評価を表す語 – 良い 、悪い

    、 惚れる 、 安心 etc  評価表現の取得 – Yahoo! 掲示板 「車」 ( フィット ) ・・・ 6371 件の書き込み  抽出する評価表現の品詞 – 動詞 、 形容詞 、 形容動詞、サ変名詞
  6. 7 評価表現辞書の作成 (2/2) 例) この車の 燃費 は 良い ですね 1 .

    ( 名詞 ) + ( が / は / を / も / に ) + ( ( 評価表現候補 評価表現候補 ) ) 2 . ( ( 評価表現候補 評価表現候補 ) ) + ( 名詞 ) 3 . ( 副詞 ) + ( ( 評価表現候補 評価表現候補 ) ) 取得した評価表現候補から人手で 368 単語を辞書に登録
  7. 8 対象表現の抽出  対象表現 ・・・ 評価対象となる名詞 – 燃費 、ブレーキ 、アクセル

    etc  対象表現の自動抽出 – 評価表現辞書をもとに、規則により自動取得
  8. 9 対象表現抽出規則  抽出対象は係り受け部分  ひらがなの対象表現は除外 1 . ( (

    対象表現 対象表現 ) ) + ( が / は / を / も / に ) + ( 評価表現 ) 2 . ( 評価表現 ) + ( ( 対象表現 対象表現 ) ) 例) ブレーキ は やっぱり 甘い ですね    うるさい エンジンは減点対象
  9. 10 ノイズとなる対象表現の削除 規則のみによる対象表現の抽出 – ノイズを多く含む  高頻度のノイズ単語 • 人 、年

    、月 など、一般的単語 が多い  低頻度のノイズ単語 • 評価文に関係ない単語が多い
  10. 11 高頻度のノイズ削除 製品などの評価の際、ノイズになる単語 → どの掲示板でも出現する単語 → 一般単語 ➢ 2 種類の削除方法で比較

    ・ 新聞コーパスでの高頻度語による削除 ・ Web コーパス [ 関口 2003] での高頻度語による削除
  11. 13 評価文抽出パターン 対象表現 と 評価表現のみ → ノイズ文が多い 評価文の特徴的な表現からパターンを作成 ➢ 評価文抽出パターン

    1 . ( 対象表現 ) + ( について / に関して ) + ( 評価表現 ) 2 . ( 評価表現 ) + ( 対象表現 ) + ( 文末表現 ) など、 11 のパターンを作成 これらパターンによって評価文を抽出
  12. 14 評価実験  掲示板からの評価文抽出精度の評価  評価用データ – 調査用データとは別の「車」 ( ステップワゴン

    ) の掲示板 (4523 件 ) – 無作為に 4000 文を取り出し、人手で正解データを作成 – 4000 文中、 538 文が評価文
  13. 15 評価文抽出結果  ノイズ対象表現を削除しない場合 本手法 ( 村野ら ) 適合率 [

    % ] 50.1 (310 / 610) ( 66.5 ) 再現率 [ % ] 57.6 (310 / 538) ( 62.0 ) ※ 村野らは、対象表現と同等の表現を人手により抽出 ・再現率ではそれほど変わらない値が得られた ・適合率はまだ差が大きい
  14. 17 考察 (1/3) 評価文抽出について  抽出結果 • 再現率 6 割程度

    抽出失敗の例 「広さを犠牲にするぐらいならいらない」 ➢ 評価表現不足 「スタイル△、エンジン△、室内の広さ × 」 ➢ 評価表現が記号などの場合 「商品 A を買った理由がこのエンジンだった。」 ➢ 評価文抽出パターン不足
  15. 18 考察( 2/3 ) ノイズ削除について  高頻度のノイズ対象表現の削除 新聞 コーパス > Web

    コーパス 新聞コーパス → 経済記事の情報 Web コーパス → 対象表現を多く含む 有用な単語も消去している → さらに一般単語を絞りこむ必要がある
  16. 19 考察 (3/3) ノイズ削除について  低頻度のノイズ対象表現の削除 共起頻度 > 対数尤度比 

    対数尤度比の下位にも有用な情報が多い 対象表現と評価表現の結び付きが特徴的でない → ノイズ削除には対数尤度比は有効でない
  17. 20 まとめ  Web の製品掲示板から評価文を抽出 – 対象表現の自動取得 – 製品名のない場合への対応 

    実験の結果、従来手法と同等の再現率で抽出  課題 – 必要な対象表現の削除による適合率の低下 – 評価文抽出パターンの詳細化 – 評価表現辞書の単語増加
  18. 24 対数尤度比  対数尤度比について – 共起の強さを知る指標 G 2 = alog

    an abac  blog bn abbd  clog cn accd  dlog dn bdcd a : 語が共起している文の数 b : 対象表現のみが存在する文の数 c : 評価表現のみが存在する文の数 d : どちらも存在しない文の数