Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
手がかり語自動取得によるWeb掲示板からの評価文抽出
Search
自然言語処理研究室
March 31, 2004
Research
0
100
手がかり語自動取得によるWeb掲示板からの評価文抽出
峠 泰成, 山本 和英. 手がかり語自動取得によるWeb掲示板からの評価文抽出. 言語処理学会第10回年次大会, pp.107-110 (2004.3)
自然言語処理研究室
March 31, 2004
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
64
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
一般化ランダムフォレストの理論と統計的因果推論への応用
tomoshige_n
10
1.8k
株式会社リクルートホールディングス 企業分析
frandle256
0
130
DeepCrysTet: A Deep Learning Approach Using Tetrahedral Mesh for Predicting Properties of Crystalline Materials
tsurubee
0
360
Sosiaalisen median katsaus 02/2024
hponka
0
2.4k
First Authorに俺はなるっ!! IROS’23 CCC2023 FY
shota_nishiyama
0
170
Rの機械学習フレームワークの紹介〜tidymodelsを中心に〜 / machine_learning_with_r2024
s_uryu
0
210
Ground Metric Learning with applications in genomics
gpeyre
0
350
Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations
rudorudo11
0
160
FMP L3 Year 1 Project Proposal
haiinya
0
150
マルチモーダルLLMの応用動向の論文調査
masatoto
7
2.7k
方策の長期性能に対する効率的なオフライン評価・学習 (Long-term Off-Policy Evaluation and Learning)
usaito
PRO
2
120
My Journey as a UX Researcher
aranciap
0
1.1k
Featured
See All Featured
The Language of Interfaces
destraynor
151
23k
Happy Clients
brianwarren
91
6.4k
GitHub's CSS Performance
jonrohan
1023
450k
Designing Experiences People Love
moore
136
23k
Music & Morning Musume
bryan
41
5.6k
GraphQLとの向き合い方2022年版
quramy
31
12k
Building Flexible Design Systems
yeseniaperezcruz
318
37k
The Art of Programming - Codeland 2020
erikaheidi
41
12k
Done Done
chrislema
178
15k
Designing on Purpose - Digital PM Summit 2013
jponch
110
6.4k
VelocityConf: Rendering Performance Case Studies
addyosmani
320
23k
Faster Mobile Websites
deanohume
297
30k
Transcript
1 手がかり語自動取得による Web 掲示板からの評価文抽出 峠 泰成 山本 和英 長岡技術科学大学 電気系
2 研究背景 Web の普及 – 大量の電子テキストを容易に入手可能 Web 掲示板の情報量の増加
大量の電子テキストの閲覧は困難 ユーザ、企業の要求 ・・・ 製品評価を知りたい
3 目的 Web の製品掲示板 – 生の声 – 大量の書き込み –
非定型のため情報抽出が困難 – 多くのノイズ 目的 – Web 掲示板から、製品の 評判・評価 を抽出
4 関連研究 立石ら [2001] – 製品名を検索語として、評価表現をもとに評判抽出 村野ら [2003]
– キーワードを人手で収集し、パターンを元に評判抽出 問題点 – 製品名がない文に未対応 – キーワードを手作業で収集
5 処理の流れ 2 . 対象表現の抽出 3 . ノイズ表現の削除 4 .
評価文の抽出 1 . 評価表現辞書の作成 人手により分類 規則により 自動抽出 特長 : 対象表現を自動抽出 → 高汎用性
6 評価表現辞書の作成 (1/2) 評価表現 ・・・ 主観的評価を表す語 – 良い 、悪い
、 惚れる 、 安心 etc 評価表現の取得 – Yahoo! 掲示板 「車」 ( フィット ) ・・・ 6371 件の書き込み 抽出する評価表現の品詞 – 動詞 、 形容詞 、 形容動詞、サ変名詞
7 評価表現辞書の作成 (2/2) 例) この車の 燃費 は 良い ですね 1 .
( 名詞 ) + ( が / は / を / も / に ) + ( ( 評価表現候補 評価表現候補 ) ) 2 . ( ( 評価表現候補 評価表現候補 ) ) + ( 名詞 ) 3 . ( 副詞 ) + ( ( 評価表現候補 評価表現候補 ) ) 取得した評価表現候補から人手で 368 単語を辞書に登録
8 対象表現の抽出 対象表現 ・・・ 評価対象となる名詞 – 燃費 、ブレーキ 、アクセル
etc 対象表現の自動抽出 – 評価表現辞書をもとに、規則により自動取得
9 対象表現抽出規則 抽出対象は係り受け部分 ひらがなの対象表現は除外 1 . ( (
対象表現 対象表現 ) ) + ( が / は / を / も / に ) + ( 評価表現 ) 2 . ( 評価表現 ) + ( ( 対象表現 対象表現 ) ) 例) ブレーキ は やっぱり 甘い ですね うるさい エンジンは減点対象
10 ノイズとなる対象表現の削除 規則のみによる対象表現の抽出 – ノイズを多く含む 高頻度のノイズ単語 • 人 、年
、月 など、一般的単語 が多い 低頻度のノイズ単語 • 評価文に関係ない単語が多い
11 高頻度のノイズ削除 製品などの評価の際、ノイズになる単語 → どの掲示板でも出現する単語 → 一般単語 ➢ 2 種類の削除方法で比較
・ 新聞コーパスでの高頻度語による削除 ・ Web コーパス [ 関口 2003] での高頻度語による削除
12 低頻度のノイズ削除 低頻度でノイズになる単語 → 評価表現と関係がない単語 → 共起する可能性の低い単語 ➢ 3 種類の削除方法で比較
・単語頻度による方法 ・係り受け共起頻度による方法 ・対数尤度比に基づく方法
13 評価文抽出パターン 対象表現 と 評価表現のみ → ノイズ文が多い 評価文の特徴的な表現からパターンを作成 ➢ 評価文抽出パターン
1 . ( 対象表現 ) + ( について / に関して ) + ( 評価表現 ) 2 . ( 評価表現 ) + ( 対象表現 ) + ( 文末表現 ) など、 11 のパターンを作成 これらパターンによって評価文を抽出
14 評価実験 掲示板からの評価文抽出精度の評価 評価用データ – 調査用データとは別の「車」 ( ステップワゴン
) の掲示板 (4523 件 ) – 無作為に 4000 文を取り出し、人手で正解データを作成 – 4000 文中、 538 文が評価文
15 評価文抽出結果 ノイズ対象表現を削除しない場合 本手法 ( 村野ら ) 適合率 [
% ] 50.1 (310 / 610) ( 66.5 ) 再現率 [ % ] 57.6 (310 / 538) ( 62.0 ) ※ 村野らは、対象表現と同等の表現を人手により抽出 ・再現率ではそれほど変わらない値が得られた ・適合率はまだ差が大きい
16 ノイズ対象表現の削除 高頻度ノイズ対象表現の削除 低頻度ノイズ対象表現の削除 → 削除により重要な情報も落ちる傾向
17 考察 (1/3) 評価文抽出について 抽出結果 • 再現率 6 割程度
抽出失敗の例 「広さを犠牲にするぐらいならいらない」 ➢ 評価表現不足 「スタイル△、エンジン△、室内の広さ × 」 ➢ 評価表現が記号などの場合 「商品 A を買った理由がこのエンジンだった。」 ➢ 評価文抽出パターン不足
18 考察( 2/3 ) ノイズ削除について 高頻度のノイズ対象表現の削除 新聞 コーパス > Web
コーパス 新聞コーパス → 経済記事の情報 Web コーパス → 対象表現を多く含む 有用な単語も消去している → さらに一般単語を絞りこむ必要がある
19 考察 (3/3) ノイズ削除について 低頻度のノイズ対象表現の削除 共起頻度 > 対数尤度比
対数尤度比の下位にも有用な情報が多い 対象表現と評価表現の結び付きが特徴的でない → ノイズ削除には対数尤度比は有効でない
20 まとめ Web の製品掲示板から評価文を抽出 – 対象表現の自動取得 – 製品名のない場合への対応
実験の結果、従来手法と同等の再現率で抽出 課題 – 必要な対象表現の削除による適合率の低下 – 評価文抽出パターンの詳細化 – 評価表現辞書の単語増加
21 おわり
22 抽出できなかった例 (1/2) ・外観は決して良いものではありません ・両側スライドドアは広さを犠牲にするぐらいならいらない ・おすすめですよ ~ → 対象表現が省略されている →
ある ( 動詞ー自立 ) 、ない ( 形容詞ー自立 ) などのノイズ になりやすい評価表現は辞書に登録されていない
23 抽出できなかった例 (2/2) ・2列目左シート相変わらず邪魔だし ・給油後に燃料計が満タンに戻るのが非常に遅いです。 → 評価表現と対象表現の両方が存在するが、 評価文抽出パターンにあてはまらなかった文 ・これはお奨めですね ・あのアルミもまあまあか
→ 評価表現の品詞が規則以外であったため 抽出できていない
24 対数尤度比 対数尤度比について – 共起の強さを知る指標 G 2 = alog
an abac blog bn abbd clog cn accd dlog dn bdcd a : 語が共起している文の数 b : 対象表現のみが存在する文の数 c : 評価表現のみが存在する文の数 d : どちらも存在しない文の数
25 抽出できた例 サードシートはステップの方が座りやすいですね なぜならシートバックが低すぎます ドアミラーの大きさに驚きました 乗り心地は満足しています
フェンダートリムが異常 ステップの空間いいですよ~