Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
手がかり語自動取得によるWeb掲示板からの評価文抽出
Search
自然言語処理研究室
March 31, 2004
Research
0
120
手がかり語自動取得によるWeb掲示板からの評価文抽出
峠 泰成, 山本 和英. 手がかり語自動取得によるWeb掲示板からの評価文抽出. 言語処理学会第10回年次大会, pp.107-110 (2004.3)
自然言語処理研究室
March 31, 2004
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
360
データサイエンス13_解析.pdf
jnlp
0
430
データサイエンス12_分類.pdf
jnlp
0
310
データサイエンス11_前処理.pdf
jnlp
0
440
Recurrent neural network based language model
jnlp
0
120
自然言語処理研究室 研究概要(2012年)
jnlp
0
120
自然言語処理研究室 研究概要(2013年)
jnlp
0
81
自然言語処理研究室 研究概要(2014年)
jnlp
0
97
自然言語処理研究室 研究概要(2015年)
jnlp
0
150
Other Decks in Research
See All in Research
Weekly AI Agents News! 9月号 プロダクト/ニュースのアーカイブ
masatoto
2
190
コミュニティドライブプロジェクト
smartfukushilab1
0
140
ベイズ的方法に基づく統計的因果推論の基礎
holyshun
0
750
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
8
1.3k
The Fellowship of Trust in AI
tomzimmermann
0
230
新規のC言語処理系を実装することによる 組込みシステム研究にもたらす価値 についての考察
zacky1972
1
310
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
upura
3
780
LLM 시대의 Compliance: Safety & Security
huffon
0
550
CUNY DHI_Lightning Talks_2024
digitalfellow
0
350
ECCV2024読み会: Minimalist Vision with Freeform Pixels
hsmtta
1
380
医療支援AI開発における臨床と情報学の連携を円滑に進めるために
moda0
0
140
Whoisの闇
hirachan
3
250
Featured
See All Featured
The Language of Interfaces
destraynor
156
24k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Fashionably flexible responsive web design (full day workshop)
malarkey
406
66k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
28
4.5k
Become a Pro
speakerdeck
PRO
26
5.1k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2k
How STYLIGHT went responsive
nonsquared
96
5.3k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
A Tale of Four Properties
chriscoyier
157
23k
Transcript
1 手がかり語自動取得による Web 掲示板からの評価文抽出 峠 泰成 山本 和英 長岡技術科学大学 電気系
2 研究背景 Web の普及 – 大量の電子テキストを容易に入手可能 Web 掲示板の情報量の増加
大量の電子テキストの閲覧は困難 ユーザ、企業の要求 ・・・ 製品評価を知りたい
3 目的 Web の製品掲示板 – 生の声 – 大量の書き込み –
非定型のため情報抽出が困難 – 多くのノイズ 目的 – Web 掲示板から、製品の 評判・評価 を抽出
4 関連研究 立石ら [2001] – 製品名を検索語として、評価表現をもとに評判抽出 村野ら [2003]
– キーワードを人手で収集し、パターンを元に評判抽出 問題点 – 製品名がない文に未対応 – キーワードを手作業で収集
5 処理の流れ 2 . 対象表現の抽出 3 . ノイズ表現の削除 4 .
評価文の抽出 1 . 評価表現辞書の作成 人手により分類 規則により 自動抽出 特長 : 対象表現を自動抽出 → 高汎用性
6 評価表現辞書の作成 (1/2) 評価表現 ・・・ 主観的評価を表す語 – 良い 、悪い
、 惚れる 、 安心 etc 評価表現の取得 – Yahoo! 掲示板 「車」 ( フィット ) ・・・ 6371 件の書き込み 抽出する評価表現の品詞 – 動詞 、 形容詞 、 形容動詞、サ変名詞
7 評価表現辞書の作成 (2/2) 例) この車の 燃費 は 良い ですね 1 .
( 名詞 ) + ( が / は / を / も / に ) + ( ( 評価表現候補 評価表現候補 ) ) 2 . ( ( 評価表現候補 評価表現候補 ) ) + ( 名詞 ) 3 . ( 副詞 ) + ( ( 評価表現候補 評価表現候補 ) ) 取得した評価表現候補から人手で 368 単語を辞書に登録
8 対象表現の抽出 対象表現 ・・・ 評価対象となる名詞 – 燃費 、ブレーキ 、アクセル
etc 対象表現の自動抽出 – 評価表現辞書をもとに、規則により自動取得
9 対象表現抽出規則 抽出対象は係り受け部分 ひらがなの対象表現は除外 1 . ( (
対象表現 対象表現 ) ) + ( が / は / を / も / に ) + ( 評価表現 ) 2 . ( 評価表現 ) + ( ( 対象表現 対象表現 ) ) 例) ブレーキ は やっぱり 甘い ですね うるさい エンジンは減点対象
10 ノイズとなる対象表現の削除 規則のみによる対象表現の抽出 – ノイズを多く含む 高頻度のノイズ単語 • 人 、年
、月 など、一般的単語 が多い 低頻度のノイズ単語 • 評価文に関係ない単語が多い
11 高頻度のノイズ削除 製品などの評価の際、ノイズになる単語 → どの掲示板でも出現する単語 → 一般単語 ➢ 2 種類の削除方法で比較
・ 新聞コーパスでの高頻度語による削除 ・ Web コーパス [ 関口 2003] での高頻度語による削除
12 低頻度のノイズ削除 低頻度でノイズになる単語 → 評価表現と関係がない単語 → 共起する可能性の低い単語 ➢ 3 種類の削除方法で比較
・単語頻度による方法 ・係り受け共起頻度による方法 ・対数尤度比に基づく方法
13 評価文抽出パターン 対象表現 と 評価表現のみ → ノイズ文が多い 評価文の特徴的な表現からパターンを作成 ➢ 評価文抽出パターン
1 . ( 対象表現 ) + ( について / に関して ) + ( 評価表現 ) 2 . ( 評価表現 ) + ( 対象表現 ) + ( 文末表現 ) など、 11 のパターンを作成 これらパターンによって評価文を抽出
14 評価実験 掲示板からの評価文抽出精度の評価 評価用データ – 調査用データとは別の「車」 ( ステップワゴン
) の掲示板 (4523 件 ) – 無作為に 4000 文を取り出し、人手で正解データを作成 – 4000 文中、 538 文が評価文
15 評価文抽出結果 ノイズ対象表現を削除しない場合 本手法 ( 村野ら ) 適合率 [
% ] 50.1 (310 / 610) ( 66.5 ) 再現率 [ % ] 57.6 (310 / 538) ( 62.0 ) ※ 村野らは、対象表現と同等の表現を人手により抽出 ・再現率ではそれほど変わらない値が得られた ・適合率はまだ差が大きい
16 ノイズ対象表現の削除 高頻度ノイズ対象表現の削除 低頻度ノイズ対象表現の削除 → 削除により重要な情報も落ちる傾向
17 考察 (1/3) 評価文抽出について 抽出結果 • 再現率 6 割程度
抽出失敗の例 「広さを犠牲にするぐらいならいらない」 ➢ 評価表現不足 「スタイル△、エンジン△、室内の広さ × 」 ➢ 評価表現が記号などの場合 「商品 A を買った理由がこのエンジンだった。」 ➢ 評価文抽出パターン不足
18 考察( 2/3 ) ノイズ削除について 高頻度のノイズ対象表現の削除 新聞 コーパス > Web
コーパス 新聞コーパス → 経済記事の情報 Web コーパス → 対象表現を多く含む 有用な単語も消去している → さらに一般単語を絞りこむ必要がある
19 考察 (3/3) ノイズ削除について 低頻度のノイズ対象表現の削除 共起頻度 > 対数尤度比
対数尤度比の下位にも有用な情報が多い 対象表現と評価表現の結び付きが特徴的でない → ノイズ削除には対数尤度比は有効でない
20 まとめ Web の製品掲示板から評価文を抽出 – 対象表現の自動取得 – 製品名のない場合への対応
実験の結果、従来手法と同等の再現率で抽出 課題 – 必要な対象表現の削除による適合率の低下 – 評価文抽出パターンの詳細化 – 評価表現辞書の単語増加
21 おわり
22 抽出できなかった例 (1/2) ・外観は決して良いものではありません ・両側スライドドアは広さを犠牲にするぐらいならいらない ・おすすめですよ ~ → 対象表現が省略されている →
ある ( 動詞ー自立 ) 、ない ( 形容詞ー自立 ) などのノイズ になりやすい評価表現は辞書に登録されていない
23 抽出できなかった例 (2/2) ・2列目左シート相変わらず邪魔だし ・給油後に燃料計が満タンに戻るのが非常に遅いです。 → 評価表現と対象表現の両方が存在するが、 評価文抽出パターンにあてはまらなかった文 ・これはお奨めですね ・あのアルミもまあまあか
→ 評価表現の品詞が規則以外であったため 抽出できていない
24 対数尤度比 対数尤度比について – 共起の強さを知る指標 G 2 = alog
an abac blog bn abbd clog cn accd dlog dn bdcd a : 語が共起している文の数 b : 対象表現のみが存在する文の数 c : 評価表現のみが存在する文の数 d : どちらも存在しない文の数
25 抽出できた例 サードシートはステップの方が座りやすいですね なぜならシートバックが低すぎます ドアミラーの大きさに驚きました 乗り心地は満足しています
フェンダートリムが異常 ステップの空間いいですよ~