Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
手がかり語自動取得によるWeb掲示板からの評価文抽出
Search
自然言語処理研究室
March 31, 2004
Research
0
120
手がかり語自動取得によるWeb掲示板からの評価文抽出
峠 泰成, 山本 和英. 手がかり語自動取得によるWeb掲示板からの評価文抽出. 言語処理学会第10回年次大会, pp.107-110 (2004.3)
自然言語処理研究室
March 31, 2004
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
360
データサイエンス13_解析.pdf
jnlp
0
420
データサイエンス12_分類.pdf
jnlp
0
310
データサイエンス11_前処理.pdf
jnlp
0
430
Recurrent neural network based language model
jnlp
0
120
自然言語処理研究室 研究概要(2012年)
jnlp
0
110
自然言語処理研究室 研究概要(2013年)
jnlp
0
79
自然言語処理研究室 研究概要(2014年)
jnlp
0
93
自然言語処理研究室 研究概要(2015年)
jnlp
0
150
Other Decks in Research
See All in Research
CVPR2024 参加報告
kwchrk
0
120
MetricSifter:クラウドアプリケーションにおける故障箇所特定の効率化のための多変量時系列データの特徴量削減 / FIT 2024
yuukit
2
140
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
8
1.1k
ダイナミックプライシング とその実例
skmr2348
3
490
marukotenant01/tenant-20240916
marketing2024
0
620
国際会議ACL2024参加報告
chemical_tree
1
360
KDD論文読み会2024: False Positive in A/B Tests
ryotoitoi
0
240
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
upura
3
700
LLM時代にLabは何をすべきか聞いて回った1年間
hargon24
1
530
渋谷Well-beingアンケート調査結果
shibuyasmartcityassociation
0
310
Weekly AI Agents News! 9月号 論文のアーカイブ
masatoto
1
150
Weekly AI Agents News! 10月号 論文のアーカイブ
masatoto
1
420
Featured
See All Featured
Thoughts on Productivity
jonyablonski
68
4.4k
Building Your Own Lightsaber
phodgson
103
6.1k
GitHub's CSS Performance
jonrohan
1031
460k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
6.9k
Site-Speed That Sticks
csswizardry
2
190
Building Applications with DynamoDB
mza
91
6.1k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
460
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
GraphQLとの向き合い方2022年版
quramy
44
13k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
Rails Girls Zürich Keynote
gr2m
94
13k
Six Lessons from altMBA
skipperchong
27
3.5k
Transcript
1 手がかり語自動取得による Web 掲示板からの評価文抽出 峠 泰成 山本 和英 長岡技術科学大学 電気系
2 研究背景 Web の普及 – 大量の電子テキストを容易に入手可能 Web 掲示板の情報量の増加
大量の電子テキストの閲覧は困難 ユーザ、企業の要求 ・・・ 製品評価を知りたい
3 目的 Web の製品掲示板 – 生の声 – 大量の書き込み –
非定型のため情報抽出が困難 – 多くのノイズ 目的 – Web 掲示板から、製品の 評判・評価 を抽出
4 関連研究 立石ら [2001] – 製品名を検索語として、評価表現をもとに評判抽出 村野ら [2003]
– キーワードを人手で収集し、パターンを元に評判抽出 問題点 – 製品名がない文に未対応 – キーワードを手作業で収集
5 処理の流れ 2 . 対象表現の抽出 3 . ノイズ表現の削除 4 .
評価文の抽出 1 . 評価表現辞書の作成 人手により分類 規則により 自動抽出 特長 : 対象表現を自動抽出 → 高汎用性
6 評価表現辞書の作成 (1/2) 評価表現 ・・・ 主観的評価を表す語 – 良い 、悪い
、 惚れる 、 安心 etc 評価表現の取得 – Yahoo! 掲示板 「車」 ( フィット ) ・・・ 6371 件の書き込み 抽出する評価表現の品詞 – 動詞 、 形容詞 、 形容動詞、サ変名詞
7 評価表現辞書の作成 (2/2) 例) この車の 燃費 は 良い ですね 1 .
( 名詞 ) + ( が / は / を / も / に ) + ( ( 評価表現候補 評価表現候補 ) ) 2 . ( ( 評価表現候補 評価表現候補 ) ) + ( 名詞 ) 3 . ( 副詞 ) + ( ( 評価表現候補 評価表現候補 ) ) 取得した評価表現候補から人手で 368 単語を辞書に登録
8 対象表現の抽出 対象表現 ・・・ 評価対象となる名詞 – 燃費 、ブレーキ 、アクセル
etc 対象表現の自動抽出 – 評価表現辞書をもとに、規則により自動取得
9 対象表現抽出規則 抽出対象は係り受け部分 ひらがなの対象表現は除外 1 . ( (
対象表現 対象表現 ) ) + ( が / は / を / も / に ) + ( 評価表現 ) 2 . ( 評価表現 ) + ( ( 対象表現 対象表現 ) ) 例) ブレーキ は やっぱり 甘い ですね うるさい エンジンは減点対象
10 ノイズとなる対象表現の削除 規則のみによる対象表現の抽出 – ノイズを多く含む 高頻度のノイズ単語 • 人 、年
、月 など、一般的単語 が多い 低頻度のノイズ単語 • 評価文に関係ない単語が多い
11 高頻度のノイズ削除 製品などの評価の際、ノイズになる単語 → どの掲示板でも出現する単語 → 一般単語 ➢ 2 種類の削除方法で比較
・ 新聞コーパスでの高頻度語による削除 ・ Web コーパス [ 関口 2003] での高頻度語による削除
12 低頻度のノイズ削除 低頻度でノイズになる単語 → 評価表現と関係がない単語 → 共起する可能性の低い単語 ➢ 3 種類の削除方法で比較
・単語頻度による方法 ・係り受け共起頻度による方法 ・対数尤度比に基づく方法
13 評価文抽出パターン 対象表現 と 評価表現のみ → ノイズ文が多い 評価文の特徴的な表現からパターンを作成 ➢ 評価文抽出パターン
1 . ( 対象表現 ) + ( について / に関して ) + ( 評価表現 ) 2 . ( 評価表現 ) + ( 対象表現 ) + ( 文末表現 ) など、 11 のパターンを作成 これらパターンによって評価文を抽出
14 評価実験 掲示板からの評価文抽出精度の評価 評価用データ – 調査用データとは別の「車」 ( ステップワゴン
) の掲示板 (4523 件 ) – 無作為に 4000 文を取り出し、人手で正解データを作成 – 4000 文中、 538 文が評価文
15 評価文抽出結果 ノイズ対象表現を削除しない場合 本手法 ( 村野ら ) 適合率 [
% ] 50.1 (310 / 610) ( 66.5 ) 再現率 [ % ] 57.6 (310 / 538) ( 62.0 ) ※ 村野らは、対象表現と同等の表現を人手により抽出 ・再現率ではそれほど変わらない値が得られた ・適合率はまだ差が大きい
16 ノイズ対象表現の削除 高頻度ノイズ対象表現の削除 低頻度ノイズ対象表現の削除 → 削除により重要な情報も落ちる傾向
17 考察 (1/3) 評価文抽出について 抽出結果 • 再現率 6 割程度
抽出失敗の例 「広さを犠牲にするぐらいならいらない」 ➢ 評価表現不足 「スタイル△、エンジン△、室内の広さ × 」 ➢ 評価表現が記号などの場合 「商品 A を買った理由がこのエンジンだった。」 ➢ 評価文抽出パターン不足
18 考察( 2/3 ) ノイズ削除について 高頻度のノイズ対象表現の削除 新聞 コーパス > Web
コーパス 新聞コーパス → 経済記事の情報 Web コーパス → 対象表現を多く含む 有用な単語も消去している → さらに一般単語を絞りこむ必要がある
19 考察 (3/3) ノイズ削除について 低頻度のノイズ対象表現の削除 共起頻度 > 対数尤度比
対数尤度比の下位にも有用な情報が多い 対象表現と評価表現の結び付きが特徴的でない → ノイズ削除には対数尤度比は有効でない
20 まとめ Web の製品掲示板から評価文を抽出 – 対象表現の自動取得 – 製品名のない場合への対応
実験の結果、従来手法と同等の再現率で抽出 課題 – 必要な対象表現の削除による適合率の低下 – 評価文抽出パターンの詳細化 – 評価表現辞書の単語増加
21 おわり
22 抽出できなかった例 (1/2) ・外観は決して良いものではありません ・両側スライドドアは広さを犠牲にするぐらいならいらない ・おすすめですよ ~ → 対象表現が省略されている →
ある ( 動詞ー自立 ) 、ない ( 形容詞ー自立 ) などのノイズ になりやすい評価表現は辞書に登録されていない
23 抽出できなかった例 (2/2) ・2列目左シート相変わらず邪魔だし ・給油後に燃料計が満タンに戻るのが非常に遅いです。 → 評価表現と対象表現の両方が存在するが、 評価文抽出パターンにあてはまらなかった文 ・これはお奨めですね ・あのアルミもまあまあか
→ 評価表現の品詞が規則以外であったため 抽出できていない
24 対数尤度比 対数尤度比について – 共起の強さを知る指標 G 2 = alog
an abac blog bn abbd clog cn accd dlog dn bdcd a : 語が共起している文の数 b : 対象表現のみが存在する文の数 c : 評価表現のみが存在する文の数 d : どちらも存在しない文の数
25 抽出できた例 サードシートはステップの方が座りやすいですね なぜならシートバックが低すぎます ドアミラーの大きさに驚きました 乗り心地は満足しています
フェンダートリムが異常 ステップの空間いいですよ~