Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
手がかり語自動取得によるWeb掲示板からの評価文抽出
Search
自然言語処理研究室
March 31, 2004
Research
0
130
手がかり語自動取得によるWeb掲示板からの評価文抽出
峠 泰成, 山本 和英. 手がかり語自動取得によるWeb掲示板からの評価文抽出. 言語処理学会第10回年次大会, pp.107-110 (2004.3)
自然言語処理研究室
March 31, 2004
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
チャッドローン:LLMによる画像認識を用いた自律型ドローンシステムの開発と実験 / ec75-morisaki
yumulab
1
450
Ad-DS Paper Circle #1
ykaneko1992
0
5.5k
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
440
【緊急警告】日本の未来設計図 ~沈没か、再生か。国民と断行するラストチャンス~
yuutakasan
0
130
引力・斥力を制御可能なランダム部分集合の確率分布
wasyro
0
160
Type Theory as a Formal Basis of Natural Language Semantics
daikimatsuoka
1
220
数理最適化に基づく制御
mickey_kubo
5
670
SkySense : A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery
satai
3
250
Collaborative Development of Foundation Models at Japanese Academia
odashi
2
560
Creation and environmental applications of 15-year daily inundation and vegetation maps for Siberia by integrating satellite and meteorological datasets
satai
3
120
データサイエンティストの採用に関するアンケート
datascientistsociety
PRO
0
1k
プロシェアリング白書2025_PROSHARING_REPORT_2025
circulation
1
860
Featured
See All Featured
Visualization
eitanlees
146
16k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Faster Mobile Websites
deanohume
307
31k
Adopting Sorbet at Scale
ufuk
77
9.4k
A better future with KSS
kneath
239
17k
Building Adaptive Systems
keathley
43
2.6k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.8k
Music & Morning Musume
bryan
46
6.6k
Writing Fast Ruby
sferik
628
62k
Balancing Empowerment & Direction
lara
1
390
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.2k
Transcript
1 手がかり語自動取得による Web 掲示板からの評価文抽出 峠 泰成 山本 和英 長岡技術科学大学 電気系
2 研究背景 Web の普及 – 大量の電子テキストを容易に入手可能 Web 掲示板の情報量の増加
大量の電子テキストの閲覧は困難 ユーザ、企業の要求 ・・・ 製品評価を知りたい
3 目的 Web の製品掲示板 – 生の声 – 大量の書き込み –
非定型のため情報抽出が困難 – 多くのノイズ 目的 – Web 掲示板から、製品の 評判・評価 を抽出
4 関連研究 立石ら [2001] – 製品名を検索語として、評価表現をもとに評判抽出 村野ら [2003]
– キーワードを人手で収集し、パターンを元に評判抽出 問題点 – 製品名がない文に未対応 – キーワードを手作業で収集
5 処理の流れ 2 . 対象表現の抽出 3 . ノイズ表現の削除 4 .
評価文の抽出 1 . 評価表現辞書の作成 人手により分類 規則により 自動抽出 特長 : 対象表現を自動抽出 → 高汎用性
6 評価表現辞書の作成 (1/2) 評価表現 ・・・ 主観的評価を表す語 – 良い 、悪い
、 惚れる 、 安心 etc 評価表現の取得 – Yahoo! 掲示板 「車」 ( フィット ) ・・・ 6371 件の書き込み 抽出する評価表現の品詞 – 動詞 、 形容詞 、 形容動詞、サ変名詞
7 評価表現辞書の作成 (2/2) 例) この車の 燃費 は 良い ですね 1 .
( 名詞 ) + ( が / は / を / も / に ) + ( ( 評価表現候補 評価表現候補 ) ) 2 . ( ( 評価表現候補 評価表現候補 ) ) + ( 名詞 ) 3 . ( 副詞 ) + ( ( 評価表現候補 評価表現候補 ) ) 取得した評価表現候補から人手で 368 単語を辞書に登録
8 対象表現の抽出 対象表現 ・・・ 評価対象となる名詞 – 燃費 、ブレーキ 、アクセル
etc 対象表現の自動抽出 – 評価表現辞書をもとに、規則により自動取得
9 対象表現抽出規則 抽出対象は係り受け部分 ひらがなの対象表現は除外 1 . ( (
対象表現 対象表現 ) ) + ( が / は / を / も / に ) + ( 評価表現 ) 2 . ( 評価表現 ) + ( ( 対象表現 対象表現 ) ) 例) ブレーキ は やっぱり 甘い ですね うるさい エンジンは減点対象
10 ノイズとなる対象表現の削除 規則のみによる対象表現の抽出 – ノイズを多く含む 高頻度のノイズ単語 • 人 、年
、月 など、一般的単語 が多い 低頻度のノイズ単語 • 評価文に関係ない単語が多い
11 高頻度のノイズ削除 製品などの評価の際、ノイズになる単語 → どの掲示板でも出現する単語 → 一般単語 ➢ 2 種類の削除方法で比較
・ 新聞コーパスでの高頻度語による削除 ・ Web コーパス [ 関口 2003] での高頻度語による削除
12 低頻度のノイズ削除 低頻度でノイズになる単語 → 評価表現と関係がない単語 → 共起する可能性の低い単語 ➢ 3 種類の削除方法で比較
・単語頻度による方法 ・係り受け共起頻度による方法 ・対数尤度比に基づく方法
13 評価文抽出パターン 対象表現 と 評価表現のみ → ノイズ文が多い 評価文の特徴的な表現からパターンを作成 ➢ 評価文抽出パターン
1 . ( 対象表現 ) + ( について / に関して ) + ( 評価表現 ) 2 . ( 評価表現 ) + ( 対象表現 ) + ( 文末表現 ) など、 11 のパターンを作成 これらパターンによって評価文を抽出
14 評価実験 掲示板からの評価文抽出精度の評価 評価用データ – 調査用データとは別の「車」 ( ステップワゴン
) の掲示板 (4523 件 ) – 無作為に 4000 文を取り出し、人手で正解データを作成 – 4000 文中、 538 文が評価文
15 評価文抽出結果 ノイズ対象表現を削除しない場合 本手法 ( 村野ら ) 適合率 [
% ] 50.1 (310 / 610) ( 66.5 ) 再現率 [ % ] 57.6 (310 / 538) ( 62.0 ) ※ 村野らは、対象表現と同等の表現を人手により抽出 ・再現率ではそれほど変わらない値が得られた ・適合率はまだ差が大きい
16 ノイズ対象表現の削除 高頻度ノイズ対象表現の削除 低頻度ノイズ対象表現の削除 → 削除により重要な情報も落ちる傾向
17 考察 (1/3) 評価文抽出について 抽出結果 • 再現率 6 割程度
抽出失敗の例 「広さを犠牲にするぐらいならいらない」 ➢ 評価表現不足 「スタイル△、エンジン△、室内の広さ × 」 ➢ 評価表現が記号などの場合 「商品 A を買った理由がこのエンジンだった。」 ➢ 評価文抽出パターン不足
18 考察( 2/3 ) ノイズ削除について 高頻度のノイズ対象表現の削除 新聞 コーパス > Web
コーパス 新聞コーパス → 経済記事の情報 Web コーパス → 対象表現を多く含む 有用な単語も消去している → さらに一般単語を絞りこむ必要がある
19 考察 (3/3) ノイズ削除について 低頻度のノイズ対象表現の削除 共起頻度 > 対数尤度比
対数尤度比の下位にも有用な情報が多い 対象表現と評価表現の結び付きが特徴的でない → ノイズ削除には対数尤度比は有効でない
20 まとめ Web の製品掲示板から評価文を抽出 – 対象表現の自動取得 – 製品名のない場合への対応
実験の結果、従来手法と同等の再現率で抽出 課題 – 必要な対象表現の削除による適合率の低下 – 評価文抽出パターンの詳細化 – 評価表現辞書の単語増加
21 おわり
22 抽出できなかった例 (1/2) ・外観は決して良いものではありません ・両側スライドドアは広さを犠牲にするぐらいならいらない ・おすすめですよ ~ → 対象表現が省略されている →
ある ( 動詞ー自立 ) 、ない ( 形容詞ー自立 ) などのノイズ になりやすい評価表現は辞書に登録されていない
23 抽出できなかった例 (2/2) ・2列目左シート相変わらず邪魔だし ・給油後に燃料計が満タンに戻るのが非常に遅いです。 → 評価表現と対象表現の両方が存在するが、 評価文抽出パターンにあてはまらなかった文 ・これはお奨めですね ・あのアルミもまあまあか
→ 評価表現の品詞が規則以外であったため 抽出できていない
24 対数尤度比 対数尤度比について – 共起の強さを知る指標 G 2 = alog
an abac blog bn abbd clog cn accd dlog dn bdcd a : 語が共起している文の数 b : 対象表現のみが存在する文の数 c : 評価表現のみが存在する文の数 d : どちらも存在しない文の数
25 抽出できた例 サードシートはステップの方が座りやすいですね なぜならシートバックが低すぎます ドアミラーの大きさに驚きました 乗り心地は満足しています
フェンダートリムが異常 ステップの空間いいですよ~