Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
手がかり語自動取得によるWeb掲示板からの評価文抽出
Search
自然言語処理研究室
March 31, 2004
Research
0
130
手がかり語自動取得によるWeb掲示板からの評価文抽出
峠 泰成, 山本 和英. 手がかり語自動取得によるWeb掲示板からの評価文抽出. 言語処理学会第10回年次大会, pp.107-110 (2004.3)
自然言語処理研究室
March 31, 2004
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
400
データサイエンス13_解析.pdf
jnlp
0
500
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
480
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
150
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
Other Decks in Research
See All in Research
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
18
8.9k
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
280
MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」
haraduka
15
11k
Learning to (Learn at Test Time): RNNs with Expressive Hidden States
kurita
1
300
SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images
satai
3
520
超高速データサイエンス
matsui_528
1
320
さまざまなAgent FrameworkとAIエージェントの評価
ymd65536
1
360
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
400
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
370
学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析
matsui_528
4
2.1k
AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン/buiding-momiji
studio_graph
2
1k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1k
Featured
See All Featured
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.1k
Mind Mapping
helmedeiros
PRO
0
36
We Have a Design System, Now What?
morganepeng
54
7.9k
Exploring anti-patterns in Rails
aemeredith
2
200
Believing is Seeing
oripsolob
0
12
AI Search: Where Are We & What Can We Do About It?
aleyda
0
6.7k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
260
Digital Ethics as a Driver of Design Innovation
axbom
PRO
0
130
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
130
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
28
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
30
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
86
Transcript
1 手がかり語自動取得による Web 掲示板からの評価文抽出 峠 泰成 山本 和英 長岡技術科学大学 電気系
2 研究背景 Web の普及 – 大量の電子テキストを容易に入手可能 Web 掲示板の情報量の増加
大量の電子テキストの閲覧は困難 ユーザ、企業の要求 ・・・ 製品評価を知りたい
3 目的 Web の製品掲示板 – 生の声 – 大量の書き込み –
非定型のため情報抽出が困難 – 多くのノイズ 目的 – Web 掲示板から、製品の 評判・評価 を抽出
4 関連研究 立石ら [2001] – 製品名を検索語として、評価表現をもとに評判抽出 村野ら [2003]
– キーワードを人手で収集し、パターンを元に評判抽出 問題点 – 製品名がない文に未対応 – キーワードを手作業で収集
5 処理の流れ 2 . 対象表現の抽出 3 . ノイズ表現の削除 4 .
評価文の抽出 1 . 評価表現辞書の作成 人手により分類 規則により 自動抽出 特長 : 対象表現を自動抽出 → 高汎用性
6 評価表現辞書の作成 (1/2) 評価表現 ・・・ 主観的評価を表す語 – 良い 、悪い
、 惚れる 、 安心 etc 評価表現の取得 – Yahoo! 掲示板 「車」 ( フィット ) ・・・ 6371 件の書き込み 抽出する評価表現の品詞 – 動詞 、 形容詞 、 形容動詞、サ変名詞
7 評価表現辞書の作成 (2/2) 例) この車の 燃費 は 良い ですね 1 .
( 名詞 ) + ( が / は / を / も / に ) + ( ( 評価表現候補 評価表現候補 ) ) 2 . ( ( 評価表現候補 評価表現候補 ) ) + ( 名詞 ) 3 . ( 副詞 ) + ( ( 評価表現候補 評価表現候補 ) ) 取得した評価表現候補から人手で 368 単語を辞書に登録
8 対象表現の抽出 対象表現 ・・・ 評価対象となる名詞 – 燃費 、ブレーキ 、アクセル
etc 対象表現の自動抽出 – 評価表現辞書をもとに、規則により自動取得
9 対象表現抽出規則 抽出対象は係り受け部分 ひらがなの対象表現は除外 1 . ( (
対象表現 対象表現 ) ) + ( が / は / を / も / に ) + ( 評価表現 ) 2 . ( 評価表現 ) + ( ( 対象表現 対象表現 ) ) 例) ブレーキ は やっぱり 甘い ですね うるさい エンジンは減点対象
10 ノイズとなる対象表現の削除 規則のみによる対象表現の抽出 – ノイズを多く含む 高頻度のノイズ単語 • 人 、年
、月 など、一般的単語 が多い 低頻度のノイズ単語 • 評価文に関係ない単語が多い
11 高頻度のノイズ削除 製品などの評価の際、ノイズになる単語 → どの掲示板でも出現する単語 → 一般単語 ➢ 2 種類の削除方法で比較
・ 新聞コーパスでの高頻度語による削除 ・ Web コーパス [ 関口 2003] での高頻度語による削除
12 低頻度のノイズ削除 低頻度でノイズになる単語 → 評価表現と関係がない単語 → 共起する可能性の低い単語 ➢ 3 種類の削除方法で比較
・単語頻度による方法 ・係り受け共起頻度による方法 ・対数尤度比に基づく方法
13 評価文抽出パターン 対象表現 と 評価表現のみ → ノイズ文が多い 評価文の特徴的な表現からパターンを作成 ➢ 評価文抽出パターン
1 . ( 対象表現 ) + ( について / に関して ) + ( 評価表現 ) 2 . ( 評価表現 ) + ( 対象表現 ) + ( 文末表現 ) など、 11 のパターンを作成 これらパターンによって評価文を抽出
14 評価実験 掲示板からの評価文抽出精度の評価 評価用データ – 調査用データとは別の「車」 ( ステップワゴン
) の掲示板 (4523 件 ) – 無作為に 4000 文を取り出し、人手で正解データを作成 – 4000 文中、 538 文が評価文
15 評価文抽出結果 ノイズ対象表現を削除しない場合 本手法 ( 村野ら ) 適合率 [
% ] 50.1 (310 / 610) ( 66.5 ) 再現率 [ % ] 57.6 (310 / 538) ( 62.0 ) ※ 村野らは、対象表現と同等の表現を人手により抽出 ・再現率ではそれほど変わらない値が得られた ・適合率はまだ差が大きい
16 ノイズ対象表現の削除 高頻度ノイズ対象表現の削除 低頻度ノイズ対象表現の削除 → 削除により重要な情報も落ちる傾向
17 考察 (1/3) 評価文抽出について 抽出結果 • 再現率 6 割程度
抽出失敗の例 「広さを犠牲にするぐらいならいらない」 ➢ 評価表現不足 「スタイル△、エンジン△、室内の広さ × 」 ➢ 評価表現が記号などの場合 「商品 A を買った理由がこのエンジンだった。」 ➢ 評価文抽出パターン不足
18 考察( 2/3 ) ノイズ削除について 高頻度のノイズ対象表現の削除 新聞 コーパス > Web
コーパス 新聞コーパス → 経済記事の情報 Web コーパス → 対象表現を多く含む 有用な単語も消去している → さらに一般単語を絞りこむ必要がある
19 考察 (3/3) ノイズ削除について 低頻度のノイズ対象表現の削除 共起頻度 > 対数尤度比
対数尤度比の下位にも有用な情報が多い 対象表現と評価表現の結び付きが特徴的でない → ノイズ削除には対数尤度比は有効でない
20 まとめ Web の製品掲示板から評価文を抽出 – 対象表現の自動取得 – 製品名のない場合への対応
実験の結果、従来手法と同等の再現率で抽出 課題 – 必要な対象表現の削除による適合率の低下 – 評価文抽出パターンの詳細化 – 評価表現辞書の単語増加
21 おわり
22 抽出できなかった例 (1/2) ・外観は決して良いものではありません ・両側スライドドアは広さを犠牲にするぐらいならいらない ・おすすめですよ ~ → 対象表現が省略されている →
ある ( 動詞ー自立 ) 、ない ( 形容詞ー自立 ) などのノイズ になりやすい評価表現は辞書に登録されていない
23 抽出できなかった例 (2/2) ・2列目左シート相変わらず邪魔だし ・給油後に燃料計が満タンに戻るのが非常に遅いです。 → 評価表現と対象表現の両方が存在するが、 評価文抽出パターンにあてはまらなかった文 ・これはお奨めですね ・あのアルミもまあまあか
→ 評価表現の品詞が規則以外であったため 抽出できていない
24 対数尤度比 対数尤度比について – 共起の強さを知る指標 G 2 = alog
an abac blog bn abbd clog cn accd dlog dn bdcd a : 語が共起している文の数 b : 対象表現のみが存在する文の数 c : 評価表現のみが存在する文の数 d : どちらも存在しない文の数
25 抽出できた例 サードシートはステップの方が座りやすいですね なぜならシートバックが低すぎます ドアミラーの大きさに驚きました 乗り心地は満足しています
フェンダートリムが異常 ステップの空間いいですよ~