Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
意見情報獲得のためのクエリー関連のドメイン特徴語抽出
Search
自然言語処理研究室
March 31, 2006
Research
0
98
意見情報獲得のためのクエリー関連のドメイン特徴語抽出
峠 泰成、山本 和英. 意見情報獲得のためのクエリー関連のドメイン特徴語抽出. 言語処理学会第12回年次大会, pp.85-88 (2006.3)
自然言語処理研究室
March 31, 2006
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
利用シーンを意識した推薦システム〜SpotifyとAmazonの事例から〜
kuri8ive
1
200
SSII2025 [TS1] 光学・物理原理に基づく深層画像生成
ssii
PRO
4
3.6k
(NULLCON Goa 2025)Windows Keylogger Detection: Targeting Past and Present Keylogging Techniques
asuna_jp
1
530
研究テーマのデザインと研究遂行の方法論
hisashiishihara
5
1.4k
在庫管理のための機械学習と最適化の融合
mickey_kubo
3
1.1k
大規模な2値整数計画問題に対する 効率的な重み付き局所探索法
mickey_kubo
1
250
Adaptive fusion of multi-modal remote sensing data for optimal sub-field crop yield prediction
satai
3
220
Looking for Escorts in Sydney?
lunsophia
1
120
RapidPen: AIエージェントによるペネトレーションテスト 初期侵入全自動化の研究
laysakura
0
1.5k
言語モデルの内部機序:解析と解釈
eumesy
PRO
49
18k
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
100
数理最適化と機械学習の融合
mickey_kubo
15
8.8k
Featured
See All Featured
The World Runs on Bad Software
bkeepers
PRO
69
11k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.3k
A better future with KSS
kneath
239
17k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
How to Think Like a Performance Engineer
csswizardry
24
1.7k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
670
How STYLIGHT went responsive
nonsquared
100
5.6k
Side Projects
sachag
455
42k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Site-Speed That Sticks
csswizardry
10
670
Transcript
1 意見情報獲得のための 意見情報獲得のための クエリー関連のドメイン特徴語抽出 クエリー関連のドメイン特徴語抽出 長岡技術科学大学 電気系 峠 泰成 山本 和英
2006 年 3 月 14 日
2 はじめに ▪ Webなどの大規模テキストを容易に取得可能へ ex) 一般 Web 文書 , Weblog
, Web掲示板 , SNS etc ▪ 興味や関心などの感性情報の研究に注目 [ 那須川 (05), Kobayashi et al.(05), Liu et al.(05) ] ・ ティーダの室内が広い ・ ライトが明るいのが良い ・ キーレスポンスが微妙 ▪ 商品やサービスに対する意見・評判情報 , 自社製品の評判 これまで知らなかった情報を抽出したい !
3 意見情報抽出 大規模テキストから自分が興味のある対象の 意見情報を自動抽出したい! D902i の評判は どうなっているのか? 対象:大規模テキスト 検索語 ( D902i )
D902 i に対する意見情報 抽出処理 ・ 大画面がうれしい! → 好評 ・ よく電源が落ちる → 不評 ・ 埃が入りすぎる → 不評
4 意見情報の集約 ▪ 意見情報を解析する 主流 : 人手による解析 ➔ 効率良く意見情報を集約すべき!
D902i について解析する場合 液晶が大きい , 画面が大きい , ディスプレイが大きい → 大画面についての好評意見 埃が入る → 画面が大きいことが欠点になる 共通の事象に対する情報を解析 ⇒ 自動判別 ➔ ドメインごとの共通事項の獲得は非常に手間がかかる ➔ 抽出した意見情報の検索効率を向上させたい
5 ドメイン特徴語の定義 ▪ ドメインにより評価の対象となる表現が異なる 車 : ハンドル , アクセル , シート etc
デジタルカメラ : メモリー , シャッター , フラッシュ etc ▪ 本研究での評価対象となる表現 → ドメイン”特徴語” と定義 ▪ 問題点 評価対象の語を人手により獲得している ( Kobayashi et al.[04], Liu et al.[05] ) 意見情報の検索を考慮するために語の関連性を保持する
6 提案手法 ▪ 名詞連接からの複合名詞同定手法 一眼レフ利用 ⇒ 一眼レフ / 利用 : 分割したい 外部入力端子 ⇒ 外部入力端子 : 分割したくない ➔ 複合名詞を同定したい!
▪ クエリーの関連性を考慮した特徴語自動抽出 クエリー:車 アクセル エンジン 乗り心地 シート etc 対象文書データ 検索 抽出
7 複合名詞同定について ▪ 名詞連接からの複合名詞同定 意見情報を明確にするために複合名詞を考慮 ex) エンジン /
音 , シャッター / スピード 問題点 ex) リモコンキー追加 , 光学ファインダー内蔵 : × 名詞の結合により , 複合名詞として成立しない語が生成される ⇒ 的確な位置で複合名詞を同定する必要がある ▪ 関連研究 中川ら [03] : 語の連接頻度による手法 後藤ら [05] : 連接の例外規則による手法
8 複合名詞同定手法 ▪ 検索エンジンを用いた複合名詞同定 抽出対象となるコーパス中で誤った名詞連接の頻度は非常に低い 対象とするコーパスのみでは妥当性を判定しづらい語が多い ▪ 検索ヒット数により連接した語の妥当性を判断
▪ 分割箇所が複数でも対応が可能 検索ヒット件数と最長一致を用いて同定していく ex) ヘッドランプ / ハイビーム / 点灯 日本語変換システム 全席 / フルフラット
9 複合名詞同定処理 ( 1 / 2 ) ▪ 入力文書から候補語を抽出 (名詞 ,
未知語 , 記号列の連結) リモコン / キー / 追加 ⇒ リモコンキー追加 ▪ 抽出候補からの 1 語ごとの検索語を作成 ( リモコンキー追加 ) , ( リモコンキー ) , ( キー追加 ) (リモコン) , (キー) , ( 追加 ) ▪ 検索エンジンを用いて検索語の検索ヒット件数を取得 リモコンキー追加 : 15 リモコン : 2 , 150 , 000 リモコンキー : 44 , 700 キー : 8 , 480 , 000 キー追加 : 575 追加 : 19 , 000 , 000
10 複合名詞同定処理(2 / 2) ▪ 検索ヒット数と最長一致法を用いて複合名詞の同定 閾値 m による分割点の作成
3形態素 : リモコンキー追加 : 15 → × 2形態素 : リモコンキー : 44700 → ◦ 2形態素 : キー追加 : 575 → × ※同一形態素数の場合には検索ヒット数が多い方を優先 リモコンキー / 追加 処理例 ハッピーボーナス / 対象 , 写メールモード / 起動 , ローパスフィルタ / ゴミ / 付着 , ミノルタ /VS/ オリンパス
11 ドメイン特徴語の抽出 ( 1 / 4 ) ▪ 入力文書からの特徴語抽出 入力文書からの特徴語抽出
車やデジタルカメラなどのドメインにより異なる特徴語を取得したい! 意見情報検索を考慮した語の連想関係を知りたい ➔ クエリーとの関連性に着目 メインクエリーの周辺には上位語や下位語 , 関連語が多く存在 ➔ クエリーとの隣接関係により候補を絞り込み 抽出した候補とクエリーとの関連度の算出 ▪ 関連研究 関連語 , 専門用語抽出 (山本ら [02], 竹安ら [05], 佐々木ら [05] )
12 ドメイン特徴語の抽出 ( 2 / 4 ) ▪ ペアによる絞込み ペアによる絞込み
入力文書から候補を抽出 : 品詞による制限 , フィルタリング 対象の1文から隣接したペアを作成 ex) この車のエンジンにもう少しトルクがあれば運転も楽しくなるのに (車 , エンジン ), ( エンジン , トルク ), ( トルク , 運転 ) メインクエリーによる絞込み メインクエリーによる絞込み ex) メインクエリー : 車 ( 車 , エンジン ) : 前に出現するパターン ( 加速 , 車 ) : 後ろに出現するパターン ➔ メインクエリーからの隣接語を取得
13 ドメイン特徴語の抽出 ( 3 / 4 ) ▪ 絞込み特徴語候補の取得 絞込み特徴語候補の取得
隣接語から前方検索と後方検索を行い , メインクエリーから派生させる { エンジン , トルク } : 隣接語が前方に存在 { アクセル , エンジン } : 隣接語が後方に存在 前方検索 , 後方検索の両方に含まれていた語 ➔ クエリーに関連する特徴語として抽出 ex) 車 ⇒ エンジンオイル から派生し取得した特徴語 エンジンルーム , AT, オイル , ミッションオイル , タービン , 燃費 フィルター , メンテナンスノート , エンジンブレーキ etc
14 ドメイン特徴語の抽出 ( 4 / 4 ) ▪ メインクエリーとの関連度算出 メインクエリーとの関連度算出
抽出した特徴語とメインクエリーとの関連度を検索エンジンを用いて算出 RSM,D= HM ,D HD ∗ HN ,M HN ∗logS1 ※ RS : 関連度 , M : メインクエリー , D : 特徴語 , N : 隣接語 H(a) : a の検索ヒット数 , H(a,b) : a と b の共起検索ヒット数 S : D を抽出した隣接語数 車 , エンジン , トルク 携帯電話 , 液晶画面 , サイズ 3つ組の関連性のスコアを算出
15 評価実験 ( 複合名詞同定処理 ) ▪ 実験データ 価格 .com
の口コミ掲示板の書き込み文書を使用 携帯電話 , 車 , デジタルカメラの3つのドメインの文書を利用 閾値 m :1000件 検索エンジン : Google ▪ 実験方法 構成する形態素数に対し100件を無作為に取得し同定精度を判定 (形態素数は2~5)
16 評価実験(複合名詞同定処理) ▪ ドメイン別複合名詞同定精度 構成形態素数 携帯電話 車 デジタルカメラ 2 0.77
0.82 0.85 3 0.73 0.82 0.78 4 0.71 0.74 0.73 5 0.76 0.83 0.77 平均 0.74 0.80 0.78 同定処理結果 → 70~80%程度 検索エンジンを用いているためどの形態素数でも同様の同定精度
17 評価実験(ドメイン特徴語抽出処理) ▪ ドメイン特徴語抽出 ドメイン特徴語抽出 価格 .com の口コミ掲示板の書き込み文書を使用 携帯電話:85万文
, 車:106万文 , デジタルカメラ:116万文 携帯電話 , 車 , デジタルカメラの3つのドメインの特徴語を抽出 ▪ 獲得語彙 獲得語彙 メインクエリー : 携帯電話 , 隣接語 : 液晶画面 特徴語 : 傷 , 性能 , 文字 , 画像 , デジカメ , QVGA, モニター , 保護シート , サイズ , バッテリー , 消費電力 , 画素 メインクエリー : 車 , 隣接語 : キーレス 特徴語 : OP, 電池 , イモビ , ボタン , エンスタ , 開錠 , 鍵 , 鍵穴 , ターボタイマー , セキュリティ , エンジンスターター , 集中ドアロック , 赤外線
18 評価実験(ドメイン特徴語抽出処理) ▪ 獲得語彙数 獲得語彙数 ドメイン別抽出語彙数 車: 7122
語 , 携帯電話 : 3503 語 , デジタルカメラ: 5803 語 ▪ 抽出精度 抽出精度 ドメイン別抽出結果上位1000語 ドメイン 精度(提案手法) 精度(頻度による手法) 車 0.80 0.42 携帯電話 0.71 0.41 デジタルカメラ 0.76 0.39 提案手法 ・抽出した語の関連度上位 頻度による手法 ・入力文書の頻度上位 1000 語
19 考察 (複合名詞同定処理について) ▪ 検索ヒット件数が同じぐらいの場合の分割箇所の決定 ex) 新車購入条件 新車購入条件:12 , 新車購入:393 ,
000 , 購入条件:360 , 000 ヒット件数の多い方を採用するが , 同程度の場合には別処理が必要 ▪ 検索エンジンのマッチング方法 D901i : 150 , 000 , D901 : 801 検索エンジンを扱う際の表記揺れやマッチングに対応した形式にすべき ▪ 固有名詞への対応 検索ヒット数が閾値以下の語への対応ができない(ヘルシーパーク裾野) ➔ 固有名詞に対する閾値の柔軟な対応が必要
20 考察 (ドメイン特徴語抽出について) ▪ 文書中の頻度の多い語 ⇒ 候補を大量に取得 関連語へのリンクを作成しづらい ➔ 関連度による閾値の決定により対応 ▪ メインクエリー(車など)との隣接語からのみ特徴語を取得
繰り返し行うことで語彙数を増やすことができる ▪ 検索エンジンの AND 検索の方法への対応 汎用的な語(手など)の場合 AND 検索の結果が大幅に変化 ➔ 抽出対象とノイズデータをあらかじめ選択する
21 まとめ ▪ クエリー関連のドメイン特徴語の自動抽出手法を提案 意見情報を明確にするために複合名詞を考慮 ➔ 名詞連接からの複合名詞同定処理 - 同定精度 : 70~80%
隣接関係を用いたドメイン特徴語の抽出 ➔ メインクエリーからの関連度により抽出 ▪ 課題と展望 意見情報抽出結果の検索効率の検討 文書内の低頻度語への対応
22 ▪ おわり
23 実験データ ▪ 評価実験データ 価格 .com 口コミ掲示板 使用ドメイン
入力データは構文解析結果 ➔ 構文解析器 : Cabocha 携帯電話 : 85万文 車 : 106万文 デジタルカメラ : 116万文
24 複合名詞同定結果 ▪ 正解例 携帯電話 : スカイメッセージ , 電池 /
トラブル , 京セラ / 好き , 日本語変換システム , イヤホン / 装着 , ボタン操作 / 無効 / 解除 最低 / 基本料金 / プラス 車 : フロントワイパー , メータ / 表示 , 低速 / スカスカ , 燃料電池バス ドアスイッチ / 不良 , 全席 / フルフラット , ドアミラー / 内部 ドライブシャフトブーツ / 切れ , ヘッドランプ / ハイビーム / 点灯 デジタルカメラ : 露出補正 , 高画質レンズ , オーディオ / 華やか , ワイド液晶モニタ 実質 /MF レンズ , フラッシュ / 光量 / 補正 , テレコン / 装着可能 マルチファンクション / バッテリーパック , テレコンバージョンレンズ / 使用
25 複合名詞同定結果 ▪ 不正解例 携帯電話 : 協賛 / セール ,
外部 / カメラ , ホント学習能力 , 最大音量 / レベル キー / パネル部分 , 送信メール自動 / 振り分け , BER/W 迷惑 / メールフィルタリング , サイド / キー操作 / 無効 車 : 電装 / ケーブル , 日本輸入 , 希薄 / 燃料 , 新車購入 / 条件 ドライバー / インフォメーションセンター , インスパイアド / ライブ フェンダー / ランプフロント / オート , 地上デジタル / 波 / 対応チューナー ・デジタルカメラ : カード持参 , マイクロ / ズーム , パーティー / シーンモード , 互換 / 製品使用 , 短縮 / 画像保存 , 写真加工 / ツール コンバージョンレンズ比較 , カメラ / メーカー保証適用