Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介7月分
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
miyanishi
July 24, 2014
0
390
文献紹介7月分
miyanishi
July 24, 2014
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
86
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.1k
Docker and Python
trallard
47
3.7k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
71k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
290
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
1
58
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
Leo the Paperboy
mayatellez
4
1.4k
Speed Design
sergeychernyshev
33
1.5k
How GitHub (no longer) Works
holman
316
140k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.8k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.7k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
150
Transcript
自然言語処理研究室 修士1年 宮西 由貴
タイトル: Word Sense Disambiguation Improves Information Retrieval 著者:
Zhi Zhong Hwee Tou Ng Proceedings of Annual Meeting of ACL:Long papers,2012,p273-282 01
IRタスクにWSDは有効か? 有効・効果なし どちらの意見も存在 筆者の提案 語義情報を考慮した言語モデル 精度UP↑
同義関係を用いたクエリ拡張 再現率UP↑ IRタスクにおけるWSDの有効性を示した! 結果 02
語義曖昧性解消(WSD)の現状 他タスクへの有効性が期待 機械翻訳(MT)×WSD ⇒ 精度が向上! 情報検索(IR)×WSD
⇒ ??? IR×WSDの研究者の意見 WSDと組み合わせる効果あり WSDと組み合わせる効果なし どちらも 存在している 03
クエリのタームが多義の場合 WSDによって曖昧性解消 正しいクエリで検索が可能 ⇒精度がUP! クエリ拡張への応用を考えた場合
WSDによって語義が決定 同じ語義を持つ単語をクエリに使用可能 ⇒再現率がUP! クエリ:検索する語全体 ターム:クエリの要素 (例) 長岡 花火 04
精度UPのために・・・ 語義情報を考慮した言語モデル ▪ ベースはユニグラムモデル ▪ 語義を考慮するように拡張 再現率UPのために・・・
同義関係を用いたクエリ拡張 ▪ クエリ拡張のベースはPRF ▪ 同義語をクエリとして追加 05
None
ユニグラムモデルをベースに使用 クエリと検索対象文書の類似度は ネガティブKL divergenceを使用 モデル :クエリ :文書 t:ターム
E():エントロピー 06
tf(t,q): q内での、tの出現頻度 07
※文書にはスパースネス問題があるのでスムージングのためにCを使用 C: 検索対象になる 文書集合 μ:スムージング係数 08 ! 後 で も
出 て き ま す !
再現率を上げるために行う PRFは2ステップ 文書集合Cをクエリによってランク付け 上位kランクの文書を使ってクエリ拡張 クエリ拡張メソッドは複数ある
説明略 09
対訳コーパス 7つ を使用 全て中国語-英語のペア 対訳コーパスの使い方 英・中の文をトークン化
GIZA++でアライメントを取得 ある単語e(英語)に着目して対訳対を取得 eの出現頻度が高い対訳文対のみを取得 ↑をトレーニングデータとして機械学習 10
IRにおけるWSDの難しさ:短い クエリに含まれるタームは2~3つほど 充分な情報を得られない PRFの考え方を用いる クエリと関係性の高い上位k件の文書を使用
文書中の単語を用いて曖昧性解消 11
S(t,q): t∈q に付与される 語義sの集合 stf(s,d): 文書dの中の 語義sの頻度 12
13 stf(s,d): 文書dの中の 語義sの頻度 R(s,q)=R(s)-S(q): 語義sと同義な語義の集合 - クエリqの中の全ターム に付与された語義集合
None
各クエリは50個ほど TREC TREC6-8を使用 TREC6のみパラメータ学習に使用 ROBUST
2003と2004のテストセットを使用 RB03,RB04と表記 14
qと関連のある文書数 (正解文書数) r番目の文書が関係あり⇒1 その他⇒0 取得した文書数 Q:クエリqの集合 15
※ベースラインは言語モデル+PRFのみ使用 Top1-3は他のシステム Evenはランダム、MFSは高頻度語彙を選択 16
語義を考慮した方がスコアが高い 同義関係を用いたクエリ拡張も効果あり ちゃんとWSDを行うのが良い 筆者の仮説は当たっていた! 17
目的: WSDでIRは改良するのかを確かめる 提案: 語義を考慮した情報検索手法 RPFに代わる同義語を用いたクエリ拡張
結果: WSDによってIRが改良することを確認! 18