文献紹介7月分

自然言語処理研究室修士1年宮西由貴

 タイトル： Word Sense Disambiguation Improves Information Retrieval  著者：
Zhi Zhong Hwee Tou Ng Proceedings of Annual Meeting of ACL:Long papers,2012,p273-282 01

 IRタスクにWSDは有効か？  有効・効果なしどちらの意見も存在  筆者の提案  語義情報を考慮した言語モデル精度UP↑
 同義関係を用いたクエリ拡張再現率UP↑ IRタスクにおけるWSDの有効性を示した！結果 02

 語義曖昧性解消(WSD)の現状  他タスクへの有効性が期待  機械翻訳(MT)×WSD ⇒ 精度が向上！  情報検索(IR)×WSD
⇒ ？？？  IR×WSDの研究者の意見  WSDと組み合わせる効果あり  WSDと組み合わせる効果なしどちらも存在している 03

 クエリのタームが多義の場合  WSDによって曖昧性解消  正しいクエリで検索が可能 ⇒精度がUP！  クエリ拡張への応用を考えた場合 
WSDによって語義が決定  同じ語義を持つ単語をクエリに使用可能 ⇒再現率がUP！クエリ:検索する語全体ターム:クエリの要素 (例) 長岡花火 04

 精度UPのために･･･  語義情報を考慮した言語モデル ▪ ベースはユニグラムモデル ▪ 語義を考慮するように拡張  再現率UPのために･･･
 同義関係を用いたクエリ拡張 ▪ クエリ拡張のベースはPRF ▪ 同義語をクエリとして追加 05

 ユニグラムモデルをベースに使用  クエリと検索対象文書の類似度はネガティブKL divergenceを使用モデル :クエリ :文書 t:ターム
E():エントロピー 06

tf(t,q): q内での、tの出現頻度 07

※文書にはスパースネス問題があるのでスムージングのためにCを使用 C: 検索対象になる文書集合 μ:スムージング係数 08 ！後でも
出てきます！

 再現率を上げるために行う  PRFは2ステップ  文書集合Cをクエリによってランク付け  上位kランクの文書を使ってクエリ拡張  クエリ拡張メソッドは複数ある
 説明略 09

 対訳コーパス 7つを使用  全て中国語-英語のペア  対訳コーパスの使い方  英・中の文をトークン化
 GIZA++でアライメントを取得  ある単語e(英語)に着目して対訳対を取得  eの出現頻度が高い対訳文対のみを取得  ↑をトレーニングデータとして機械学習 10

 IRにおけるWSDの難しさ：短い  クエリに含まれるタームは2～3つほど  充分な情報を得られない  PRFの考え方を用いる  クエリと関係性の高い上位k件の文書を使用
 文書中の単語を用いて曖昧性解消 11

S(t,q): t∈q に付与される語義sの集合 stf(s,d): 文書dの中の語義sの頻度 12

13 stf(s,d): 文書dの中の語義sの頻度 R(s,q)=R(s)-S(q): 語義sと同義な語義の集合 - クエリqの中の全タームに付与された語義集合

 各クエリは50個ほど  TREC  TREC6-8を使用  TREC6のみパラメータ学習に使用  ROBUST
 2003と2004のテストセットを使用  RB03,RB04と表記 14

qと関連のある文書数 (正解文書数) r番目の文書が関係あり⇒1 その他⇒0 取得した文書数 Q:クエリqの集合 15

※ベースラインは言語モデル＋PRFのみ使用 Top1-3は他のシステム Evenはランダム、MFSは高頻度語彙を選択 16

 語義を考慮した方がスコアが高い  同義関係を用いたクエリ拡張も効果あり  ちゃんとWSDを行うのが良い筆者の仮説は当たっていた！ 17

 目的： WSDでIRは改良するのかを確かめる  提案：  語義を考慮した情報検索手法  RPFに代わる同義語を用いたクエリ拡張 
結果： WSDによってIRが改良することを確認！ 18

文献紹介7月分

文献紹介7月分

miyanishi

More Decks by miyanishi

Featured

Transcript

自然言語処理研究室修士1年宮西由貴

 タイトル： Word Sense Disambiguation Improves Information Retrieval  著者：

 IRタスクにWSDは有効か？  有効・効果なしどちらの意見も存在  筆者の提案  語義情報を考慮した言語モデル精度UP↑

 語義曖昧性解消(WSD)の現状  他タスクへの有効性が期待  機械翻訳(MT)×WSD ⇒ 精度が向上！  情報検索(IR)×WSD

 クエリのタームが多義の場合  WSDによって曖昧性解消  正しいクエリで検索が可能 ⇒精度がUP！  クエリ拡張への応用を考えた場合 

 精度UPのために･･･  語義情報を考慮した言語モデル ▪ ベースはユニグラムモデル ▪ 語義を考慮するように拡張  再現率UPのために･･･

 ユニグラムモデルをベースに使用  クエリと検索対象文書の類似度はネガティブKL divergenceを使用モデル :クエリ :文書 t:ターム

tf(t,q): q内での、tの出現頻度 07

※文書にはスパースネス問題があるのでスムージングのためにCを使用 C: 検索対象になる文書集合 μ:スムージング係数 08 ！後でも

 再現率を上げるために行う  PRFは2ステップ  文書集合Cをクエリによってランク付け  上位kランクの文書を使ってクエリ拡張  クエリ拡張メソッドは複数ある

 対訳コーパス 7つを使用  全て中国語-英語のペア  対訳コーパスの使い方  英・中の文をトークン化

 IRにおけるWSDの難しさ：短い  クエリに含まれるタームは2～3つほど  充分な情報を得られない  PRFの考え方を用いる  クエリと関係性の高い上位k件の文書を使用

S(t,q): t∈q に付与される語義sの集合 stf(s,d): 文書dの中の語義sの頻度 12

13 stf(s,d): 文書dの中の語義sの頻度 R(s,q)=R(s)-S(q): 語義sと同義な語義の集合 - クエリqの中の全タームに付与された語義集合

 各クエリは50個ほど  TREC  TREC6-8を使用  TREC6のみパラメータ学習に使用  ROBUST

qと関連のある文書数 (正解文書数) r番目の文書が関係あり⇒1 その他⇒0 取得した文書数 Q:クエリqの集合 15

※ベースラインは言語モデル＋PRFのみ使用 Top1-3は他のシステム Evenはランダム、MFSは高頻度語彙を選択 16

 語義を考慮した方がスコアが高い  同義関係を用いたクエリ拡張も効果あり  ちゃんとWSDを行うのが良い筆者の仮説は当たっていた！ 17

 目的： WSDでIRは改良するのかを確かめる  提案：  語義を考慮した情報検索手法  RPFに代わる同義語を用いたクエリ拡張 