Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
10gatu
Search
miyanishi
October 21, 2014
0
350
10gatu
miyanishi
October 21, 2014
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
86
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
RailsConf 2023
tenderlove
30
1.3k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.2k
Darren the Foodie - Storyboard
khoart
PRO
2
2.4k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.9k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
910
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
3k
First, design no harm
axbom
PRO
2
1.1k
Optimising Largest Contentful Paint
csswizardry
37
3.6k
The Language of Interfaces
destraynor
162
26k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.3k
Transcript
文献紹介ゼミ 長岡技術科学大学 山本研究室 M1 宮西 由貴 1
著者情報 • Title: Word-Sense Disambiguation Using Statistical Models of Roget’s
Categories Trained on Large Corpora • 著者: David Yarowsky • COLING-92 p454-460 2
概要 • 統計モデルを使った英語のWSDシステム – 訓練データ:大量の平文テキストを使用 – 入力:文 – 出力:Roget’s Thesaurusのカテゴリタグ
• 多義性のある12語に対して実験 – 平均92%の正解率 3
背景 • 語義曖昧性に統計を利用するボトルネック – 大量のタグ付きコーパスを使用 – 人手での処理→コスト高 • 上記問題の解決策 –
人手の加わったコーパスを使わないシステム – 多量の平文コーパスを使用 4
システムについて • “語義”の定義 – 明確な定義がない – 今回:Roget’s International Thesaurus のカテゴリ
• 使用するモデル – カテゴリの中で一番確率が高いものを選択 • 入出力 – 入力:文 – 出力:カテゴリ名 5
提案手法:3つの仮定 • 異なる概念集合は異なる文脈で使われる • 異なる語義は異なる概念集合に属する • 概念集合用の文脈識別器が存在する場合 →多義性解消のための文脈識別器と同等 Roget’sのカテゴリを概念集合とみなす 6
提案手法:3つの操作 • 各々のカテゴリ内の代表となるcontextを収集 • 重要語を同定&語に重要度の重み付け • 上記結果を用いたふさわしいカテゴリの推定 7
提案手法:3つの操作 • 各々のカテゴリ内の代表となるcontextを収集 • 重要語を同定&語に重要度の重み付け • 上記結果を用いたふさわしいカテゴリの推定 8
contextの収集 • 使用コーパス – Grolier’s Encyclopedia(1991の最新版) • 手法 – コーパス内からカテゴリ内の語を検索
– その周辺語100語の用語索引を引く • ノイズ除去 – 同じカテゴリにおいての多義性→許容 – その他→コーパス内の出現頻度の逆数を重みに 9
提案手法:3つの操作 • 各々のカテゴリ内の代表となるcontextを収集 • 重要語を同定&語に重要度の重み付け • 上記結果を用いたふさわしいカテゴリの推定 10
重要語の重み付け • 単純なイメージ – 重要語=そのカテゴリの文脈に頻繁に出る語! • 上記のイメージを式で表現 – 相互情報量:Pr (|)
Pr () RCat= Roget’sカテゴリ Pr :単語の出現頻度 Pr (|):単語とカテゴリの条件付き確率 • 相互情報量のlogを重みとして付与 11
提案手法:3つの操作 • 各々のカテゴリ内の代表となるcontextを収集 • 重要語を同定&語に重要度の重み付け • 上記結果を用いたふさわしいカテゴリの推定 12
カテゴリ推定手法 • 入力文中から対象語の前後10語を取得 • 取得したすべての語wに対して以下を計算 argmax log ( Pr ×
Pr () Pr () ) • 重みの総和が一番大きいカテゴリを選択 13
実験について • 12個の多義語を選択 – star, mole, galley, cone, bass, bow,
taste, interest, issue, duty, sentence, slug 単語 語義 RCat 頻度 正解率 平均正解率 space object UNIVERSE 1422 96% celebrity ENTERTAINER 222 95% star-shaoed object INSIGNIA 56 82% star 96% 14
実験結果 • 全体として – 平均92% – 著者の予想より高い • 他手法との結果比較 –
今までのWSD:50~85% – この著者の別論文:92% 単語 正解率 star 96% mole 99% galley 95% cone 77% bass 99% bow 91% taste 93% interest 72% issue 94% duty 96% sentence 98% slug 97% 平均 92% 15
概要 • 統計モデルを使った英語のWSDシステム – 訓練データ:大量の平文テキストを使用 – 入力:文 – 出力:Roget’s Thesaurusのカテゴリタグ
• 多義性のある12語に対して実験 – 平均92%の正解率 – 他手法より有利な結果 16