Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
10gatu
Search
miyanishi
October 21, 2014
350
0
Share
10gatu
miyanishi
October 21, 2014
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
87
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
230
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
23k
How Software Deployment tools have changed in the past 20 years
geshan
0
33k
Designing Powerful Visuals for Engaging Learning
tmiket
1
330
How STYLIGHT went responsive
nonsquared
100
6k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
2.7k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
250
AI: The stuff that nobody shows you
jnunemaker
PRO
5
530
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.2k
Faster Mobile Websites
deanohume
310
31k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
480
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.5k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
260
Transcript
文献紹介ゼミ 長岡技術科学大学 山本研究室 M1 宮西 由貴 1
著者情報 • Title: Word-Sense Disambiguation Using Statistical Models of Roget’s
Categories Trained on Large Corpora • 著者: David Yarowsky • COLING-92 p454-460 2
概要 • 統計モデルを使った英語のWSDシステム – 訓練データ:大量の平文テキストを使用 – 入力:文 – 出力:Roget’s Thesaurusのカテゴリタグ
• 多義性のある12語に対して実験 – 平均92%の正解率 3
背景 • 語義曖昧性に統計を利用するボトルネック – 大量のタグ付きコーパスを使用 – 人手での処理→コスト高 • 上記問題の解決策 –
人手の加わったコーパスを使わないシステム – 多量の平文コーパスを使用 4
システムについて • “語義”の定義 – 明確な定義がない – 今回:Roget’s International Thesaurus のカテゴリ
• 使用するモデル – カテゴリの中で一番確率が高いものを選択 • 入出力 – 入力:文 – 出力:カテゴリ名 5
提案手法:3つの仮定 • 異なる概念集合は異なる文脈で使われる • 異なる語義は異なる概念集合に属する • 概念集合用の文脈識別器が存在する場合 →多義性解消のための文脈識別器と同等 Roget’sのカテゴリを概念集合とみなす 6
提案手法:3つの操作 • 各々のカテゴリ内の代表となるcontextを収集 • 重要語を同定&語に重要度の重み付け • 上記結果を用いたふさわしいカテゴリの推定 7
提案手法:3つの操作 • 各々のカテゴリ内の代表となるcontextを収集 • 重要語を同定&語に重要度の重み付け • 上記結果を用いたふさわしいカテゴリの推定 8
contextの収集 • 使用コーパス – Grolier’s Encyclopedia(1991の最新版) • 手法 – コーパス内からカテゴリ内の語を検索
– その周辺語100語の用語索引を引く • ノイズ除去 – 同じカテゴリにおいての多義性→許容 – その他→コーパス内の出現頻度の逆数を重みに 9
提案手法:3つの操作 • 各々のカテゴリ内の代表となるcontextを収集 • 重要語を同定&語に重要度の重み付け • 上記結果を用いたふさわしいカテゴリの推定 10
重要語の重み付け • 単純なイメージ – 重要語=そのカテゴリの文脈に頻繁に出る語! • 上記のイメージを式で表現 – 相互情報量:Pr (|)
Pr () RCat= Roget’sカテゴリ Pr :単語の出現頻度 Pr (|):単語とカテゴリの条件付き確率 • 相互情報量のlogを重みとして付与 11
提案手法:3つの操作 • 各々のカテゴリ内の代表となるcontextを収集 • 重要語を同定&語に重要度の重み付け • 上記結果を用いたふさわしいカテゴリの推定 12
カテゴリ推定手法 • 入力文中から対象語の前後10語を取得 • 取得したすべての語wに対して以下を計算 argmax log ( Pr ×
Pr () Pr () ) • 重みの総和が一番大きいカテゴリを選択 13
実験について • 12個の多義語を選択 – star, mole, galley, cone, bass, bow,
taste, interest, issue, duty, sentence, slug 単語 語義 RCat 頻度 正解率 平均正解率 space object UNIVERSE 1422 96% celebrity ENTERTAINER 222 95% star-shaoed object INSIGNIA 56 82% star 96% 14
実験結果 • 全体として – 平均92% – 著者の予想より高い • 他手法との結果比較 –
今までのWSD:50~85% – この著者の別論文:92% 単語 正解率 star 96% mole 99% galley 95% cone 77% bass 99% bow 91% taste 93% interest 72% issue 94% duty 96% sentence 98% slug 97% 平均 92% 15
概要 • 統計モデルを使った英語のWSDシステム – 訓練データ:大量の平文テキストを使用 – 入力:文 – 出力:Roget’s Thesaurusのカテゴリタグ
• 多義性のある12語に対して実験 – 平均92%の正解率 – 他手法より有利な結果 16