Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介2015年3月
Search
miyanishi
March 03, 2015
0
490
文献紹介2015年3月
miyanishi
March 03, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
86
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.1k
Evolving SEO for Evolving Search Engines
ryanjones
0
93
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
So, you think you're a good person
axbom
PRO
0
1.9k
The Cost Of JavaScript in 2023
addyosmani
55
9.4k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.5k
Color Theory Basics | Prateek | Gurzu
gurzu
0
170
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.8k
A Tale of Four Properties
chriscoyier
162
23k
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
72
Prompt Engineering for Job Search
mfonobong
0
140
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
46
Transcript
文献紹介 自然言語処理研究室 修士1年 宮西 由貴 1
文献情報 • Automatic Domain Assignment for Word Sense Alignment •
著者:Tommaso Caselli, Carlo Strapparava • EMNLP2014 2
概要 • 語釈文に分野ラベルを付与 – WordNet DomainからSCDMへ • リソース同士の語義アライメントタスク – いろんな情報が様々なリソースに散らばる現状
– 分野ラベル情報を使うと結果はどうなるか調査 3
背景 • 語彙知識はNLPにとって重要 – 語彙知識の資源を作るのは大変 – 様々な情報が複数資源に散らばる →上手く利用できていないことが多数 • 資源間のアライメントを取るタスク:WSA
– より頑強で使い易い資源を提供 4
本文献に出てくる資源 • Senso Comune De Mauro Lexicon(SCDM) – 辞書式の語彙知識 –
同義関係などの関係・分野・カテゴリの記載なし • WordNet Domains – WordNetの情報に分野(Domain)情報を付加 ラベルは65種類(FACTOTUM,SPORT,FOOD…) – FACTOTUMラベル:複数の分野にまたがる語 • MultiWordNet 5
本文献でやりたいこと • SCDMにWordNet Domainsのラベルを付与 – 語釈文のみのリソースに分野情報が追加 • SCDMとMultiWordNetのアライメントを取得 – 分野情報の付与が影響するのかを調査
– 名詞に対してのみ実験 6
分野情報ラベルを付与 • 手法 – FACTOTUMか否かの二値分類 – 他のラベルについても同様に二値分類 • 分類方法 –
Naïve Bayes – Maximum Entropy – 2種類を比較 7
素性ベクトルについて • 二次元の素性ベクトル – GENERIC – SPECIFIC • 2つの素性ベクトル取得の方法を比較 –
lemma – wsd 8
素性ベクトル取得方法の説明 • lemma – MultiWordNetからあり得るラベルを全取得 – GENERICはFACTOTUMラベルの数の和 – SPECIFICは他のラベルの数の和 •
wsd – イタリア語のUKBで曖昧性を解消 – GENERICはFACTOTUMラベルの数の和 – SPECIFICは他のラベルの数の和 9
実験結果 • wsdはMaxEntには効く – Naïve Bayesには効果なし 10
WSAへの影響を調査 • 既存(Caselli et al.,2014)の手法を使用 – 違う点:SCDMに分野ラベルが付いていること – 2種類の手法を比較 •
手法 – Lexical Match – Cosine Similarity 11
手法に関する説明 • Lexical Match – SCDMとMultiWordNetから単語と語義を取得 – 各語を文字列の長さで正規化 – 重複するトークン数が大きいものを選択
• Cosine Similarity – Personalized Page Rankアルゴリズムを使用 • 上記手法+分野情報でのフィルタリング 12
実験結果 • LexicalMatch+Cosine手法が良い • Cosineは閾値での足切で効果UP 13