Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介2015年3月
Search
miyanishi
March 03, 2015
500
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
文献紹介2015年3月
miyanishi
March 03, 2015
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
91
文献紹介1月
miyanishi
0
200
文献紹介12月
miyanishi
0
260
文献紹介11月
miyanishi
0
260
文献紹介10月
miyanishi
0
200
文献紹介(2015/09)
miyanishi
0
230
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
270
Featured
See All Featured
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
54k
HDC tutorial
michielstock
2
700
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
190
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
250
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
55k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.9k
Producing Creativity
orderedlist
PRO
348
40k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
Transcript
文献紹介 自然言語処理研究室 修士1年 宮西 由貴 1
文献情報 • Automatic Domain Assignment for Word Sense Alignment •
著者:Tommaso Caselli, Carlo Strapparava • EMNLP2014 2
概要 • 語釈文に分野ラベルを付与 – WordNet DomainからSCDMへ • リソース同士の語義アライメントタスク – いろんな情報が様々なリソースに散らばる現状
– 分野ラベル情報を使うと結果はどうなるか調査 3
背景 • 語彙知識はNLPにとって重要 – 語彙知識の資源を作るのは大変 – 様々な情報が複数資源に散らばる →上手く利用できていないことが多数 • 資源間のアライメントを取るタスク:WSA
– より頑強で使い易い資源を提供 4
本文献に出てくる資源 • Senso Comune De Mauro Lexicon(SCDM) – 辞書式の語彙知識 –
同義関係などの関係・分野・カテゴリの記載なし • WordNet Domains – WordNetの情報に分野(Domain)情報を付加 ラベルは65種類(FACTOTUM,SPORT,FOOD…) – FACTOTUMラベル:複数の分野にまたがる語 • MultiWordNet 5
本文献でやりたいこと • SCDMにWordNet Domainsのラベルを付与 – 語釈文のみのリソースに分野情報が追加 • SCDMとMultiWordNetのアライメントを取得 – 分野情報の付与が影響するのかを調査
– 名詞に対してのみ実験 6
分野情報ラベルを付与 • 手法 – FACTOTUMか否かの二値分類 – 他のラベルについても同様に二値分類 • 分類方法 –
Naïve Bayes – Maximum Entropy – 2種類を比較 7
素性ベクトルについて • 二次元の素性ベクトル – GENERIC – SPECIFIC • 2つの素性ベクトル取得の方法を比較 –
lemma – wsd 8
素性ベクトル取得方法の説明 • lemma – MultiWordNetからあり得るラベルを全取得 – GENERICはFACTOTUMラベルの数の和 – SPECIFICは他のラベルの数の和 •
wsd – イタリア語のUKBで曖昧性を解消 – GENERICはFACTOTUMラベルの数の和 – SPECIFICは他のラベルの数の和 9
実験結果 • wsdはMaxEntには効く – Naïve Bayesには効果なし 10
WSAへの影響を調査 • 既存(Caselli et al.,2014)の手法を使用 – 違う点:SCDMに分野ラベルが付いていること – 2種類の手法を比較 •
手法 – Lexical Match – Cosine Similarity 11
手法に関する説明 • Lexical Match – SCDMとMultiWordNetから単語と語義を取得 – 各語を文字列の長さで正規化 – 重複するトークン数が大きいものを選択
• Cosine Similarity – Personalized Page Rankアルゴリズムを使用 • 上記手法+分野情報でのフィルタリング 12
実験結果 • LexicalMatch+Cosine手法が良い • Cosineは閾値での足切で効果UP 13