Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介2015年3月
Search
miyanishi
March 03, 2015
0
470
文献紹介2015年3月
miyanishi
March 03, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介1月
miyanishi
0
160
文献紹介12月
miyanishi
0
210
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
230
15年7月文献紹介
miyanishi
0
250
Featured
See All Featured
Build The Right Thing And Hit Your Dates
maggiecrowley
25
2k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
21
1.6k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
66
14k
Raft: Consensus for Rubyists
vanstee
133
6.3k
Become a Pro
speakerdeck
PRO
13
4.6k
Web Components: a chance to create the future
zenorocha
306
41k
Building Applications with DynamoDB
mza
88
5.6k
Into the Great Unknown - MozCon
thekraken
15
1k
Fontdeck: Realign not Redesign
paulrobertlloyd
76
4.9k
Six Lessons from altMBA
skipperchong
22
3k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
14
1.5k
Happy Clients
brianwarren
92
6.4k
Transcript
文献紹介 自然言語処理研究室 修士1年 宮西 由貴 1
文献情報 • Automatic Domain Assignment for Word Sense Alignment •
著者:Tommaso Caselli, Carlo Strapparava • EMNLP2014 2
概要 • 語釈文に分野ラベルを付与 – WordNet DomainからSCDMへ • リソース同士の語義アライメントタスク – いろんな情報が様々なリソースに散らばる現状
– 分野ラベル情報を使うと結果はどうなるか調査 3
背景 • 語彙知識はNLPにとって重要 – 語彙知識の資源を作るのは大変 – 様々な情報が複数資源に散らばる →上手く利用できていないことが多数 • 資源間のアライメントを取るタスク:WSA
– より頑強で使い易い資源を提供 4
本文献に出てくる資源 • Senso Comune De Mauro Lexicon(SCDM) – 辞書式の語彙知識 –
同義関係などの関係・分野・カテゴリの記載なし • WordNet Domains – WordNetの情報に分野(Domain)情報を付加 ラベルは65種類(FACTOTUM,SPORT,FOOD…) – FACTOTUMラベル:複数の分野にまたがる語 • MultiWordNet 5
本文献でやりたいこと • SCDMにWordNet Domainsのラベルを付与 – 語釈文のみのリソースに分野情報が追加 • SCDMとMultiWordNetのアライメントを取得 – 分野情報の付与が影響するのかを調査
– 名詞に対してのみ実験 6
分野情報ラベルを付与 • 手法 – FACTOTUMか否かの二値分類 – 他のラベルについても同様に二値分類 • 分類方法 –
Naïve Bayes – Maximum Entropy – 2種類を比較 7
素性ベクトルについて • 二次元の素性ベクトル – GENERIC – SPECIFIC • 2つの素性ベクトル取得の方法を比較 –
lemma – wsd 8
素性ベクトル取得方法の説明 • lemma – MultiWordNetからあり得るラベルを全取得 – GENERICはFACTOTUMラベルの数の和 – SPECIFICは他のラベルの数の和 •
wsd – イタリア語のUKBで曖昧性を解消 – GENERICはFACTOTUMラベルの数の和 – SPECIFICは他のラベルの数の和 9
実験結果 • wsdはMaxEntには効く – Naïve Bayesには効果なし 10
WSAへの影響を調査 • 既存(Caselli et al.,2014)の手法を使用 – 違う点:SCDMに分野ラベルが付いていること – 2種類の手法を比較 •
手法 – Lexical Match – Cosine Similarity 11
手法に関する説明 • Lexical Match – SCDMとMultiWordNetから単語と語義を取得 – 各語を文字列の長さで正規化 – 重複するトークン数が大きいものを選択
• Cosine Similarity – Personalized Page Rankアルゴリズムを使用 • 上記手法+分野情報でのフィルタリング 12
実験結果 • LexicalMatch+Cosine手法が良い • Cosineは閾値での足切で効果UP 13