Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2015年1月 文献紹介ゼミ
Search
miyanishi
January 23, 2015
0
320
2015年1月 文献紹介ゼミ
miyanishi
January 23, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介1月
miyanishi
0
160
文献紹介12月
miyanishi
0
210
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
230
15年7月文献紹介
miyanishi
0
250
Featured
See All Featured
Building Effective Engineering Teams - LeadDev
addyosmani
32
1.9k
Gamification - CAS2011
davidbonilla
77
4.6k
WebSockets: Embracing the real-time Web
robhawkes
59
7k
Ruby is Unlike a Banana
tanoku
96
10k
VelocityConf: Rendering Performance Case Studies
addyosmani
321
23k
Fashionably flexible responsive web design (full day workshop)
malarkey
398
65k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
245
20k
A designer walks into a library…
pauljervisheath
201
23k
Practical Orchestrator
shlominoach
183
9.7k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
14
1.5k
Become a Pro
speakerdeck
PRO
13
4.6k
A Modern Web Designer's Workflow
chriscoyier
689
190k
Transcript
文献紹介ゼミ 自然言語処理研究室 M1 宮西 由貴
文献情報 • タイトル – Naïve Bayes Word Sense Induction •
著者 – Du Kook Choe – Engene Charniak • 発表学会 – EMNLP2013(p1433-1437)
概要 • ナイーブベイズを利用した語義推定 – シンプルな手法の提案 • 名詞の語義推定にて特に良い結果 – F値であれば他の手法に全体的に勝利
語義推定 (Word Sense Induction:WSI) • どういったタスクなのか? – 平文中から対象語と同じ意味の語集合を探す – 語義というものは定義されていない
crane chicken bulldozer
語義推定 (Word Sense Induction:WSI) • 語義曖昧性解消(WSD)より優れている? – WSIの方が新語や新語義に強い – ある特定の領域に使われる語にも強い
– WSDは使用するリソースのボトルネックがある – 現在の精度WSD>WSI
関連研究 • Yarowsky(1995) – 半教師ありブートストラップアルゴリズムを提唱 – 2つの仮定も提唱 • One-Sense-per-Collocation •
One-Sense-per-discource • 上記アルゴリズムでは不十分 – 新語に対応する際は人手での情報が必要
提案したモデルについて • Yarowskyの仮説に沿って・・・ – One-Sense-per-document – 複数の語が同じ文書に出現→同じコンセプト • 文書はひとつのトピックを持つ –
トピックを使って曖昧な語義を決定
ナイーブベイズを使ったモデル
モデルの拡張 • 語が遠い→単語の意味も遠い – 対象語と他の語の距離を考慮したシステム
実験 • データ – SemEval2010のWSIタスクのものを使用 • SemEval2010のWSIタスク – 資源としてNLPツール以外使用付加 •
POS-Tagger • Parser • Lemmatizer など – パラメータの調整などはトレーニング中のみ可
詳細な手法 • 文脈は50語とする – Bag-of-wordsを構築 • 文書中に複数回同じ語が出現した場合は・・・ – 語の遠さを測定 –
(例)shiningと一番近いのは2番目のchip
比較手法 • MFS – ベースライン – 一番頻度の高い語義を使用 • UoY –
クラスタリングアルゴリズム – グラフを用いたもの(単語と共起頻度)
比較手法 • Hermit – K-means法を改良したアルゴリズム – 階層的な集合のクラスタリングを行うもの • NMFlib –
マトリックスを用いたクラスタリングアルゴリズム – 他の手法より新しいもの(2011)
結果 • V-Measureで比較 – V-Measure:クラスタのクオリティを測定
結果 • Paired F-scoreで比較
結果 • Supervised Recallで比較
まとめ • ナイーブベイズを利用した語義推定 – シンプルな手法の提案 • 名詞の語義推定にて特に良い結果 – F値であれば他の手法に全体的に勝利