Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2015年1月 文献紹介ゼミ
Search
miyanishi
January 23, 2015
0
330
2015年1月 文献紹介ゼミ
miyanishi
January 23, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
86
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
250
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
340
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
130
The Limits of Empathy - UXLibs8
cassininazir
1
200
How to build a perfect <img>
jonoalderson
1
4.8k
エンジニアに許された特別な時間の終わり
watany
106
220k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
A Modern Web Designer's Workflow
chriscoyier
698
190k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
130
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
190
Design in an AI World
tapps
0
110
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
120
Agile that works and the tools we love
rasmusluckow
331
21k
Transcript
文献紹介ゼミ 自然言語処理研究室 M1 宮西 由貴
文献情報 • タイトル – Naïve Bayes Word Sense Induction •
著者 – Du Kook Choe – Engene Charniak • 発表学会 – EMNLP2013(p1433-1437)
概要 • ナイーブベイズを利用した語義推定 – シンプルな手法の提案 • 名詞の語義推定にて特に良い結果 – F値であれば他の手法に全体的に勝利
語義推定 (Word Sense Induction:WSI) • どういったタスクなのか? – 平文中から対象語と同じ意味の語集合を探す – 語義というものは定義されていない
crane chicken bulldozer
語義推定 (Word Sense Induction:WSI) • 語義曖昧性解消(WSD)より優れている? – WSIの方が新語や新語義に強い – ある特定の領域に使われる語にも強い
– WSDは使用するリソースのボトルネックがある – 現在の精度WSD>WSI
関連研究 • Yarowsky(1995) – 半教師ありブートストラップアルゴリズムを提唱 – 2つの仮定も提唱 • One-Sense-per-Collocation •
One-Sense-per-discource • 上記アルゴリズムでは不十分 – 新語に対応する際は人手での情報が必要
提案したモデルについて • Yarowskyの仮説に沿って・・・ – One-Sense-per-document – 複数の語が同じ文書に出現→同じコンセプト • 文書はひとつのトピックを持つ –
トピックを使って曖昧な語義を決定
ナイーブベイズを使ったモデル
モデルの拡張 • 語が遠い→単語の意味も遠い – 対象語と他の語の距離を考慮したシステム
実験 • データ – SemEval2010のWSIタスクのものを使用 • SemEval2010のWSIタスク – 資源としてNLPツール以外使用付加 •
POS-Tagger • Parser • Lemmatizer など – パラメータの調整などはトレーニング中のみ可
詳細な手法 • 文脈は50語とする – Bag-of-wordsを構築 • 文書中に複数回同じ語が出現した場合は・・・ – 語の遠さを測定 –
(例)shiningと一番近いのは2番目のchip
比較手法 • MFS – ベースライン – 一番頻度の高い語義を使用 • UoY –
クラスタリングアルゴリズム – グラフを用いたもの(単語と共起頻度)
比較手法 • Hermit – K-means法を改良したアルゴリズム – 階層的な集合のクラスタリングを行うもの • NMFlib –
マトリックスを用いたクラスタリングアルゴリズム – 他の手法より新しいもの(2011)
結果 • V-Measureで比較 – V-Measure:クラスタのクオリティを測定
結果 • Paired F-scoreで比較
結果 • Supervised Recallで比較
まとめ • ナイーブベイズを利用した語義推定 – シンプルな手法の提案 • 名詞の語義推定にて特に良い結果 – F値であれば他の手法に全体的に勝利