Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2015年1月 文献紹介ゼミ
Search
miyanishi
January 23, 2015
0
320
2015年1月 文献紹介ゼミ
miyanishi
January 23, 2015
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
85
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
240
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
KATA
mclloyd
PRO
32
15k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
10
900
The Art of Programming - Codeland 2020
erikaheidi
56
14k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.7k
Raft: Consensus for Rubyists
vanstee
140
7.2k
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
Site-Speed That Sticks
csswizardry
13
940
Agile that works and the tools we love
rasmusluckow
331
21k
Designing Experiences People Love
moore
142
24k
Transcript
文献紹介ゼミ 自然言語処理研究室 M1 宮西 由貴
文献情報 • タイトル – Naïve Bayes Word Sense Induction •
著者 – Du Kook Choe – Engene Charniak • 発表学会 – EMNLP2013(p1433-1437)
概要 • ナイーブベイズを利用した語義推定 – シンプルな手法の提案 • 名詞の語義推定にて特に良い結果 – F値であれば他の手法に全体的に勝利
語義推定 (Word Sense Induction:WSI) • どういったタスクなのか? – 平文中から対象語と同じ意味の語集合を探す – 語義というものは定義されていない
crane chicken bulldozer
語義推定 (Word Sense Induction:WSI) • 語義曖昧性解消(WSD)より優れている? – WSIの方が新語や新語義に強い – ある特定の領域に使われる語にも強い
– WSDは使用するリソースのボトルネックがある – 現在の精度WSD>WSI
関連研究 • Yarowsky(1995) – 半教師ありブートストラップアルゴリズムを提唱 – 2つの仮定も提唱 • One-Sense-per-Collocation •
One-Sense-per-discource • 上記アルゴリズムでは不十分 – 新語に対応する際は人手での情報が必要
提案したモデルについて • Yarowskyの仮説に沿って・・・ – One-Sense-per-document – 複数の語が同じ文書に出現→同じコンセプト • 文書はひとつのトピックを持つ –
トピックを使って曖昧な語義を決定
ナイーブベイズを使ったモデル
モデルの拡張 • 語が遠い→単語の意味も遠い – 対象語と他の語の距離を考慮したシステム
実験 • データ – SemEval2010のWSIタスクのものを使用 • SemEval2010のWSIタスク – 資源としてNLPツール以外使用付加 •
POS-Tagger • Parser • Lemmatizer など – パラメータの調整などはトレーニング中のみ可
詳細な手法 • 文脈は50語とする – Bag-of-wordsを構築 • 文書中に複数回同じ語が出現した場合は・・・ – 語の遠さを測定 –
(例)shiningと一番近いのは2番目のchip
比較手法 • MFS – ベースライン – 一番頻度の高い語義を使用 • UoY –
クラスタリングアルゴリズム – グラフを用いたもの(単語と共起頻度)
比較手法 • Hermit – K-means法を改良したアルゴリズム – 階層的な集合のクラスタリングを行うもの • NMFlib –
マトリックスを用いたクラスタリングアルゴリズム – 他の手法より新しいもの(2011)
結果 • V-Measureで比較 – V-Measure:クラスタのクオリティを測定
結果 • Paired F-scoreで比較
結果 • Supervised Recallで比較
まとめ • ナイーブベイズを利用した語義推定 – シンプルな手法の提案 • 名詞の語義推定にて特に良い結果 – F値であれば他の手法に全体的に勝利