Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Japanese all-words WSD system using the Kyoto T...
Search
masaya82
August 17, 2018
0
96
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
masaya82
August 17, 2018
Tweet
Share
More Decks by masaya82
See All by masaya82
文献紹介 : More is not always better: balancing sense distributions for all-words
masaya82
0
110
文献紹介:Enhancing Modern Supervised Word Sense Disambiguation Models
masaya82
0
130
文献紹介:The Word Sense Disambiguation Test Suite at WMT18
masaya82
0
71
文献紹介:Preposition Sense Disambiguation and Representation
masaya82
0
98
文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph
masaya82
0
120
Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation
masaya82
0
81
Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings
masaya82
0
110
Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD
masaya82
0
100
Using Linked Disambiguated Distributional Networks for Word Sense Disambiguation
masaya82
0
68
Featured
See All Featured
Navigating Team Friction
lara
183
15k
Designing for Performance
lara
604
68k
What's in a price? How to price your products and services
michaelherold
243
12k
Designing Experiences People Love
moore
138
23k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
0
77
Faster Mobile Websites
deanohume
305
30k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
For a Future-Friendly Web
brad_frost
175
9.4k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Transcript
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
Hiroyuki Shinnou,Kanako Komiya,Minoru Sasaki,Shinsuke Mori 2018 8/17 文献紹介 長岡技術科学大学 自然言語処理研究室 福嶋 真也 31st Pacific Asia Conference on Language, Information and Computation (PACLIC 31), pages 392–399 Cebu City, Philippines, November 16-18, 2017
2 Abstract • 日本語のall-words WSDのシステム(kyWSD)を紹介し た。 • 様々なNLPタスクに応用することが出来る。 • このWSDシステムには拡張性があり、高い精度を
持っている。
3 introduction • WSDは意味分析の基本的な処理であるが、実際はあまり 広く使用されていない。 →現在のWSDシステムは教師あり学習の手法を採用して おり、WSDの対象となる語が制限されているため。 • 全ての語に対して語義を付与する”all-words WSD”が研
究されている。(Navigli,2009) しかし、対象言語は一般的に英語。
4 KyWSD • KyTea(テキスト解析器)を用いて構築。 • トレーニングデータ BCCWJのコアデータから構築されている語義タグ付きコーパス ・6つのジャンルから集められた1960個の文書で構成。 ・複数の意味をもつ語に対して、岩波国語辞典から意味の割当を行っている。 •
学習 ある語に対して、周囲の文字列の情報を用いたロジスティック回帰もしくは線 形SVMを使用。
5 KyWSD • 出力例 ※語義が割り当てられているのは 内容語のみ
6 Evaluation • 対象単語の正しい語義を判別する問題で評価。 • テストデータ Senseval-2:10000 test instances (target
word:100個、1 word につき100個のtest instance) • 手法 ・SVM(学習データ、用いた特徴は以後に記載) ・KyWSD
7 Evaluation • SVMについて ・トレーニングデータ 1つのTarget wordにつき、平均175個あるtraining instancesを使用。 ・用いた特徴 1,対象の単語の直前の単語
2,対象の単語の直後の単語 3,対象の単語の前にある2つの内容語 4,対象の単語の後にある2つの内容語 5,3のシソーラスID 6,4のシソーラスID
8 Result • precisionの比較 precision SVM 0.7244 KyWSD 0.6571 KyWSDのprecisionが低い理由の一つ
→問題の設定が異なる。 一般的なWSD:与えられた語義の候補から正しい語義を選択 all-words WSD:語義の候補は与えられない
9 Result 例:間 一般的なWSD:”あいだ”に対する語義のリストが与えら れ、そこから語義を選択 all-words WSD:6つの読み方(”あい”、”あいだ”、 ”あわい”、”かん”、”けん”、”ま”) があり、それぞれの語義のリストから語義 を選ぶ必要がある。
10 Result • 拡張性の評価 KyWSDの主な利点として拡張しやすいことが挙げられる。 →データセットの訓練データを追加して構築したKyWSD を評価 precision SVM 0.7244
KyWSD 0.6571 KyWSD (new adapted model) 0.7803
11 Conclusion • 日本語のall-words WSDシステムであるKyWSDを紹介。 • 実験を通して、KyWSDは教師あり学習の手法に匹敵する 精度を出せることが分かった。また、一般的なWSDとは異 なる特有の問題があることも分かった。 •
KyWSDは様々なNLPの学習システムに応用することが 出来る。