Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Japanese all-words WSD system using the Kyoto T...
Search
masaya82
August 17, 2018
0
99
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
masaya82
August 17, 2018
Tweet
Share
More Decks by masaya82
See All by masaya82
文献紹介 : More is not always better: balancing sense distributions for all-words
masaya82
0
120
文献紹介:Enhancing Modern Supervised Word Sense Disambiguation Models
masaya82
0
130
文献紹介:The Word Sense Disambiguation Test Suite at WMT18
masaya82
0
73
文献紹介:Preposition Sense Disambiguation and Representation
masaya82
0
100
文献紹介:Word Sense Disambiguation Based on Word Similarity Calculation Using Word Vector Representation from a Knowledge-based Graph
masaya82
0
120
Distributional Lesk: Effective Knowledge-Based Word Sense Disambiguation
masaya82
0
83
Improving Word Sense Disambiguation in Neural Machine Translation with Sense Embeddings
masaya82
0
110
Learning_to_Identify_the_Best_Contexts_for_Knowledge-based_WSD
masaya82
0
110
Using Linked Disambiguated Distributional Networks for Word Sense Disambiguation
masaya82
0
70
Featured
See All Featured
4 Signs Your Business is Dying
shpigford
182
21k
Side Projects
sachag
452
42k
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Being A Developer After 40
akosma
89
590k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
Embracing the Ebb and Flow
colly
84
4.5k
Producing Creativity
orderedlist
PRO
343
39k
Adopting Sorbet at Scale
ufuk
74
9.1k
Thoughts on Productivity
jonyablonski
68
4.4k
How to Think Like a Performance Engineer
csswizardry
22
1.3k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Transcript
Japanese all-words WSD system using the Kyoto Text Analysis ToolKit
Hiroyuki Shinnou,Kanako Komiya,Minoru Sasaki,Shinsuke Mori 2018 8/17 文献紹介 長岡技術科学大学 自然言語処理研究室 福嶋 真也 31st Pacific Asia Conference on Language, Information and Computation (PACLIC 31), pages 392–399 Cebu City, Philippines, November 16-18, 2017
2 Abstract • 日本語のall-words WSDのシステム(kyWSD)を紹介し た。 • 様々なNLPタスクに応用することが出来る。 • このWSDシステムには拡張性があり、高い精度を
持っている。
3 introduction • WSDは意味分析の基本的な処理であるが、実際はあまり 広く使用されていない。 →現在のWSDシステムは教師あり学習の手法を採用して おり、WSDの対象となる語が制限されているため。 • 全ての語に対して語義を付与する”all-words WSD”が研
究されている。(Navigli,2009) しかし、対象言語は一般的に英語。
4 KyWSD • KyTea(テキスト解析器)を用いて構築。 • トレーニングデータ BCCWJのコアデータから構築されている語義タグ付きコーパス ・6つのジャンルから集められた1960個の文書で構成。 ・複数の意味をもつ語に対して、岩波国語辞典から意味の割当を行っている。 •
学習 ある語に対して、周囲の文字列の情報を用いたロジスティック回帰もしくは線 形SVMを使用。
5 KyWSD • 出力例 ※語義が割り当てられているのは 内容語のみ
6 Evaluation • 対象単語の正しい語義を判別する問題で評価。 • テストデータ Senseval-2:10000 test instances (target
word:100個、1 word につき100個のtest instance) • 手法 ・SVM(学習データ、用いた特徴は以後に記載) ・KyWSD
7 Evaluation • SVMについて ・トレーニングデータ 1つのTarget wordにつき、平均175個あるtraining instancesを使用。 ・用いた特徴 1,対象の単語の直前の単語
2,対象の単語の直後の単語 3,対象の単語の前にある2つの内容語 4,対象の単語の後にある2つの内容語 5,3のシソーラスID 6,4のシソーラスID
8 Result • precisionの比較 precision SVM 0.7244 KyWSD 0.6571 KyWSDのprecisionが低い理由の一つ
→問題の設定が異なる。 一般的なWSD:与えられた語義の候補から正しい語義を選択 all-words WSD:語義の候補は与えられない
9 Result 例:間 一般的なWSD:”あいだ”に対する語義のリストが与えら れ、そこから語義を選択 all-words WSD:6つの読み方(”あい”、”あいだ”、 ”あわい”、”かん”、”けん”、”ま”) があり、それぞれの語義のリストから語義 を選ぶ必要がある。
10 Result • 拡張性の評価 KyWSDの主な利点として拡張しやすいことが挙げられる。 →データセットの訓練データを追加して構築したKyWSD を評価 precision SVM 0.7244
KyWSD 0.6571 KyWSD (new adapted model) 0.7803
11 Conclusion • 日本語のall-words WSDシステムであるKyWSDを紹介。 • 実験を通して、KyWSDは教師あり学習の手法に匹敵する 精度を出せることが分かった。また、一般的なWSDとは異 なる特有の問題があることも分かった。 •
KyWSDは様々なNLPの学習システムに応用することが 出来る。