Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介:Pointwise法を利用したベトナム語単語分割
Search
Van Hai
July 08, 2015
0
310
文献紹介:Pointwise法を利用したベトナム語単語分割
Van Hai
July 08, 2015
Tweet
Share
More Decks by Van Hai
See All by Van Hai
文献紹介:Recurrent Neural Network based Language Model
nguyenvanhai
0
100
文献紹介:HMM Parameter Learning for Japanese Morphological Analyzer
nguyenvanhai
0
110
文献紹介:An Effective Neural Network Model for Graph-based Dependency Parsing.pdf
nguyenvanhai
0
170
文献紹介:Finding Synonyms Using Automatic Word Alignment and Measures of Distributional Similarity
nguyenvanhai
0
92
文献紹介:A Supervised Learning Approach to Automatic Synonym Identification based on Distributional Features
nguyenvanhai
0
170
文献紹介:Revisiting Word Embedding for Contrasting Meaning
nguyenvanhai
0
300
文献紹介:ベトナム語ツリーバンク
nguyenvanhai
0
330
文献紹介:ベトナム語の品詞付与 JVnTagger
nguyenvanhai
0
420
201506.pdf
nguyenvanhai
0
270
Featured
See All Featured
Being A Developer After 40
akosma
90
590k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.8k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
358
30k
Why Our Code Smells
bkeepers
PRO
338
57k
The Straight Up "How To Draw Better" Workshop
denniskardys
236
140k
Six Lessons from altMBA
skipperchong
28
4k
Embracing the Ebb and Flow
colly
86
4.8k
Bash Introduction
62gerente
614
210k
Building Applications with DynamoDB
mza
96
6.6k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
36
2.5k
Facilitating Awesome Meetings
lara
55
6.5k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Transcript
Pointwise法を利用したベトナ ム語単語分割 L u Tuấ ấn Anh, Yamamoto Kazuhide ư
Natural Language Processing Laboratory Department of Electrical Engineering 長岡技術科学大学 自然言語処理研究室 B4 Nguyen Van Hai 文献紹介
2 Outline • 機械学習によりベトナム語を単語分割する。 • Pointwise法を利用したベトナム語単語分割、 – n-gram声調 – n-gram声調の種類
– 辞書の特徴
3 Introduction • ベトナム語でスペースを用いて音節を分ける • 声調を結合して単語を作成する。 – ” 例: đ
t n c” ấ ướ ” 「国」は đ t” ấ ” 「土」と n c” ướ 「水」から作成する。 • 単語はいくつかの音節が下線でつながって表され る。 • 単語はスペースによって分けられる。
4 Machine learning approaches in word segmentation problem • 音節ごとに分割し、音節間に系列ラベルを付与
• 音節間に0、または1(下線)を付与 – 下線は単語分割点かどうかを表す Fig. 1. 単語分割とラベル付与
5 Pointwise estimation for Vietnamese word segmentation • HMM法、CRF法またはME法なら隣のラベルを参 照しなければならない。
• 高い精度で出力するために、大きい辞書が必要だ が、ベトナム語のもっとも大きな辞書は4万語ある。 Fig. 2. 隣のラベル参考
6 Pointwise estimation for Vietnamese word segmentation • Pointwise法ではラベルを独立で判断して付与する で隣のラベルを参照しない。
• 独立で判断するため、辞書が小さい言語でも、いい 結果が期待できる Fig. 3. 隣のラベル参考しない
7 Pointwise estimation for Vietnamese word segmentation • Pointwiseの特徴は以下の3種類である –
音節n-gam:窓幅W。ベトナム語の70%は2音節 の単語、14%は3音節の単語なので、W=3を利用 している。 – 音節n-gramの種類: • 大文字(U):音節の始めは大文字 • 普通字(L):音節の始めは普通の文字 • 数字(N):音節の始めは数字
8 Pointwise estimation for Vietnamese word segmentation • 他の種類(O):外国語と上記の2つの種類以 外
Fig. 4. N-gram音節とN-gram音節の種類、W=2
9 Pointwise estimation for Vietnamese word segmentation • 辞書情報を利用しラベル付与:対象から見て –
真ん中(I):左右の単語が辞書に存在する – 右側(R):右側の単語が辞書に存在する – 左側(L):左側の単語が辞書に存在する ” 以下の例にとって評価位置は ví d ” ụ ” で、 I|ví d ” ụ Fig. 5. 辞書の特徴
10 Training data • 訓練データは一部のアノテーションで良い “ 例: 1 ví_d đ
n_gi n .” ụ ơ ả アノテーション済 – “1 ví_d đ n gi n .” ụ ơ ả “ それで ví_d ” ụ は分割させたが “đ n gi n” ơ ả は分割させない • 時間とお金がかかり、人によって違う意味で理解される “Ông già đi nhanh quá” は • “Ông_già đi nhanh quá” • “Ông già_đi nhanh quá”.
11 Experiments TABLE I. TRAINING DATA AND TEST DATA Training
Test Size 7.7Mb 2.9Mb #Syllabels 1,404,406 535,600 #Words 1,071,195 410,088 • データは2千万音節を単語分割した。
12 Experiments TABLE II. RESULTS OF TWO METHOD DongDu Accuracy
98.2% Time 26.2 (s) RAM 15.1Mb • ベトナム語の中で、一番精度が高いツールと比べて dongduの精度の方が1%高くなって8倍スピードが早 い
13 Extension • 新データを作成 – 例えばAコーパスはn音節持っている – そのコーパスは10分割すると、それぞれn/10音 節となる –
1部を手で単語分割して学習する – 次にdongduによる単語分割をし、チェックする 何回か繰り返すと精度が高くなる
14 Conclusion • Pointwise方法により、ベトナム語単語分割を行っ た • 実験結果から他の方法に比べてdongduの精度が 高くてスピードも早い