文献紹介：Pointwise法を利用したベトナム語単語分割

Pointwise法を利用したベトナム語単語分割 L u Tuấ ấn Anh, Yamamoto Kazuhide ư
Natural Language Processing Laboratory Department of Electrical Engineering 長岡技術科学大学自然言語処理研究室 B4　Nguyen Van Hai 文献紹介

2 Outline • 機械学習によりベトナム語を単語分割する。 • Pointwise法を利用したベトナム語単語分割、 – n-gram声調 – n-gram声調の種類
– 辞書の特徴

3 Introduction • ベトナム語でスペースを用いて音節を分ける • 声調を結合して単語を作成する。 – ” 例： đ
t n c” ấ ướ ” 「国」は đ t” ấ ” 「土」と n c” ướ 「水」から作成する。 • 単語はいくつかの音節が下線でつながって表される。 • 単語はスペースによって分けられる。

4 Machine learning approaches in word segmentation problem • 音節ごとに分割し、音節間に系列ラベルを付与
• 音節間に０、または１（下線）を付与 – 下線は単語分割点かどうかを表す Fig. 1. 単語分割とラベル付与

5 Pointwise estimation for Vietnamese word segmentation • HMM法、CRF法またはME法なら隣のラベルを参照しなければならない。
• 高い精度で出力するために、大きい辞書が必要だが、ベトナム語のもっとも大きな辞書は４万語ある。 Fig. 2. 隣のラベル参考

6 Pointwise estimation for Vietnamese word segmentation • Pointwise法ではラベルを独立で判断して付与するで隣のラベルを参照しない。
• 独立で判断するため、辞書が小さい言語でも、いい結果が期待できる Fig. 3. 隣のラベル参考しない

7 Pointwise estimation for Vietnamese word segmentation • Pointwiseの特徴は以下の３種類である –
音節n-gam：窓幅W。ベトナム語の70％は2音節の単語、14％は3音節の単語なので、W=3を利用している。 – 音節ｎ-graｍの種類： • 大文字（U）：音節の始めは大文字 • 普通字（L）：音節の始めは普通の文字 • 数字（N）：音節の始めは数字

8 Pointwise estimation for Vietnamese word segmentation • 他の種類（O）:外国語と上記の2つの種類以外
Fig. 4. N-gram音節とN-gram音節の種類、W=2

9 Pointwise estimation for Vietnamese word segmentation • 辞書情報を利用しラベル付与：対象から見て –
真ん中（I）：左右の単語が辞書に存在する – 右側（R）：右側の単語が辞書に存在する – 左側（L）：左側の単語が辞書に存在する ” 以下の例にとって評価位置は ví d ” ụ ” で、 I｜ví d ” ụ Fig. 5. 辞書の特徴

10 Training data • 訓練データは一部のアノテーションで良い “ 例： 1 ví_d đ
n_gi n .” ụ ơ ả アノテーション済 – “1 ví_d đ n gi n .” ụ ơ ả “ それで ví_d ” ụ は分割させたが “đ n gi n” ơ ả は分割させない • 時間とお金がかかり、人によって違う意味で理解される “Ông già đi nhanh quá” は • “Ông_già đi nhanh quá” • “Ông già_đi nhanh quá”.

11 Experiments TABLE I. TRAINING DATA AND TEST DATA Training
　Test Size 7.7Mb 　2.9Mb #Syllabels 1,404,406 535,600 #Words 1,071,195 410,088 • データは2千万音節を単語分割した。

12 Experiments TABLE II. RESULTS OF TWO METHOD DongDu Accuracy
98.2% Time 26.2 (s) RAM 15.1Mb • ベトナム語の中で、一番精度が高いツールと比べて dongduの精度の方が1％高くなって8倍スピードが早い

13 Extension • 新データを作成 – 例えばAコーパスはｎ音節持っている – そのコーパスは10分割すると、それぞれn/10音節となる –
１部を手で単語分割して学習する – 次にdongduによる単語分割をし、チェックする何回か繰り返すと精度が高くなる

14 Conclusion • Pointwise方法により、ベトナム語単語分割を行った • 実験結果から他の方法に比べてdongduの精度が高くてスピードも早い

文献紹介：Pointwise法を利用したベトナム語単語分割

文献紹介：Pointwise法を利用したベトナム語単語分割

Van Hai

More Decks by Van Hai

Featured

Transcript

Pointwise法を利用したベトナム語単語分割 L u Tuấ ấn Anh, Yamamoto Kazuhide ư

2 Outline • 機械学習によりベトナム語を単語分割する。 • Pointwise法を利用したベトナム語単語分割、 – n-gram声調 – n-gram声調の種類

3 Introduction • ベトナム語でスペースを用いて音節を分ける • 声調を結合して単語を作成する。 – ” 例： đ

4 Machine learning approaches in word segmentation problem • 音節ごとに分割し、音節間に系列ラベルを付与

5 Pointwise estimation for Vietnamese word segmentation • HMM法、CRF法またはME法なら隣のラベルを参照しなければならない。

6 Pointwise estimation for Vietnamese word segmentation • Pointwise法ではラベルを独立で判断して付与するで隣のラベルを参照しない。

7 Pointwise estimation for Vietnamese word segmentation • Pointwiseの特徴は以下の３種類である –

8 Pointwise estimation for Vietnamese word segmentation • 他の種類（O）:外国語と上記の2つの種類以外

9 Pointwise estimation for Vietnamese word segmentation • 辞書情報を利用しラベル付与：対象から見て –

10 Training data • 訓練データは一部のアノテーションで良い “ 例： 1 ví_d đ

11 Experiments TABLE I. TRAINING DATA AND TEST DATA Training

12 Experiments TABLE II. RESULTS OF TWO METHOD DongDu Accuracy

13 Extension • 新データを作成 – 例えばAコーパスはｎ音節持っている – そのコーパスは10分割すると、それぞれn/10音節となる –

14 Conclusion • Pointwise方法により、ベトナム語単語分割を行った • 実験結果から他の方法に比べてdongduの精度が高くてスピードも早い