Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Pointwise法を利用したベトナム語単語分割

Van Hai
July 08, 2015
280

 文献紹介:Pointwise法を利用したベトナム語単語分割

Van Hai

July 08, 2015
Tweet

More Decks by Van Hai

Transcript

  1. Pointwise法を利用したベトナ
    ム語単語分割
    L u Tuấ
    ấn Anh, Yamamoto Kazuhide
    ư
    Natural Language Processing Laboratory Department of Electrical
    Engineering
    長岡技術科学大学
    自然言語処理研究室
    B4 Nguyen Van Hai
    文献紹介

    View Slide

  2. 2
    Outline

    機械学習によりベトナム語を単語分割する。

    Pointwise法を利用したベトナム語単語分割、
    – n-gram声調
    – n-gram声調の種類
    – 辞書の特徴

    View Slide

  3. 3
    Introduction

    ベトナム語でスペースを用いて音節を分ける

    声調を結合して単語を作成する。
    – ”
    例: đ t n c”
    ấ ướ ”
    「国」は đ t”
    ấ ”
    「土」と n c”
    ướ
    「水」から作成する。

    単語はいくつかの音節が下線でつながって表され
    る。

    単語はスペースによって分けられる。

    View Slide

  4. 4
    Machine learning approaches in
    word segmentation problem

    音節ごとに分割し、音節間に系列ラベルを付与

    音節間に0、または1(下線)を付与
    – 下線は単語分割点かどうかを表す
    Fig. 1. 単語分割とラベル付与

    View Slide

  5. 5
    Pointwise estimation for Vietnamese
    word segmentation

    HMM法、CRF法またはME法なら隣のラベルを参
    照しなければならない。

    高い精度で出力するために、大きい辞書が必要だ
    が、ベトナム語のもっとも大きな辞書は4万語ある。
    Fig. 2. 隣のラベル参考

    View Slide

  6. 6
    Pointwise estimation for Vietnamese
    word segmentation

    Pointwise法ではラベルを独立で判断して付与する
    で隣のラベルを参照しない。

    独立で判断するため、辞書が小さい言語でも、いい
    結果が期待できる
    Fig. 3. 隣のラベル参考しない

    View Slide

  7. 7
    Pointwise estimation for Vietnamese
    word segmentation

    Pointwiseの特徴は以下の3種類である
    – 音節n-gam:窓幅W。ベトナム語の70%は2音節
    の単語、14%は3音節の単語なので、W=3を利用
    している。
    – 音節n-gramの種類:

    大文字(U):音節の始めは大文字

    普通字(L):音節の始めは普通の文字

    数字(N):音節の始めは数字

    View Slide

  8. 8
    Pointwise estimation for Vietnamese
    word segmentation

    他の種類(O):外国語と上記の2つの種類以

    Fig. 4. N-gram音節とN-gram音節の種類、W=2

    View Slide

  9. 9
    Pointwise estimation for Vietnamese
    word segmentation

    辞書情報を利用しラベル付与:対象から見て
    – 真ん中(I):左右の単語が辞書に存在する
    – 右側(R):右側の単語が辞書に存在する
    – 左側(L):左側の単語が辞書に存在する

    以下の例にとって評価位置は ví d ”
    ụ ”
    で、 I|ví d ”

    Fig. 5. 辞書の特徴

    View Slide

  10. 10
    Training data

    訓練データは一部のアノテーションで良い

    例: 1 ví_d đ n_gi n .”
    ụ ơ ả アノテーション済
    – “1 ví_d đ n gi n .”
    ụ ơ ả “
    それで ví_d ”
    ụ は分割させたが
    “đ n gi n”
    ơ ả は分割させない

    時間とお金がかかり、人によって違う意味で理解される
    “Ông già đi nhanh quá” は

    “Ông_già đi nhanh quá”

    “Ông già_đi nhanh quá”.

    View Slide

  11. 11
    Experiments
    TABLE I. TRAINING DATA AND TEST DATA
    Training  Test
    Size 7.7Mb  2.9Mb
    #Syllabels 1,404,406 535,600
    #Words 1,071,195 410,088

    データは2千万音節を単語分割した。

    View Slide

  12. 12
    Experiments
    TABLE II. RESULTS OF TWO METHOD
    DongDu
    Accuracy 98.2%
    Time 26.2 (s)
    RAM 15.1Mb

    ベトナム語の中で、一番精度が高いツールと比べて
    dongduの精度の方が1%高くなって8倍スピードが早

    View Slide

  13. 13
    Extension

    新データを作成
    – 例えばAコーパスはn音節持っている
    – そのコーパスは10分割すると、それぞれn/10音
    節となる
    – 1部を手で単語分割して学習する
    – 次にdongduによる単語分割をし、チェックする
    何回か繰り返すと精度が高くなる

    View Slide

  14. 14
    Conclusion

    Pointwise方法により、ベトナム語単語分割を行っ


    実験結果から他の方法に比べてdongduの精度が
    高くてスピードも早い

    View Slide