Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:ベトナム語の品詞付与 JVnTagger

Van Hai
August 20, 2015
290

文献紹介:ベトナム語の品詞付与 JVnTagger

Van Hai

August 20, 2015
Tweet

More Decks by Van Hai

Transcript

  1. ベトナム語の品詞付与

    ề tài KC01.01/06-10
    Đ
    “Nghiền c u phát tri n m t số
    ố s n ph m thiề
    ốt yề
    ốu về
    ề x lý
    ứ ể ộ ả ẩ ử
    tiề
    ống nói và văn b n tiề
    ống Vi t ”
    ả ệ
    Dr. Phan Xuan Hieu
    長岡技術科学大学
    自然言語処理研究室
    Nguyen Van Hai
    文献紹介

    View Slide

  2. 2
    文献について

    品詞付与は文中での単語の振る舞いを決定

    1つの単語は複数の品詞を持つ

    ME 法と CRFs 法を利用する

    学習データは1万語品詞を付与したデータ

    結果、精度は90%以上

    View Slide

  3. 3
    品詞付与

    ベトナム語における品詞付与の例




    入力:
    単語を分割
    した文
    出力:
    品詞を付与
    した文

    View Slide

  4. 4
    品詞

    色で品詞の種類を分ける
    名詞
    動詞
    形容詞
    代名詞
    冠詞
    数詞
    副詞
    感嘆詞
    接続詞
    助詞
    略語
    不明

    View Slide

  5. 5
    方法

    ME 法 と CRF s法の両方を使用する
    –訓練データの大きさは 1 万語

      Viet Treebank によって品詞が1万語付与されて
    いる
    品詞モデル

    View Slide

  6. 6
    方法

    L-BFGS によるモデルとデータが最大となる尤度関数を
    求める

    1つの関数は1つの特徴を代表する

    この例: ...th ng
    ườ trò_chuy n
    ệ v i
    ớ Mai ...
    –Viet Treebank のなかで「 trò_chuy n
    ệ 」はどうちの品詞を
    一緒に出る
    –辞書で「 trò_chuy n
    ệ 」の品詞は何
    –「 trò_chuy n
    ệ 」の前の単語の品詞は何

    View Slide

  7. 7
    データ

    Viet Treebank の合計
    文数 10368
    音節数 220761
    単語数 13747
    品詞数 18
    単語と頻度

    View Slide

  8. 8
    入力データ

    Viet Treebank データは 1 文が 1 行で記述され、複
    数音節からなる単語は下線で音節が結合される



    訓練データは1文がスペースラインで分けられ、単語
    と品詞は同じ行に保存される

    View Slide

  9. 9
    特徴を抽出

    窓幅5で横に動く

    環境の特徴抽出
    種類 素性 説明
    w:-2; w:-1; w:0; w:1; w:2 w:i 単語の位置 i を示す
    w j :0:1; wj:1:2; wj:-1:1 wj:i:j i 単語と j 単語を結合する
    is_all_capitalized(i) (i = 0;1)

    View Slide

  10. 10
    特徴を抽出
    種類 素性 説明
    is_initital_capitalized(i) (i = 0;1)
    is_all_capitalized(i) (i = 0;1)
    is_number(i) (i= -1:0:1)
    contain_numbers(i)
    contain_hyphen
    contain_comma
    i の単語は数字を含むことや全角をチェックする
    dict(i) (i= 0,1) 品詞を付与することできる
    is_full_repretative(0)
    is_partial_repretative(0)
    繰り返しの単語をチェックする
    prf(0)
    sff(0)
    頭音節 sự 「 sự h ng d n
    ướ ẫ 」
    毛音節 hóa 「 công nghi p
    ệ hóa 」

    View Slide

  11. 11
    結果

    5 分割交差検定による結果を示す
    実験結果

    View Slide

  12. 12
    結果

    CRF s法と ME 法の精度は 93.18 %と 93.17%
    である

    高い精度のは93.46%の CRF s法が平均値は ME
    法の方が0.01%高い

    View Slide