Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:ベトナム語の品詞付与 JVnTagger

Van Hai
August 20, 2015
380

文献紹介:ベトナム語の品詞付与 JVnTagger

Van Hai

August 20, 2015
Tweet

More Decks by Van Hai

Transcript

  1. ベトナム語の品詞付与 ề ề tài KC01.01/06-10 Đ “Nghiền c u phát

    tri n m t số ố s n ph m thiề ốt yề ốu về ề x lý ứ ể ộ ả ẩ ử tiề ống nói và văn b n tiề ống Vi t ” ả ệ Dr. Phan Xuan Hieu 長岡技術科学大学 自然言語処理研究室 Nguyen Van Hai 文献紹介
  2. 2 文献について • 品詞付与は文中での単語の振る舞いを決定 • 1つの単語は複数の品詞を持つ • ME 法と CRFs

    法を利用する • 学習データは1万語品詞を付与したデータ • 結果、精度は90%以上
  3. 5 方法 • ME 法 と CRF s法の両方を使用する –訓練データの大きさは 1

    万語 •   Viet Treebank によって品詞が1万語付与されて いる 品詞モデル
  4. 6 方法 • L-BFGS によるモデルとデータが最大となる尤度関数を 求める • 1つの関数は1つの特徴を代表する • この例:

    ...th ng ườ trò_chuy n ệ v i ớ Mai ... –Viet Treebank のなかで「 trò_chuy n ệ 」はどうちの品詞を 一緒に出る –辞書で「 trò_chuy n ệ 」の品詞は何 –「 trò_chuy n ệ 」の前の単語の品詞は何 –
  5. 7 データ • Viet Treebank の合計 文数 10368 音節数 220761

    単語数 13747 品詞数 18 単語と頻度
  6. 8 入力データ • Viet Treebank データは 1 文が 1 行で記述され、複

    数音節からなる単語は下線で音節が結合される • • • 訓練データは1文がスペースラインで分けられ、単語 と品詞は同じ行に保存される
  7. 9 特徴を抽出 • 窓幅5で横に動く • 環境の特徴抽出 種類 素性 説明 w:-2;

    w:-1; w:0; w:1; w:2 w:i 単語の位置 i を示す w j :0:1; wj:1:2; wj:-1:1 wj:i:j i 単語と j 単語を結合する is_all_capitalized(i) (i = 0;1)
  8. 10 特徴を抽出 種類 素性 説明 is_initital_capitalized(i) (i = 0;1) is_all_capitalized(i)

    (i = 0;1) is_number(i) (i= -1:0:1) contain_numbers(i) contain_hyphen contain_comma i の単語は数字を含むことや全角をチェックする dict(i) (i= 0,1) 品詞を付与することできる is_full_repretative(0) is_partial_repretative(0) 繰り返しの単語をチェックする prf(0) sff(0) 頭音節 sự 「 sự h ng d n ướ ẫ 」 毛音節 hóa 「 công nghi p ệ hóa 」
  9. 12 結果 • CRF s法と ME 法の精度は 93.18 %と 93.17%

    である • 高い精度のは93.46%の CRF s法が平均値は ME 法の方が0.01%高い