文献紹介：ベトナム語の品詞付与 JVnTagger

ベトナム語の品詞付与 ề ề tài KC01.01/06-10 Đ “Nghiền c u phát
tri n m t số ố s n ph m thiề ốt yề ốu về ề x lý ứ ể ộ ả ẩ ử tiề ống nói và văn b n tiề ống Vi t ” ả ệ Dr. Phan Xuan Hieu 長岡技術科学大学自然言語処理研究室 Nguyen Van Hai 文献紹介

2 文献について • 品詞付与は文中での単語の振る舞いを決定 • １つの単語は複数の品詞を持つ • ME 法と CRFs
法を利用する • 学習データは１万語品詞を付与したデータ • 結果、精度は９０％以上

3 品詞付与 • ベトナム語における品詞付与の例 • • • • 入力：単語を分割
した文出力：品詞を付与した文

4 品詞 • 色で品詞の種類を分ける名詞動詞形容詞代名詞冠詞数詞
副詞感嘆詞接続詞助詞略語不明

5 方法 • ME 法と CRF ｓ法の両方を使用する –訓練データの大きさは 1
万語 • 　 Viet Treebank によって品詞が１万語付与されている品詞モデル

6 方法 • L-BFGS によるモデルとデータが最大となる尤度関数を求める • １つの関数は１つの特徴を代表する • この例：
...th ng ườ trò_chuy n ệ v i ớ Mai ... –Viet Treebank のなかで「 trò_chuy n ệ 」はどうちの品詞を一緒に出る –辞書で「 trò_chuy n ệ 」の品詞は何 –「 trò_chuy n ệ 」の前の単語の品詞は何 –

7 データ • Viet Treebank の合計文数 10368 音節数 220761
単語数 13747 品詞数 18 単語と頻度

8 入力データ • Viet Treebank データは 1 文が 1 行で記述され、複
数音節からなる単語は下線で音節が結合される • • • 訓練データは１文がスペースラインで分けられ、単語と品詞は同じ行に保存される

9 特徴を抽出 • 窓幅５で横に動く • 環境の特徴抽出種類素性説明 w:-2;
w:-1; w:0; w:1; w:2 w:i 単語の位置 i を示す w ｊ :0:1; wj:1:2; wj:-1:1 wj:i:j i 単語と j 単語を結合する is_all_capitalized(i) (i = 0;1)

10 特徴を抽出種類素性説明 is_initital_capitalized(i) (i = 0;1) is_all_capitalized(i)
(i = 0;1) is_number(i) (i= -1:0:1) contain_numbers(i) contain_hyphen contain_comma i の単語は数字を含むことや全角をチェックする dict(i) (i= 0,1) 品詞を付与することできる is_full_repretative(0) is_partial_repretative(0) 繰り返しの単語をチェックする prf(0) sff(0) 頭音節 sự 「 sự h ng d n ướ ẫ 」毛音節 hóa 「 công nghi p ệ hóa 」

11 結果 • 5 分割交差検定による結果を示す実験結果

12 結果 • CRF ｓ法と ME 法の精度は 93.18 ％と 93.17%
である • 高い精度のは９３．４６％の CRF ｓ法が平均値は ME 法の方が０．０１％高い

文献紹介：ベトナム語の品詞付与 JVnTagger

文献紹介：ベトナム語の品詞付与 JVnTagger

Van Hai

More Decks by Van Hai

Featured

Transcript

ベトナム語の品詞付与 ề ề tài KC01.01/06-10 Đ “Nghiền c u phát

2 文献について • 品詞付与は文中での単語の振る舞いを決定 • １つの単語は複数の品詞を持つ • ME 法と CRFs

3 品詞付与 • ベトナム語における品詞付与の例 • • • • 入力：単語を分割

4 品詞 • 色で品詞の種類を分ける名詞動詞形容詞代名詞冠詞数詞

5 方法 • ME 法と CRF ｓ法の両方を使用する –訓練データの大きさは 1

6 方法 • L-BFGS によるモデルとデータが最大となる尤度関数を求める • １つの関数は１つの特徴を代表する • この例：

7 データ • Viet Treebank の合計文数 10368 音節数 220761

8 入力データ • Viet Treebank データは 1 文が 1 行で記述され、複

9 特徴を抽出 • 窓幅５で横に動く • 環境の特徴抽出種類素性説明 w:-2;

10 特徴を抽出種類素性説明 is_initital_capitalized(i) (i = 0;1) is_all_capitalized(i)

11 結果 • 5 分割交差検定による結果を示す実験結果

12 結果 • CRF ｓ法と ME 法の精度は 93.18 ％と 93.17%