10
特徴を抽出
種類 素性 説明
is_initital_capitalized(i) (i = 0;1)
is_all_capitalized(i) (i = 0;1)
is_number(i) (i= -1:0:1)
contain_numbers(i)
contain_hyphen
contain_comma
i の単語は数字を含むことや全角をチェックする
dict(i) (i= 0,1) 品詞を付与することできる
is_full_repretative(0)
is_partial_repretative(0)
繰り返しの単語をチェックする
prf(0)
sff(0)
頭音節 sự 「 sự h ng d n
ướ ẫ 」
毛音節 hóa 「 công nghi p
ệ hóa 」