Slide 27
Slide 27 text
3. 擬似誤り生成手法3: DirectNoise(ja)
日本語特有の誤り傾向を取り入れた擬似誤り生成(詳細)
置換 助詞は10%, 助詞以外は5%の確率で他の単語に置換
70%の確率で助詞から, 30%の確率で助詞以外から選択
削除 助詞は10%, 助詞以外は5%の確率で削除. 送り仮名が
ある単語は50%の確率で送り仮名の1文字目を削除.
挿入 5%の確率で後ろに単語を挿入.
70%の確率で助詞から, 30%の確率で助詞以外から選択
入れ替え DirectNoiseの入れ替え操作を文節ごとに順番に行う
27