後:うしろ,こう,あと,… … かんじ:漢字,感じ,幹事,… あと:後,跡.痕,… … 『読み-漢字』辞書 読み取得 漢字表記 取得 漢字:文字,表記,を,… 幹事:代行,以外,は,… … 共起辞書 幹事:文字 漢字:文字 … かんじ:漢字,感じ ,幹事… 漢字:文字,誤り,… 幹事:宴会,企画,… … 隣接文字で絞り込み 2gram辞書 絞り込めなければ同文中 の漢字を含む単語の共起 情報を利用 幹事の文字列 の場合など 1.表記が複数で一つに絞れないときに、それぞれ前後の語との組み合わせの頻度を比較し 対象語との組み合わせが一番頻度が高い 2.表記が複数で前後が『が』や『に』の例外処理の語、または文の先頭や末尾で存在しない 3.表記が複数で前後のいずれかの語が2gram辞書にあるが1つに絞れない 4.表記は1つだが前後いずれかの語が2gram辞書にない 5.表記複数かつ前後いずれかが2gram辞書にない 6~9. 2~5のときに同文中の共起した単語の割合が一定以下の場合レベル+4 誤りのある可能性の高さで9段階のレベル分け 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 正しい文 誤り文 レベル9 8 7 6 5 4 3 2 1 – 誤りを漏れなく検出することで,検出されなかった部分は確認しなくてもよい 評価実験では検出漏れは1件:『吉本興業』が同音異義語なしと判定→固有名詞の問題 レベル分けにより確認範囲を変更可能:レベル9だけで全体の7割の誤りに対し3割強の正しい文 レベル7以上で9割の誤りに対し6割弱の正しい文 結果