小規模誤りデータからの日本語学習者作文の助詞誤り訂正

小規模誤りデータからの日本語学習者作文の助詞誤り訂正今村賢治・斎藤邦子・貞光九月・西川仁自然言語処理, Vol. 19,
No. 5, pp. 381-400, 2012 文献紹介平成29年4月28日長岡技術科学大学自然言語処理研究室小川耀一朗

概要 • 日本語学習者作文の助詞の誤りを自動訂正する • 大規模な学習者作文コーパスを集めるのは難しい • 少量の学習者作文から獲得したn-gram二値素性と、大規模コーパスから獲得した言語モデル確率の併用 → 再現率の向上
• 自動生成した疑似誤り文を訓練コーパスに追加 → 安定した精度向上 2/15

日本語学習者の誤り傾向日本語学習者37名から、2770文の学習者作文を収集日本語母語話者が作文の誤りを訂正訂正が可能：2171文誤りの発生箇所：4916箇所（大分類） - 文法誤り：54％ - 語彙誤り：28％
- 表記誤り：16％ - その他：複数の誤りが混在 3 （小分類） - 助詞・助動詞誤り：33％ - カタカナ語誤り：11％ - 単語選択（類義語）の誤り：10％ /15

日本語学習者の誤り傾向誤りの出現頻度の高い助詞誤りを訂正対象とした助詞誤り - 置換誤り：74％ - 助詞のぬけ：17％ - 余分な助詞の出現：9％原文を置換、挿入、削除することにより誤り訂正を行う
4/15

誤り訂正のベース手法識別的系列変換＝識別モデルを用いた句に基づく統計翻訳（CRF）＋挿入、削除操作への拡張＋言語モデルを扱う拡張 5/15

誤り訂正のベース手法識別的系列変換では2種類の素性を用いる・マップ素性：入力と出力のフレーズ対応度を測る (翻訳モデル) ・リンク素性：出力単語列の日本語としてのもっともらしさを測る (言語モデル) 6/15

誤り訂正のベース手法識別的系列変換では2種類の素性を用いる・マップ素性：入力と出力のフレーズ対応度を測る (翻訳モデル) ・リンク素性：出力単語列の日本語としてのもっともらしさを測る (言語モデル) ↓ ・ n-gram二値素性・
言語モデル確率 7/15

誤り訂正のベース手法識別的系列変換では2種類の素性を用いる・マップ素性：入力と出力のフレーズ対応度を測る (翻訳モデル) ・リンク素性：出力単語列の日本語としてのもっともらしさを測る (言語モデル) ↓ ・ n-gram二値素性・
言語モデル確率出力単語列のn-gram確率の対数値を実数素性として使用訓練コーパスに限らず大量の文から構築できる訓練コーパスに出現しなくてもスコアを与えることができる 8/15

提案手法・ n-gram二値素性・言語モデル確率の2種類のリンク素性を併用することを提案言語モデルの構築に大規模な日本語コーパスを適用することで、未知テキストに対し頑健な修正が行える 9/15

実験1 日本語平文コーパスの利用学習者作文コーパスから助詞誤りのみを抽出（1087箇所）言語モデル：WikipediaとCentOS5日本語マニュアルから527,151文評価方法：・コーパスを5分割交差検定・適合率、再現率、F値・相対向上数 (訂正によって品質が)向上した助詞数 –
悪化した助詞数 10/15

実験結果 11/15

疑似誤り文によるペア文の拡張収集した日本語コーパスの文を学習者作文のように誤らせる誤った助詞とその訂正候補を逆に適用する実誤りコーパスでの助詞誤りの発生確率に従って誤らせる自動生成した疑似誤りの分布を、実際の誤りの確率分布に近づける → 素性空間拡張法(Daume Ⅲ 2017)を用いる 12/15

実験2 疑似誤り文によるペア文の拡張疑似誤りコーパス：言語モデル作成用コーパスから10,000文取得して生成誤り発生確率：実誤りコーパス上での相対頻度を倍率1.0とし、倍率0.0〜2.0まで変化させて実験評価方法：・コーパスを5分割交差検定・適合率、再現率
・相対向上数 (訂正によって品質が)向上した助詞数 – 悪化した助詞数 13/15

実験結果・TRG：実誤りコーパスのみを使用（ベースライン）・SRC：疑似誤りコーパスのみを使用・ALL：実誤りコーパス＋疑似誤りコーパス・AUG：疑似誤りコーパスと実誤りコーパスを素性空間拡張法によりドメイン適応（提案手法） 14

まとめ • 日本語学習者の日本語作文における、助詞誤り訂正法を提案した • n-gram二値素性と言語モデル確率を併用し、誤り訂正の再現率を向上させた • 学習者作文を模した疑似誤り文を自動生成し、学習コーパスに追加する際にドメイン適応を併用することで、誤り発生
確率によらず安定した精度向上ができる 15/15

小規模誤りデータからの日本語学習者作文の助詞誤り訂正

小規模誤りデータからの日本語学習者作文の助詞誤り訂正

youichiro

More Decks by youichiro

Other Decks in Technology

Featured

Transcript