日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成

 日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成

言語処理学会第26回年次大会(NLP2020)
テーマセッション: 言語教育と言語処理の接点 での発表スライド
原稿: https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/F2-3.pdf

66cc992074ab4522374e429c11fef225?s=128

youichiro

June 22, 2020
Tweet

Transcript

  1. NLP2020 日本語文法誤り訂正における 誤り傾向を考慮した擬似誤り生成 長岡技術科学大学 自然言語処理研究室 小川耀一朗

  2. デモを公開しています https://app.jnlp.org/gec 2

  3. 目次 1. 背景 2. 日本語文法誤り訂正手法 3. 擬似誤り生成手法 4. 実験 5.

    結論 3
  4. 1. 背景 文法誤り訂正 文法誤り訂正:文章中の文法的な誤りを自動で訂正するタスク 車が買う 昨日は雨が降る メッセージを表示されます 車を買う (助詞) 昨日は雨が降った

    (時制) メッセージを表示します (態) 誤り文を正しい文に変換するシステムを構築する 4
  5. ← NAIST誤用コーパスの誤用タグ内訳 日本語学習者の作文と教師による添削 がアノテーションされたコーパス 1. 背景 日本語学習者の誤り傾向 5

  6. 6 1. 背景 日本語学習者の誤り傾向 日本語学習者は助詞が最も間違えやすい → 助詞誤りに限定した研究が多い [今枝ら2003]日本語学習者の作文における格助詞の誤り検出と訂正 [Suzukiら2006]Learning to

    predict case markers in Japanese [南保ら2007]文節内の特徴を用いた日本語助詞誤りの自動検出・校正 [Oyama2010]Automatic error detection method for japanese particle [笠原ら2012]日本語学習者の誤り傾向を反映した格助詞訂正 [今村ら2012]小規模誤りデータからの日本語学習者作文の助詞誤り訂正
  7. 誤りの種類を限定しない手法 [水本ら2013]日本語学習者の作文自動誤り訂正のた めの語学学習SNSの添削ログからの知識獲得 → これ以来、研究が行われていない 7 1. 背景 日本語学習者の誤り傾向

  8. 1. 背景 先行研究 8 [水本ら2013] • 統計的機械翻訳(SMT)を用いて日本語文法誤り訂正 • 学習者コーパスLang-8を訓練データに使用 言語学習者の作文とネイティブによる添削が付与

    されたコーパス
  9. [水本ら2013] • 統計的機械翻訳(SMT)を用いて日本語文法誤り訂正 • 学習者コーパスLang-8を訓練データに使用 1. 背景 先行研究 9 本研究では

    • ニューラル機械翻訳(NMT)を用いて日本語文法誤り訂正 • 擬似誤り生成による訓練データ拡張 • 日本語特有の誤り傾向を考慮した擬似誤り生成手法を提案 訂正性能の向上を目指す
  10. 目次 1. 背景 2. 日本語文法誤り訂正手法 3. 擬似誤り生成手法 4. 実験 5.

    結論 10
  11. 機械翻訳(英語→日本語)  英語→日本語のペアを大量に訓練し、英文から日本語訳を生成する 2. 訂正手法 機械翻訳手法 翻訳モデル 「I have a pen.」

    「私はペンを持つ。」 11
  12. 機械翻訳(英語→日本語)  英語→日本語のペアを大量に訓練し、英文から日本語訳を生成する 2. 訂正手法 機械翻訳手法 翻訳モデル 「I have a pen.」

    機械翻訳手法を用いた文法誤り訂正  学習者作文→添削文のペアを大量に訓練し、誤り文から訂正文を生成する 「私は車で買う」 「私は車を買う」 訂正モデル 12 「私はペンを持つ。」
  13. 2. 訂正手法 訂正モデル 「私 は 車 で 買う」 「私 は

    車 を 買う」 訂正モデル (ニューラル機械翻訳モデル: Transformer) 13 入力文 出力文
  14. 2. 訂正手法 訂正モデル 「私 は 車 を     全単語の予測確率分布 「私

    は 車 で 買う」 14 Transformer
  15. 2. 訂正手法 訂正モデル 「私 は 車 を 買う」 全単語の予測確率分布 「私

    は 車 で 買う」 15 Transformer
  16. 2. 訂正手法 訂正モデル 「私 は 車 を 買う」 変更が不要な単語はコピーさせたい →

    コピー機構を組み込む 全単語の予測確率分布 「私 は 車 で 買う」 16 Transformer
  17. 2. 訂正手法 訂正モデル 「私 は 車 を 買う」 全単語の予測確率分布 入力単語のコピー分布

    「私 は 車 で 買う」 17 TransformerCopy
  18. 2. 訂正手法 訂正モデル 18 オレンジ: Transformer    青: コピー機構

  19. 目次 1. 背景 2. 日本語文法誤り訂正手法 3. 擬似誤り生成手法 4. 実験 5.

    結論 19
  20. 3. 擬似誤り生成 NMTモデルの訓練には大規模な訓練データが必要 しかし 構築が難しい学習者コーパスは規模が小さい 20

  21. 3. 擬似誤り生成 NMTモデルの訓練には大規模な訓練データが必要 しかし 構築が難しい学習者コーパスは規模が小さい 21 擬似誤り生成を行ってモデルの訓練データを拡張する   擬似誤り生成: 正しい文に擬似的な誤り(ノイズ)を発生させる

    擬似誤り生成 正しい文 擬似誤り文
  22. 3. 擬似誤り生成 22 3つの擬似誤り生成手法を比較する ▪ BackTrans 逆翻訳モデルで擬似誤り生成 ▪ DirectNoise 置換・削除・挿入・入れ替えを行い擬似誤り生成

    ▪ DirectNoise(ja) ← 提案手法 DirectNoiseを拡張した提案手法
  23. 3. 擬似誤り生成手法1: BackTrans step 2. 逆翻訳モデルに正しい文を入力し、ノイズを含む文を生成 step 1. 添削文から誤り文を生成するように逆翻訳モデルを訓練 逆翻訳モデル

    添削文 誤り文 逆翻訳モデル 正しい文 誤り文 23
  24. 3. 擬似誤り生成手法2: DirectNoise 正しい文に対してシンプルな4つの操作を行いノイズを発生させる 各単語に対して 置換 10%の確率でランダムな単語に置換 削除 10%の確率で削除 挿入

    10%の確率で後ろにランダムな単語を挿入 入れ替え 正規分布の確率値に基づいて語順を入れ替え 24
  25. 3. 擬似誤り生成手法3: DirectNoise(ja) DirectNoiseの操作は現実的ではないノイズを発生させてしまう    3つの日本語特有の誤り傾向を取り入れる ◦ 助詞誤りが頻出する ◦ 送り仮名の不足が生じる 例)

    美い(美しい) ◦ 文節の順番の違いは多くの場合に文法的な誤りとならない 例) 「すぐに/車を/買う」と「車を/すぐに/買う」 25
  26. 3. 擬似誤り生成手法3: DirectNoise(ja) 日本語特有の誤り傾向を取り入れた擬似誤り生成 置換 積極的に助詞を置換, 助詞に置換する 削除 積極的に助詞を削除する 積極的に送り仮名の1文字目を削除する

    挿入 積極的に助詞を挿入する 入れ替え 文節ごとに順番に入れ替えを行う 26
  27. 3. 擬似誤り生成手法3: DirectNoise(ja) 日本語特有の誤り傾向を取り入れた擬似誤り生成(詳細) 置換 助詞は10%, 助詞以外は5%の確率で他の単語に置換 70%の確率で助詞から, 30%の確率で助詞以外から選択 削除

    助詞は10%, 助詞以外は5%の確率で削除. 送り仮名が ある単語は50%の確率で送り仮名の1文字目を削除. 挿入 5%の確率で後ろに単語を挿入. 70%の確率で助詞から, 30%の確率で助詞以外から選択 入れ替え DirectNoiseの入れ替え操作を文節ごとに順番に行う 27
  28. その犠牲は余りにも大きい。
 じゃあ、その遂籠は余りにも大きい。
 、の性はに要も大。い
 その犠牲は余にも大きい
 3. 擬似誤り生成 例 28 フレーズの付け足しが多く流暢 非常に非文法的

    原文があまり崩れずに文法誤りが含まれている Original BackTrans DirectNoise DirectNoise(ja)
  29. 3. 擬似誤り生成 訂正モデルの事前学習 訂正モデル step 1. 擬似誤りコーパス(大規模)で訂正モデルを事前学習(pre-training) step 2. パラメータを引き継いで学習者コーパス(小規模)を訓練

    擬似誤り文 正しい文 訂正モデル (学習者の)誤り文 添削文 パラメータを引き継ぐ 29
  30. 目次 1. 背景 2. 日本語文法誤り訂正手法 3. 擬似誤り生成手法 4. 実験 5.

    結論 30
  31. 【訓練データ】 - 学習者コーパス  Lang-8 約1.6M文対 - 擬似誤りコーパス 日本語コーパスBCCWJ 約6M文から擬似誤り生成 【評価データ】 NAIST誤用コーパス 6,672文

    【評価尺度】 - Precision, Recall, F0.5 - F0.5が高いほど訂正性能が高い 【文の分割単位】 ひらがなの形態素解析は失敗しやすい → 全ての文を文字単位に分割して実験を行った F0.5: Precisionを重視したF値 4. 実験 実験設定 31
  32. 4. 実験 実験結果 32

  33. 4. 実験 実験結果 33 コピー機構をモデルに組み込むことで性能向上

  34. 4. 実験 実験結果 34 擬似誤りコーパスによる事前学習によりF0.5が向上 提案手法が最も高い性能を示す

  35. 4. 実験 実験結果 35 提案手法が先行研究のF0.5を上回る

  36. 4. 実験 様々な誤りに対する訂正例 36 助詞 入力文 出力文 質問を対応する 質問に対応する。 適切

    活用 入力文 出力文 ブックを開きてください ブックを開けてください。 適切 接続詞 入力文 出力文 体調が悪いだから休みます 体調が悪いから休みます。 適切 態 入力文 出力文 メッセージを表示されます メッセージを表示します。 適切 時制 入力文 出力文 昨日は雨が降る 昨日は雨が降った。 適切 カタカナ語 入力文 出力文 アイコンをクリークする アイコンをクリックする。 適切 促音長音濁音 入力文 出力文 質問があたらお願いします 質問があったらお願いします。 適切
  37. 指示詞 入力文 出力文 その以下のサイズに設定 以下のサイズに設定。 不適切 疑問詞 入力文 出力文 そのネックレスはいくつですか?

    そのネックレスはいくつですか。 不適切 語順 入力文 出力文 良いでしょう。だから別に服なんて 良いでしょう。だから別に服なんて。 不適切 同音異義語 入力文 出力文 メモリ内臓 メモリ内臓。 不適切 母語の使用 入力文 出力文 勉強するためにローンを取った 勉強するためにローンを取った。 不適切 誤字脱字 入力文 出力文 私立ちでやります 私立ちでやります。 不適切 4. 実験 様々な誤りに対する訂正例 37
  38. 目次 1. 背景 2. 日本語文法誤り訂正手法 3. 擬似誤り生成手法 4. 実験 5.

    まとめ 38
  39. 5. まとめ 日本語文法誤り訂正において 1. ニューラル機械翻訳+コピー機構モデルを用いた 2. 擬似誤り生成による訓練データ拡張を行った 3. 日本語特有の誤り傾向を考慮した擬似誤り生成手法を提案した 提案手法が先行研究よりも高い性能を示した

    39 デモを公開しています https://app.jnlp.org/gec
  40. 40

  41. 4. 実験 考察:擬似誤りコーパスによる事前学習の効果 41 事前学習によってRecallは上がるがPrecisionが下がる 編集回数が約2倍に 事前学習なし 2,919回 事前学習あり 5,813回 入力をそのまま出力する傾向がある 不要な訂正を抑えつつ積極的に訂正を行う

  42. 4. 実験 考察:提案手法の効果 42 提案手法によってPrecisionが向上する より現実的な誤りを学習するため、不要な訂正を抑えられる