Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成

youichiro
June 22, 2020

 日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成

言語処理学会第26回年次大会(NLP2020)
テーマセッション: 言語教育と言語処理の接点 での発表スライド
原稿: https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/F2-3.pdf

youichiro

June 22, 2020
Tweet

More Decks by youichiro

Other Decks in Research

Transcript

  1. NLP2020
    日本語文法誤り訂正における
    誤り傾向を考慮した擬似誤り生成
    長岡技術科学大学 自然言語処理研究室 小川耀一朗

    View Slide

  2. デモを公開しています https://app.jnlp.org/gec
    2

    View Slide

  3. 目次
    1. 背景
    2. 日本語文法誤り訂正手法
    3. 擬似誤り生成手法
    4. 実験
    5. 結論
    3

    View Slide

  4. 1. 背景 文法誤り訂正
    文法誤り訂正:文章中の文法的な誤りを自動で訂正するタスク
    車が買う
    昨日は雨が降る
    メッセージを表示されます
    車を買う (助詞)
    昨日は雨が降った (時制)
    メッセージを表示します (態)
    誤り文を正しい文に変換するシステムを構築する
    4

    View Slide

  5. ← NAIST誤用コーパスの誤用タグ内訳
    日本語学習者の作文と教師による添削
    がアノテーションされたコーパス
    1. 背景 日本語学習者の誤り傾向
    5

    View Slide

  6. 6
    1. 背景 日本語学習者の誤り傾向
    日本語学習者は助詞が最も間違えやすい
    → 助詞誤りに限定した研究が多い
    [今枝ら2003]日本語学習者の作文における格助詞の誤り検出と訂正
    [Suzukiら2006]Learning to predict case markers in Japanese
    [南保ら2007]文節内の特徴を用いた日本語助詞誤りの自動検出・校正
    [Oyama2010]Automatic error detection method for japanese particle
    [笠原ら2012]日本語学習者の誤り傾向を反映した格助詞訂正
    [今村ら2012]小規模誤りデータからの日本語学習者作文の助詞誤り訂正

    View Slide

  7. 誤りの種類を限定しない手法
    [水本ら2013]日本語学習者の作文自動誤り訂正のた
    めの語学学習SNSの添削ログからの知識獲得
    → これ以来、研究が行われていない
    7
    1. 背景 日本語学習者の誤り傾向

    View Slide

  8. 1. 背景 先行研究
    8
    [水本ら2013]
    ● 統計的機械翻訳(SMT)を用いて日本語文法誤り訂正
    ● 学習者コーパスLang-8を訓練データに使用
    言語学習者の作文とネイティブによる添削が付与
    されたコーパス

    View Slide

  9. [水本ら2013]
    ● 統計的機械翻訳(SMT)を用いて日本語文法誤り訂正
    ● 学習者コーパスLang-8を訓練データに使用
    1. 背景 先行研究
    9
    本研究では
    ● ニューラル機械翻訳(NMT)を用いて日本語文法誤り訂正
    ● 擬似誤り生成による訓練データ拡張
    ● 日本語特有の誤り傾向を考慮した擬似誤り生成手法を提案
    訂正性能の向上を目指す

    View Slide

  10. 目次
    1. 背景
    2. 日本語文法誤り訂正手法
    3. 擬似誤り生成手法
    4. 実験
    5. 結論
    10

    View Slide

  11. 機械翻訳(英語→日本語)
     英語→日本語のペアを大量に訓練し、英文から日本語訳を生成する
    2. 訂正手法 機械翻訳手法
    翻訳モデル
    「I have a pen.」 「私はペンを持つ。」
    11

    View Slide

  12. 機械翻訳(英語→日本語)
     英語→日本語のペアを大量に訓練し、英文から日本語訳を生成する
    2. 訂正手法 機械翻訳手法
    翻訳モデル
    「I have a pen.」
    機械翻訳手法を用いた文法誤り訂正
     学習者作文→添削文のペアを大量に訓練し、誤り文から訂正文を生成する
    「私は車で買う」 「私は車を買う」
    訂正モデル
    12
    「私はペンを持つ。」

    View Slide

  13. 2. 訂正手法 訂正モデル
    「私 は 車 で 買う」
    「私 は 車 を 買う」
    訂正モデル
    (ニューラル機械翻訳モデル: Transformer)
    13
    入力文
    出力文

    View Slide

  14. 2. 訂正手法 訂正モデル
    「私 は 車 を    
    全単語の予測確率分布
    「私 は 車 で 買う」
    14
    Transformer

    View Slide

  15. 2. 訂正手法 訂正モデル
    「私 は 車 を 買う」
    全単語の予測確率分布
    「私 は 車 で 買う」
    15
    Transformer

    View Slide

  16. 2. 訂正手法 訂正モデル
    「私 は 車 を 買う」
    変更が不要な単語はコピーさせたい
    → コピー機構を組み込む
    全単語の予測確率分布
    「私 は 車 で 買う」
    16
    Transformer

    View Slide

  17. 2. 訂正手法 訂正モデル
    「私 は 車 を 買う」
    全単語の予測確率分布 入力単語のコピー分布
    「私 は 車 で 買う」
    17
    TransformerCopy

    View Slide

  18. 2. 訂正手法 訂正モデル
    18
    オレンジ: Transformer
       青: コピー機構

    View Slide

  19. 目次
    1. 背景
    2. 日本語文法誤り訂正手法
    3. 擬似誤り生成手法
    4. 実験
    5. 結論
    19

    View Slide

  20. 3. 擬似誤り生成
    NMTモデルの訓練には大規模な訓練データが必要
    しかし 構築が難しい学習者コーパスは規模が小さい
    20

    View Slide

  21. 3. 擬似誤り生成
    NMTモデルの訓練には大規模な訓練データが必要
    しかし 構築が難しい学習者コーパスは規模が小さい
    21
    擬似誤り生成を行ってモデルの訓練データを拡張する
     
    擬似誤り生成: 正しい文に擬似的な誤り(ノイズ)を発生させる
    擬似誤り生成
    正しい文 擬似誤り文

    View Slide

  22. 3. 擬似誤り生成
    22
    3つの擬似誤り生成手法を比較する
    ■ BackTrans
    逆翻訳モデルで擬似誤り生成
    ■ DirectNoise
    置換・削除・挿入・入れ替えを行い擬似誤り生成
    ■ DirectNoise(ja) ← 提案手法
    DirectNoiseを拡張した提案手法

    View Slide

  23. 3. 擬似誤り生成手法1: BackTrans
    step 2. 逆翻訳モデルに正しい文を入力し、ノイズを含む文を生成
    step 1. 添削文から誤り文を生成するように逆翻訳モデルを訓練
    逆翻訳モデル
    添削文 誤り文
    逆翻訳モデル
    正しい文 誤り文
    23

    View Slide

  24. 3. 擬似誤り生成手法2: DirectNoise
    正しい文に対してシンプルな4つの操作を行いノイズを発生させる
    各単語に対して
    置換 10%の確率でランダムな単語に置換
    削除 10%の確率で削除
    挿入 10%の確率で後ろにランダムな単語を挿入
    入れ替え 正規分布の確率値に基づいて語順を入れ替え
    24

    View Slide

  25. 3. 擬似誤り生成手法3: DirectNoise(ja)
    DirectNoiseの操作は現実的ではないノイズを発生させてしまう
       3つの日本語特有の誤り傾向を取り入れる
    ○ 助詞誤りが頻出する
    ○ 送り仮名の不足が生じる
    例) 美い(美しい)
    ○ 文節の順番の違いは多くの場合に文法的な誤りとならない
    例) 「すぐに/車を/買う」と「車を/すぐに/買う」
    25

    View Slide

  26. 3. 擬似誤り生成手法3: DirectNoise(ja)
    日本語特有の誤り傾向を取り入れた擬似誤り生成
    置換 積極的に助詞を置換, 助詞に置換する
    削除
    積極的に助詞を削除する
    積極的に送り仮名の1文字目を削除する
    挿入 積極的に助詞を挿入する
    入れ替え 文節ごとに順番に入れ替えを行う
    26

    View Slide

  27. 3. 擬似誤り生成手法3: DirectNoise(ja)
    日本語特有の誤り傾向を取り入れた擬似誤り生成(詳細)
    置換 助詞は10%, 助詞以外は5%の確率で他の単語に置換
    70%の確率で助詞から, 30%の確率で助詞以外から選択
    削除 助詞は10%, 助詞以外は5%の確率で削除. 送り仮名が
    ある単語は50%の確率で送り仮名の1文字目を削除.
    挿入 5%の確率で後ろに単語を挿入.
    70%の確率で助詞から, 30%の確率で助詞以外から選択
    入れ替え DirectNoiseの入れ替え操作を文節ごとに順番に行う
    27

    View Slide

  28. その犠牲は余りにも大きい。

    じゃあ、その遂籠は余りにも大きい。

    、の性はに要も大。い

    その犠牲は余にも大きい

    3. 擬似誤り生成 例
    28
    フレーズの付け足しが多く流暢
    非常に非文法的
    原文があまり崩れずに文法誤りが含まれている
    Original
    BackTrans
    DirectNoise
    DirectNoise(ja)

    View Slide

  29. 3. 擬似誤り生成 訂正モデルの事前学習
    訂正モデル
    step 1. 擬似誤りコーパス(大規模)で訂正モデルを事前学習(pre-training)
    step 2. パラメータを引き継いで学習者コーパス(小規模)を訓練
    擬似誤り文 正しい文
    訂正モデル
    (学習者の)誤り文 添削文
    パラメータを引き継ぐ
    29

    View Slide

  30. 目次
    1. 背景
    2. 日本語文法誤り訂正手法
    3. 擬似誤り生成手法
    4. 実験
    5. 結論
    30

    View Slide

  31. 【訓練データ】
    - 学習者コーパス  Lang-8 約1.6M文対
    - 擬似誤りコーパス 日本語コーパスBCCWJ 約6M文から擬似誤り生成
    【評価データ】 NAIST誤用コーパス 6,672文
    【評価尺度】
    - Precision, Recall, F0.5
    - F0.5が高いほど訂正性能が高い
    【文の分割単位】
    ひらがなの形態素解析は失敗しやすい
    → 全ての文を文字単位に分割して実験を行った
    F0.5: Precisionを重視したF値
    4. 実験 実験設定
    31

    View Slide

  32. 4. 実験 実験結果
    32

    View Slide

  33. 4. 実験 実験結果
    33
    コピー機構をモデルに組み込むことで性能向上

    View Slide

  34. 4. 実験 実験結果
    34
    擬似誤りコーパスによる事前学習によりF0.5が向上
    提案手法が最も高い性能を示す

    View Slide

  35. 4. 実験 実験結果
    35
    提案手法が先行研究のF0.5を上回る

    View Slide

  36. 4. 実験 様々な誤りに対する訂正例
    36
    助詞
    入力文
    出力文
    質問を対応する
    質問に対応する。
    適切
    活用
    入力文
    出力文
    ブックを開きてください
    ブックを開けてください。
    適切
    接続詞
    入力文
    出力文
    体調が悪いだから休みます
    体調が悪いから休みます。
    適切

    入力文
    出力文
    メッセージを表示されます
    メッセージを表示します。
    適切
    時制
    入力文
    出力文
    昨日は雨が降る
    昨日は雨が降った。
    適切
    カタカナ語
    入力文
    出力文
    アイコンをクリークする
    アイコンをクリックする。
    適切
    促音長音濁音
    入力文
    出力文
    質問があたらお願いします
    質問があったらお願いします。
    適切

    View Slide

  37. 指示詞
    入力文
    出力文
    その以下のサイズに設定
    以下のサイズに設定。
    不適切
    疑問詞
    入力文
    出力文
    そのネックレスはいくつですか?
    そのネックレスはいくつですか。
    不適切
    語順
    入力文
    出力文
    良いでしょう。だから別に服なんて
    良いでしょう。だから別に服なんて。
    不適切
    同音異義語
    入力文
    出力文
    メモリ内臓
    メモリ内臓。
    不適切
    母語の使用
    入力文
    出力文
    勉強するためにローンを取った
    勉強するためにローンを取った。
    不適切
    誤字脱字
    入力文
    出力文
    私立ちでやります
    私立ちでやります。
    不適切
    4. 実験 様々な誤りに対する訂正例
    37

    View Slide

  38. 目次
    1. 背景
    2. 日本語文法誤り訂正手法
    3. 擬似誤り生成手法
    4. 実験
    5. まとめ
    38

    View Slide

  39. 5. まとめ
    日本語文法誤り訂正において
    1. ニューラル機械翻訳+コピー機構モデルを用いた
    2. 擬似誤り生成による訓練データ拡張を行った
    3. 日本語特有の誤り傾向を考慮した擬似誤り生成手法を提案した
    提案手法が先行研究よりも高い性能を示した
    39
    デモを公開しています https://app.jnlp.org/gec

    View Slide

  40. 40

    View Slide

  41. 4. 実験 考察:擬似誤りコーパスによる事前学習の効果
    41
    事前学習によってRecallは上がるがPrecisionが下がる
    編集回数が約2倍に
    事前学習なし 2,919回
    事前学習あり 5,813回
    入力をそのまま出力する傾向がある
    不要な訂正を抑えつつ積極的に訂正を行う

    View Slide

  42. 4. 実験 考察:提案手法の効果
    42
    提案手法によってPrecisionが向上する
    より現実的な誤りを学習するため、不要な訂正を抑えられる

    View Slide