日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成

NLP2020 日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成長岡技術科学大学自然言語処理研究室小川耀一朗

デモを公開しています https://app.jnlp.org/gec 2

目次 1. 背景 2. 日本語文法誤り訂正手法 3. 擬似誤り生成手法 4. 実験 5.
結論 3

1. 背景文法誤り訂正文法誤り訂正：文章中の文法的な誤りを自動で訂正するタスク車が買う昨日は雨が降るメッセージを表示されます車を買う (助詞) 昨日は雨が降った
(時制) メッセージを表示します (態) 誤り文を正しい文に変換するシステムを構築する 4

← NAIST誤用コーパスの誤用タグ内訳日本語学習者の作文と教師による添削がアノテーションされたコーパス 1. 背景日本語学習者の誤り傾向 5

6 1. 背景日本語学習者の誤り傾向日本語学習者は助詞が最も間違えやすい → 助詞誤りに限定した研究が多い [今枝ら2003]日本語学習者の作文における格助詞の誤り検出と訂正 [Suzukiら2006]Learning to
predict case markers in Japanese [南保ら2007]文節内の特徴を用いた日本語助詞誤りの自動検出・校正 [Oyama2010]Automatic error detection method for japanese particle [笠原ら2012]日本語学習者の誤り傾向を反映した格助詞訂正 [今村ら2012]小規模誤りデータからの日本語学習者作文の助詞誤り訂正

誤りの種類を限定しない手法 [水本ら2013]日本語学習者の作文自動誤り訂正のための語学学習SNSの添削ログからの知識獲得 → これ以来、研究が行われていない 7 1. 背景日本語学習者の誤り傾向

1. 背景先行研究 8 [水本ら2013] • 統計的機械翻訳(SMT)を用いて日本語文法誤り訂正 • 学習者コーパスLang-8を訓練データに使用言語学習者の作文とネイティブによる添削が付与
されたコーパス

[水本ら2013] • 統計的機械翻訳(SMT)を用いて日本語文法誤り訂正 • 学習者コーパスLang-8を訓練データに使用 1. 背景先行研究 9 本研究では
• ニューラル機械翻訳(NMT)を用いて日本語文法誤り訂正 • 擬似誤り生成による訓練データ拡張 • 日本語特有の誤り傾向を考慮した擬似誤り生成手法を提案訂正性能の向上を目指す

結論 10

機械翻訳(英語→日本語) 　英語→日本語のペアを大量に訓練し、英文から日本語訳を生成する 2. 訂正手法機械翻訳手法翻訳モデル「I have a pen.」
「私はペンを持つ。」 11

機械翻訳(英語→日本語) 　英語→日本語のペアを大量に訓練し、英文から日本語訳を生成する 2. 訂正手法機械翻訳手法翻訳モデル「I have a pen.」
機械翻訳手法を用いた文法誤り訂正　学習者作文→添削文のペアを大量に訓練し、誤り文から訂正文を生成する「私は車で買う」「私は車を買う」訂正モデル 12 「私はペンを持つ。」

2. 訂正手法訂正モデル「私は車で買う」「私は
車を買う」訂正モデル (ニューラル機械翻訳モデル: Transformer) 13 入力文出力文

2. 訂正手法訂正モデル「私は車を　　　全単語の予測確率分布「私
は車で買う」 14 Transformer

2. 訂正手法訂正モデル「私は車を買う」全単語の予測確率分布「私
は車で買う」 15 Transformer

2. 訂正手法訂正モデル「私は車を買う」変更が不要な単語はコピーさせたい →
コピー機構を組み込む全単語の予測確率分布「私は車で買う」 16 Transformer

2. 訂正手法訂正モデル「私は車を買う」全単語の予測確率分布入力単語のコピー分布
「私は車で買う」 17 TransformerCopy

2. 訂正手法訂正モデル 18 オレンジ: Transformer 　　　青: コピー機構

結論 19

3. 擬似誤り生成 NMTモデルの訓練には大規模な訓練データが必要しかし構築が難しい学習者コーパスは規模が小さい 20

3. 擬似誤り生成 NMTモデルの訓練には大規模な訓練データが必要しかし構築が難しい学習者コーパスは規模が小さい 21 擬似誤り生成を行ってモデルの訓練データを拡張する　擬似誤り生成: 正しい文に擬似的な誤り(ノイズ)を発生させる
擬似誤り生成正しい文擬似誤り文

3. 擬似誤り生成 22 3つの擬似誤り生成手法を比較する ▪ BackTrans 逆翻訳モデルで擬似誤り生成 ▪ DirectNoise 置換・削除・挿入・入れ替えを行い擬似誤り生成
▪ DirectNoise(ja) ← 提案手法 DirectNoiseを拡張した提案手法

3. 擬似誤り生成手法1: BackTrans step 2. 逆翻訳モデルに正しい文を入力し、ノイズを含む文を生成 step 1. 添削文から誤り文を生成するように逆翻訳モデルを訓練逆翻訳モデル
添削文誤り文逆翻訳モデル正しい文誤り文 23

3. 擬似誤り生成手法2: DirectNoise 正しい文に対してシンプルな4つの操作を行いノイズを発生させる各単語に対して置換 10%の確率でランダムな単語に置換削除 10%の確率で削除挿入
10%の確率で後ろにランダムな単語を挿入入れ替え正規分布の確率値に基づいて語順を入れ替え 24

3. 擬似誤り生成手法3: DirectNoise(ja) DirectNoiseの操作は現実的ではないノイズを発生させてしまう　　　3つの日本語特有の誤り傾向を取り入れる ◦ 助詞誤りが頻出する ◦ 送り仮名の不足が生じる例)
美い（美しい） ◦ 文節の順番の違いは多くの場合に文法的な誤りとならない例) 「すぐに/車を/買う」と「車を/すぐに/買う」 25

3. 擬似誤り生成手法3: DirectNoise(ja) 日本語特有の誤り傾向を取り入れた擬似誤り生成置換積極的に助詞を置換, 助詞に置換する削除積極的に助詞を削除する積極的に送り仮名の1文字目を削除する
挿入積極的に助詞を挿入する入れ替え文節ごとに順番に入れ替えを行う 26

3. 擬似誤り生成手法3: DirectNoise(ja) 日本語特有の誤り傾向を取り入れた擬似誤り生成(詳細) 置換助詞は10%, 助詞以外は5%の確率で他の単語に置換 70%の確率で助詞から, 30%の確率で助詞以外から選択削除
助詞は10%, 助詞以外は5%の確率で削除. 送り仮名がある単語は50%の確率で送り仮名の1文字目を削除. 挿入 5%の確率で後ろに単語を挿入. 70%の確率で助詞から, 30%の確率で助詞以外から選択入れ替え DirectNoiseの入れ替え操作を文節ごとに順番に行う 27

その犠牲は余りにも大きい。  じゃあ、その遂籠は余りにも大きい。  、の性はに要も大。い  その犠牲は余にも大きい  3. 擬似誤り生成例 28 フレーズの付け足しが多く流暢非常に非文法的
原文があまり崩れずに文法誤りが含まれている Original BackTrans DirectNoise DirectNoise(ja)

3. 擬似誤り生成訂正モデルの事前学習訂正モデル step 1. 擬似誤りコーパス(大規模)で訂正モデルを事前学習(pre-training) step 2. パラメータを引き継いで学習者コーパス(小規模)を訓練
擬似誤り文正しい文訂正モデル (学習者の)誤り文添削文パラメータを引き継ぐ 29

結論 30

【訓練データ】 - 学習者コーパス　　Lang-8 約1.6M文対 - 擬似誤りコーパス　日本語コーパスBCCWJ 約6M文から擬似誤り生成【評価データ】 NAIST誤用コーパス 6,672文
【評価尺度】 - Precision, Recall, F0.5 - F0.5が高いほど訂正性能が高い【文の分割単位】ひらがなの形態素解析は失敗しやすい → 全ての文を文字単位に分割して実験を行った F0.5: Precisionを重視したF値 4. 実験実験設定 31

4. 実験実験結果 32

4. 実験実験結果 33 コピー機構をモデルに組み込むことで性能向上

4. 実験実験結果 34 擬似誤りコーパスによる事前学習によりF0.5が向上提案手法が最も高い性能を示す

4. 実験実験結果 35 提案手法が先行研究のF0.5を上回る

4. 実験様々な誤りに対する訂正例 36 助詞入力文出力文質問を対応する質問に対応する。適切
活用入力文出力文ブックを開きてくださいブックを開けてください。適切接続詞入力文出力文体調が悪いだから休みます体調が悪いから休みます。適切態入力文出力文メッセージを表示されますメッセージを表示します。適切時制入力文出力文昨日は雨が降る昨日は雨が降った。適切カタカナ語入力文出力文アイコンをクリークするアイコンをクリックする。適切促音長音濁音入力文出力文質問があたらお願いします質問があったらお願いします。適切

指示詞入力文出力文その以下のサイズに設定以下のサイズに設定。不適切疑問詞入力文出力文そのネックレスはいくつですか？
そのネックレスはいくつですか。不適切語順入力文出力文良いでしょう。だから別に服なんて良いでしょう。だから別に服なんて。不適切同音異義語入力文出力文メモリ内臓メモリ内臓。不適切母語の使用入力文出力文勉強するためにローンを取った勉強するためにローンを取った。不適切誤字脱字入力文出力文私立ちでやります私立ちでやります。不適切 4. 実験様々な誤りに対する訂正例 37

まとめ 38

5. まとめ日本語文法誤り訂正において 1. ニューラル機械翻訳＋コピー機構モデルを用いた 2. 擬似誤り生成による訓練データ拡張を行った 3. 日本語特有の誤り傾向を考慮した擬似誤り生成手法を提案した提案手法が先行研究よりも高い性能を示した
39 デモを公開しています https://app.jnlp.org/gec

4. 実験考察:擬似誤りコーパスによる事前学習の効果 41 事前学習によってRecallは上がるがPrecisionが下がる編集回数が約2倍に事前学習なし　2,919回事前学習あり　5,813回入力をそのまま出力する傾向がある不要な訂正を抑えつつ積極的に訂正を行う

4. 実験考察:提案手法の効果 42 提案手法によってPrecisionが向上するより現実的な誤りを学習するため、不要な訂正を抑えられる

日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成

日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成

More Decks by youichiro

Other Decks in Research

Featured

Transcript