snlp2020

2020/9/26 最先端NLP勉強会紹介者斉藤いつみ (ACL2020)

概要 • 疑似的に誤りを含む文を生成し，既存の事前学習済 encoderがどの程度頑健に動作するかを調査 • 現実のエラー分布と，adversarial attack手法の双方を利用したエラー文の自動生成手法を提案 • ELMo,
BERT, RoBERTaの3つのencoderに関して，複数の応用タスクで入力に誤りを疑似的に混入させた場合の精度や頑健性を比較 – タスクやモデル，エラーのタイプによってモデルの頑健性に差が見られた

概要誤り訂正コーパストークンレベルエラーパタン誤り訂正コーパスから誤りパタン抽出 BERT ELMo RoBERTa 貢献1:
様々な文法誤りを simulateするアルゴリズム貢献2: 疑似生成した文法誤りに対するダウンストリームタスクでの精度評価貢献3: 文法誤りに対する事前学習済Encoderの挙動分析 Clean text 疑似エラー混入テキスト • それぞれの手法自体は既存手法を利用 • 組み合わせに新規性？

貢献1: 様々な文法誤りを生成するアルゴリズムポイント：誤り訂正のデータを用いたsemi-naturalな誤り生成の手法と Black-box adversarial attackの手法，を両方使う（それぞれの手法は既存手法から流用）大きく2つの方法でエラー文を生成する 1.
probabilistic transformation – NUCLEデータから抽出したトークンレベルのエラーの頻度分布に従ってエラー箇所や置き換え先のトークンをサンプリング 2. worst-case transformation – NUCLEから抽出したエラーパタンを利用するが，adversarial attackの考え方を利用して最もモデルのパフォーマンスを低下させるような置き換えを探索する

準備：NUCLEデータを用いたエラーパタン抽出 • NUCLEとは – 非英語母語話者の学生のエッセイにエラータグがつけられたコーパス – 59,800ペアの文ペア（平均約20単語） – 約6%の単語が誤り
– 27個のエラータグが付与されている

使用するエラーの種類 • 頻出する8タイプを本論文では利用

Confusion setの生成 • トークンレベルで，あるトークンtiが別のトークンtjに置き換えられる確率wijを計算 http://web.cs.ucla.edu/~kwchang/documents/slides/yin2020robu stness_slide.pdf 著者のスライドより抜粋（下記）

生成手法1: probabilistic transformation • NUCLEのエラー頻度分布からサンプリング例文*)： Natural language processing has
its roots in the 1950s. *) https://en.wikipedia.org/wiki/Natural_language_processing

生成手法1: probabilistic transformation step1. Berkeley syntactic parserで文を解析する https://parser.kitaev.io/

生成手法1: probabilistic transformation step2. エラータイプのサンプリング -> ArtOrDet (Article/Determiner errors)

生成手法1: probabilistic transformation step3. エラー箇所のサンプリング

生成手法1: probabilistic transformation step4.置きかえるトークンのサンプリング an

生成手法2: worst-case transformation • black-box adversarial attackの既存手法を適用 • 以下の3つの手法を用いている 1.
greedy search 2. beam search 3. genetic algorithm

Greedy search step1. 文中のトークン全てに重要度スコアを付与する Step2. 重要度スコアが上位のトークンから順に，全ての置き換えパタン(confusion set)を適用し，最もモデルの結果を悪化させる候補で置き換える ->
これを上位k個保持するのがbeam search Step2を次のいずれかの条件を満たすまで繰り返す – モデルの予測結果が変化する – 事前に指定した1文あたりの置き換え上限数に達する Step1の重要度について • 各単語を削除したときと削除しないときのラベルYの予測スコアの差が大きい（正しいラベルの予測確率を下げる）ほど重要度が大きいと仮定し，すべての単語について下記を計算する Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment [Jin et al., AAAI2020]のアルゴリズムを利用

Generic Algorithm • Step1: 現在の文sに対して，全ての可能な変換の中からps個の変換パタン集合Ptをサンプリングする – ランダムに単語位置と置き換え候補を選択するのをps回繰り返す • Step2:
Ptを順番に走査し，モデルの結果を悪化させる変換を文sに対して適用する • Step3: 現在の変換パタンPtを更新して上記のstep1, 2を繰り返す Step1,2,3を次のいずれかの条件を満たすまで繰り返す – モデルの予測結果が変化する – 事前に指定した1文あたりの繰り返し上限数に達する Generating Natural Language Adversarial Examples [Alzantot+, EMNLP2018] のアルゴリズムを利用

貢献2,3: 評価 • 3種類の評価を実施 – ダウンストリームタスクでの精度評価（貢献2） • 複数の標準的なデータセットで，元のデータ（clean text）でモデルを学習し，その後疑似的にエラーを生成したデータでどの程度モデ
ルのパフォーマンスが変化するかを調査 – Linguistic Acceptability Probing (貢献3) • 事前学習済encoderがどの程度誤り識別能力を獲得しているかを分析 – Cloze test for BERT（貢献3） • BERTのシングルマスクトークンの確率分布がエラーによってどのように変化するか分析

対象とするモデル • ELMo – 3層のLSTMを1Bで事前学習した言語モデル – 上記の層を固定して，さらに上に2層のBiLSTMとアテンションレイヤーを追加 • BERT
– Transformerベースの事前学習済言語モデル – 今回はbase(12層)を利用 • RoBERTa – BERTとモデル構造はほぼ同じ．BERTより多くのデータで学習され，dynamic maskingなどの事前学習の工夫が追加されている

• 対象とするタスク – 各モデルの元データでの精度は下記の通り評価1. ダウンストリームタスクでの評価

評価1. ダウンストリームタスクでの評価 • どの程度attackが成功したか？→大きいほどモデルが間違えている • 平均でみると，9単語の置き換えで約29%のattack成功率 • モデルやタスクによってattackの成功率は大きく異なる（ELMo > BERT
> RoBERTa）

どのエラータイプでattackが成功しやすいか？ • Wchoice (word choice error, synonyms), SVA (subject- verb
agreement error)が最も影響を与えた – タスクによってかなり変わりそう…

Attackの成功確率と置き換え率 • 事前学習データ数が多いほど，ノイズにも頑健？ – Electra [Clerk et al., ICLR2020]だとBERTから意味的に近い負例をサンプリングしながら事前学習するので，さらに頑健そう

評価2. Linguistic Acceptability Probing • この調査の目的 – Pre-trained encoderがどの程度エラーを特定できるか？（文レベル，単語レベルの双方で調査）
– 層ごとの違いもみるため，指定した層までのパラメータを固定して，その上に1層のself attention層と線形変換層を追加して学習し，エラー特定の精度を分析 encoder Self-attention Linear 1/0 (誤りを含むかどうか) Attnetionの重みが大きい上位2か所にエラーが含まれていれば，単語レベルでエラーを特定できたとみなす

結果 • 8~11層目あたりの中間層以上で精度が高かった • 0～2程度の低層では精度が低い • 上位の層でより広範
囲の情報を必要とするエラーの特定精度が高くなる傾向

Attention重みの例

おまけ：Adversarial Training • Greedy searchの方法で生成した疑似誤りを元データに追加して応用タスクでfinetuneをする • 追加する疑似データの量を変化させて分析 • 少量（20%程度）追加するだけでも，疑似誤りデータでの
正答率は大きく向上する

まとめ • 誤り訂正データに表れるエラーパタンとblack-box adversarial attackの手法を両方使って，文法誤りデータを疑似的に生成する手法を提案 • 疑似誤り混入文に対して，ダウンストリームタスクでモデルの頑健性を評価 •
モデルやタスクによって誤りに対する頑健性が異なることを確認→ 今回比較したモデルの中ではRoBERTaが頑健

snlp2020

snlp2020

kichi

More Decks by kichi

Featured

Transcript

2020/9/26 最先端NLP勉強会紹介者斉藤いつみ (ACL2020)

概要 • 疑似的に誤りを含む文を生成し，既存の事前学習済 encoderがどの程度頑健に動作するかを調査 • 現実のエラー分布と，adversarial attack手法の双方を利用したエラー文の自動生成手法を提案 • ELMo,

概要誤り訂正コーパストークンレベルエラーパタン誤り訂正コーパスから誤りパタン抽出 BERT ELMo RoBERTa 貢献1:

準備：NUCLEデータを用いたエラーパタン抽出 • NUCLEとは – 非英語母語話者の学生のエッセイにエラータグがつけられたコーパス – 59,800ペアの文ペア（平均約20単語） – 約6%の単語が誤り

使用するエラーの種類 • 頻出する8タイプを本論文では利用

Confusion setの生成 • トークンレベルで，あるトークンtiが別のトークンtjに置き換えられる確率wijを計算 http://web.cs.ucla.edu/~kwchang/documents/slides/yin2020robu stness_slide.pdf 著者のスライドより抜粋（下記）

生成手法1: probabilistic transformation • NUCLEのエラー頻度分布からサンプリング例文*)： Natural language processing has

生成手法1: probabilistic transformation step1. Berkeley syntactic parserで文を解析する https://parser.kitaev.io/

生成手法1: probabilistic transformation step2. エラータイプのサンプリング -> ArtOrDet (Article/Determiner errors)

生成手法1: probabilistic transformation step3. エラー箇所のサンプリング

生成手法1: probabilistic transformation step4.置きかえるトークンのサンプリング an

生成手法2: worst-case transformation • black-box adversarial attackの既存手法を適用 • 以下の3つの手法を用いている 1.

Greedy search step1. 文中のトークン全てに重要度スコアを付与する Step2. 重要度スコアが上位のトークンから順に，全ての置き換えパタン(confusion set)を適用し，最もモデルの結果を悪化させる候補で置き換える ->

Generic Algorithm • Step1: 現在の文sに対して，全ての可能な変換の中からps個の変換パタン集合Ptをサンプリングする – ランダムに単語位置と置き換え候補を選択するのをps回繰り返す • Step2:

貢献2,3: 評価 • 3種類の評価を実施 – ダウンストリームタスクでの精度評価（貢献2） • 複数の標準的なデータセットで，元のデータ（clean text）でモデルを学習し，その後疑似的にエラーを生成したデータでどの程度モデ

対象とするモデル • ELMo – 3層のLSTMを1Bで事前学習した言語モデル – 上記の層を固定して，さらに上に2層のBiLSTMとアテンションレイヤーを追加 • BERT

• 対象とするタスク – 各モデルの元データでの精度は下記の通り評価1. ダウンストリームタスクでの評価

どのエラータイプでattackが成功しやすいか？ • Wchoice (word choice error, synonyms), SVA (subject- verb

Attackの成功確率と置き換え率 • 事前学習データ数が多いほど，ノイズにも頑健？ – Electra [Clerk et al., ICLR2020]だとBERTから意味的に近い負例をサンプリングしながら事前学習するので，さらに頑健そう

評価2. Linguistic Acceptability Probing • この調査の目的 – Pre-trained encoderがどの程度エラーを特定できるか？（文レベル，単語レベルの双方で調査）

結果 • 8~11層目あたりの中間層以上で精度が高かった • 0～2程度の低層では精度が低い • 上位の層でより広範

Attention重みの例

おまけ：Adversarial Training • Greedy searchの方法で生成した疑似誤りを元データに追加して応用タスクでfinetuneをする • 追加する疑似データの量を変化させて分析 • 少量（20%程度）追加するだけでも，疑似誤りデータでの

まとめ • 誤り訂正データに表れるエラーパタンとblack-box adversarial attackの手法を両方使って，文法誤りデータを疑似的に生成する手法を提案 • 疑似誤り混入文に対して，ダウンストリームタスクでモデルの頑健性を評価 •