論文紹介 / Decomposable Neural Paraphrase Generation

論⽂紹介 Decomposable Neural Paraphrase Generation Zichao Li, Xin Jiang, Lifeng
Shang, Qun Liu (Huawei Noahʼs Ark Lab) ACL 2019 紹介者: ⻄⽥京介 2019/09/28 @ 第11回最先端NLP勉強会 https://www.aclweb.org/anthology/P19-1332

• 何をする研究か︖ – ⽂（〜20 words）の⾔い換え（Paraphrasing） • 貢献は何か︖ – フレーズ，⽂に分解して⾔い換えを学習するモデル Decomposable
Neural Paraphrase Generator (DNPG) を提案 – Quora, WikiAnswersで実験しPointer-Generatorを上回る • 嬉しさは︖ J ⾔い換えの解釈性が⾼い J フレーズ，⽂レベルで⾔い換えを制御可能 J ドメイン適応できる J モデルがシンプル，⾔い換え以外にも転⽤できるかも K 精度は（⾃動評価だと）⼤幅には上がってはいない 2 概要

• ⾔い換えの結果を⽂とフレーズの各レベルの⾔い換えに分解して説明できる 3 嬉しさ(1): 解釈性が⾼い

• ⽂レベルのみ，フレーズレベルのみ，両⽅を考慮した⾔い換えの制御が可能 4 嬉しさ(2): 制御可能⼊⼒制御策出⼒

• 新ドメインのパラレルコーパスなしでドメイン適応 – ⾔い換えを⽂とフレーズレベルに分解したことで可能に 5 嬉しさ(3): ドメイン適応ソースドメインモデルターゲットドメイン
モデル学習転移適応 Question1 Who wrote the Winnie the Pooh books? What relieves a hangover? What are social networking sites used for? How do you say Santa Claus in Sweden? Say santa clause in sweden? Quora WikiAnswers この論⽂では事実上データセット＝ドメイン

6 モデル各単語に粒度（⽂／フレーズ）をラベリング（⽂構造の推定器）粒度毎に⾔い換え集約して出⼒

• ⼊⼒︓単語列 X = [x1, ..., xL] • 出⼒︓粒度ラベル列 Z
= [z1, ..., zL] ※ 実験では粒度は⽂／フレーズの2種類に限定 • 2層のLSTMでモデリング • GS: Gumbel-Softmax function （τ: 温度パラメータ） – 微分可能な⽅法で離散的なラベルz を得るために利⽤ 7 Separator

• ⼊⼒︓単語列 X，粒度ラベル列Z • 出⼒︓単語列Y • エンコーダデコーダを粒度z（⽂／フレーズ）毎に⽤意 • Transformerベース（Position
embeddingとアテンションに⼯夫） • デコーダにはコピー機構を導⼊ 8 Multi-granularity Encoder-Decoder

• フレーズレベルの位置エンコーディングは普通 • ⽂レベルの位置情報はフレーズレベルの単語数に依存させたくないので，位置posまでに出現した⽂レベル単語数を使う 9 ⼯夫1: Positional Encoding

• フレーズレベルはlocal（隣接3単語のみvisible） • ⽂レベルはglobal（全単語，ただし⽂レベル単語のみvisible） 10 ⼯夫2: アテンション時の単語可視性（効果⼤︕）フレーズレベル⽂レベル

• フレーズレベルのデコーダではコピー機構を導⼊ • モデルのキャパシティはフレーズレベル > ⽂レベル – 300次元，6ヘッド＞ 150次元，3ヘッド
– フレーズの⽅がlong-tailなので 11 ⼯夫3: キャパシティとコピー機構

• ⼊⼒︓各デコーダ出⼒ • 出⼒︓単語列Y • 各デコーダの出⼒単語のどちらを採⽤するかを各時刻で決定 12 Aggregator

• 粒度選択⽤のLSTMを⽤意して出⼒ 13 Aggregator c0 c1 z=0（フレーズ） v(t) v(t-1)

14 モデル（再掲）各単語に粒度（⽂／フレーズ）をラベリング（⽂構造の推定器）粒度毎に⾔い換え集約して出⼒

• 提案モデルは End-to-end に学習できるが，Separator と Aggregator のために単語の粒度ラベルに weak supervision z*
を与える • Loss を計算する際，λ は 1 から徐々に 0 に近づけていく（徐々にweak supervisionを無視する） 15 学習 End-to-end Separator Aggregator

• Weak supervision z* はパラフレーズコーパスを⽤いて学習したアラインメントモデルを利⽤ (Och and Ney, 2003)
• Most rare wordsを含んだフレーズのペア（1〜3個，ランダムに決定）に z* = 0（フレーズレベル）を割当，残りは z* = 1 （⽂レベル） 16 学習 z* = 1 1 1 1 1 0 0 0 z* = 1 1 0 0 0 0 1 Separator側のweak supervisionに利⽤ Aggregator側のweak supervisionに利⽤ Alignmentを取る

• 推定した各単語の粒度レベルを⽤いて⽂レベルの⾔い換えパターンを容易に抽出可能 • フレーズレベルのチャンクが複数ある場合，アテンションの値を⽤いて対応付け 17 嬉しさ(1)の実現︓解釈性（パターン抽出）

1. ⽂レベルのみ⾔い換え（フレーズを保存） – フレーズレベル Decoder（not Aggregator）のコピー機構で ρ =
1 に固定して実現 2. フレーズレベルのみ⾔い換え（⽂構造を保存） – ⼊⼒⽂の各単語の推定粒度が z = 1 ならそのまま出⼒， z = 0 ならフレーズレベル Decoder で⾔い換えを出⼒ 18 嬉しさ(2)の実現︓制御

• 前提︓ターゲットドメインの⾔い換えパラレルコーパスは与えられない状況（⼊⼒⽂はある） • 問題︓フレーズレベルはドメイン固有になりやすい → Separatorが上⼿く動かない • アプローチ︓⽂テンプレートの⾔語モデルに基づく報酬を強化学習で最⼤化
19 嬉しさ(3)の実現︓教師なしドメイン適応 What makes the second world war happen ↓ What makes $x happen のレベルならドメインに依存しない

1. ソースドメインで学習した Separator で抽出した⽂テンプレートから，LSTMでテンプレート⾔語モデルを学習 2. ターゲットドメインの Separator の出⼒から抽出した⽂テンプレートが⾔語モデルから得られる報酬が⾼くなるように
Separator を強化学習 20 テンプレート⾔語モデルによる報酬

• 従来⼿法を上回る精度が出たか︖ • 解釈性はどうか（正しくパターンを抽出できたか）︖ • 制御は上⼿くできたか︖ • ドメイン適応できたか︖ • 主観評価では⾔い換えの正しさはどうか︖
• モデルの⼯夫は効果があったか︖ 21 評価実験: Research Questions

• Quora (⼈⼿でアノテーション） • WikiAnswers（⾃動的に収集，ノイズ多い） • 20単語を超えるものは truncate • 語彙サイズ
8K （コピー機構があるため基本的な単語のみ，subwordは使わない） 22 データセット

• BLEU, ROUGE-1, 2, iBLEUで評価 • iBLEU (Sun and Zhou,
2012) は元⽂と同じ表現にペナルティ • 主観評価（⼿法間の相対評価，6名）も⼀部で実施 23 評価指標⾔い換えcとリファレンスrsの近さ⾔い換えcと元⽂sの近さ

• Quora，WikiAnswers の両⽅で，⾔い換えを粒度レベルで分解しない従来⼿法を上回る結果 • よりノイズの多い WikiAnswers で良い結果 24 従来⼿法を上回る精度が出るか︖

• 出⼒サンプルを提⽰して評価 25 解釈性はどうか︖

• 出⼒サンプルを提⽰して評価 26 制御は上⼿くできたか︖

• 出⼒サンプルを提⽰して評価 27 制御は上⼿くできたか︖

• ドメイン適応させた Adapted DNPG が最も良いスコア 28 ドメイン適応できるのか︖ ベースライン︓翻訳のmonolingual dataによる精度改善アプローチ MTL︓LMと⾔い換えのマルチタスク学習
(Domhan and Hieber, 2017) Shallow fusion: LMのスコアによるreranking (Gulcehre et al., 2015)

• ドメイン適応させた Adapted DNPG が最も良いスコア 29 ドメイン適応できるのか︖ ベースライン︓翻訳のmonolingual dataによる精度改善アプローチ MTL︓LMと⾔い換えのマルチタスク学習
(Domhan and Hieber, 2017) Shallow fusion: LMのスコアによるreranking (Gulcehre et al., 2015)

• WikiAnswers -> Quora で評価（4⼿法にランク付け）． – 基準: Readability -> Accuracy
-> Diversity [補助資料B] • ドメイン適応させることで Reference に近い順位を達成 • 6名のアノテータ間の⼀致率を計算 30 主観評価の結果はどうか︖

• WikiAnswers -> Quoraで実験 • Multi-Head Attention の⼯夫（local /
global）が効果⼤ • Positional Encoding, Gumbel Softmax の⼯夫も効果あり 31 モデルの⼯夫は効果があったか︖

• ⾔い換えにおいて3つ以上の粒度を考えることは性能改善につながるか︖ Lモデルは3つ以上でも動作するが実験は2つの場合のみ • End-to-end で精度良く学習できるのか︖Weak supervisionが必須︖ L実験は weak
supervision ありの場合のみ • 他タスクでも有効か︖対話では︖ 翻訳では︖QAでは︖ 要約では︖ L実験は⾔い換えのみ L 評価指標はどうしたらいいのだろう．．． 32 [感想] 知りたかったこと

• 今回は Pointer-Generator だった • Pre-training Sequence-to-sequenceモデルの台頭 – MASS [Song
et al., ICML’19] ※要約，翻訳，応答⽣成 – UniLM [Dong et al., Neurips’19] ※要約，読解，質問⽣成 – PoDA [Wang et al., EMNLP’19] ※要約 • ⾔い換え⽣成は上記の論⽂では評価されていないが，要約タスクの状況を⾒ると，きっと⾔い換えでも強いだろう 33 [感想] これからのベースラインは︖

• BEFTの直前，機械読解は⾔い換えによるデータ拡張が⾏われていた – QANet [Yu+, ICLR18] ※ backtranslation-base •
BERT世代に⼊って，downstream tasksでの data augmentationをあまり⽬にしていない気がする – もはや増やす必要がない︖ – 実は相性が悪い︖ – そこを頑張るよりも⾔語モデルに学習させるテキスト量を増やすほうが良い︖ 34 [感想] data augmentationのための⾔い換え︖

• 何をする研究か︖ – ⽂（〜20 words）の⾔い換え（Paraphrasing） • 貢献は何か︖ – フレーズ，⽂に分解して⾔い換えを学習するモデル Decomposable
Neural Paraphrase Generator (DNPG) を提案 – Quora, WikiAnswersで実験しPointer-Generatorを上回る • 嬉しさは︖ J ⾔い換えの解釈性が⾼い J フレーズ，⽂レベルで⾔い換えを制御可能 J ドメイン適応できる J モデルがシンプル，⾔い換え以外にも転⽤できるかも K ⾃動評価精度は⼤幅には上がってはいない 35 まとめ

論文紹介 / Decomposable Neural Paraphrase Generation

論文紹介 / Decomposable Neural Paraphrase Generation

Kyosuke Nishida

More Decks by Kyosuke Nishida

Other Decks in Research

Featured

Transcript

論⽂紹介 Decomposable Neural Paraphrase Generation Zichao Li, Xin Jiang, Lifeng

• 何をする研究か︖ – ⽂（〜20 words）の⾔い換え（Paraphrasing） • 貢献は何か︖ – フレーズ，⽂に分解して⾔い換えを学習するモデル Decomposable

• ⾔い換えの結果を⽂とフレーズの各レベルの⾔い換えに分解して説明できる 3 嬉しさ(1): 解釈性が⾼い

• ⽂レベルのみ，フレーズレベルのみ，両⽅を考慮した⾔い換えの制御が可能 4 嬉しさ(2): 制御可能⼊⼒制御策出⼒

• 新ドメインのパラレルコーパスなしでドメイン適応 – ⾔い換えを⽂とフレーズレベルに分解したことで可能に 5 嬉しさ(3): ドメイン適応ソースドメインモデルターゲットドメイン

6 モデル各単語に粒度（⽂／フレーズ）をラベリング（⽂構造の推定器）粒度毎に⾔い換え集約して出⼒

• ⼊⼒︓単語列 X = [x1, ..., xL] • 出⼒︓粒度ラベル列 Z

• ⼊⼒︓単語列 X，粒度ラベル列Z • 出⼒︓単語列Y • エンコーダデコーダを粒度z（⽂／フレーズ）毎に⽤意 • Transformerベース（Position

• フレーズレベルの位置エンコーディングは普通 • ⽂レベルの位置情報はフレーズレベルの単語数に依存させたくないので，位置posまでに出現した⽂レベル単語数を使う 9 ⼯夫1: Positional Encoding

• フレーズレベルはlocal（隣接3単語のみvisible） • ⽂レベルはglobal（全単語，ただし⽂レベル単語のみvisible） 10 ⼯夫2: アテンション時の単語可視性（効果⼤︕）フレーズレベル⽂レベル

• フレーズレベルのデコーダではコピー機構を導⼊ • モデルのキャパシティはフレーズレベル > ⽂レベル – 300次元，6ヘッド＞ 150次元，3ヘッド

• ⼊⼒︓各デコーダ出⼒ • 出⼒︓単語列Y • 各デコーダの出⼒単語のどちらを採⽤するかを各時刻で決定 12 Aggregator

• 粒度選択⽤のLSTMを⽤意して出⼒ 13 Aggregator c0 c1 z=0（フレーズ） v(t) v(t-1)

14 モデル（再掲）各単語に粒度（⽂／フレーズ）をラベリング（⽂構造の推定器）粒度毎に⾔い換え集約して出⼒

• 提案モデルは End-to-end に学習できるが，Separator と Aggregator のために単語の粒度ラベルに weak supervision z*

• Weak supervision z* はパラフレーズコーパスを⽤いて学習したアラインメントモデルを利⽤ (Och and Ney, 2003)

• 推定した各単語の粒度レベルを⽤いて⽂レベルの⾔い換えパターンを容易に抽出可能 • フレーズレベルのチャンクが複数ある場合，アテンションの値を⽤いて対応付け 17 嬉しさ(1)の実現︓解釈性（パターン抽出）

1. ⽂レベルのみ⾔い換え（フレーズを保存） – フレーズレベル Decoder（not Aggregator）のコピー機構で ρ =

• 従来⼿法を上回る精度が出たか︖ • 解釈性はどうか（正しくパターンを抽出できたか）︖ • 制御は上⼿くできたか︖ • ドメイン適応できたか︖ • 主観評価では⾔い換えの正しさはどうか︖

• Quora (⼈⼿でアノテーション） • WikiAnswers（⾃動的に収集，ノイズ多い） • 20単語を超えるものは truncate • 語彙サイズ

• BLEU, ROUGE-1, 2, iBLEUで評価 • iBLEU (Sun and Zhou,

• Quora，WikiAnswers の両⽅で，⾔い換えを粒度レベルで分解しない従来⼿法を上回る結果 • よりノイズの多い WikiAnswers で良い結果 24 従来⼿法を上回る精度が出るか︖

• 出⼒サンプルを提⽰して評価 25 解釈性はどうか︖

• 出⼒サンプルを提⽰して評価 26 制御は上⼿くできたか︖

• 出⼒サンプルを提⽰して評価 27 制御は上⼿くできたか︖

• ドメイン適応させた Adapted DNPG が最も良いスコア 28 ドメイン適応できるのか︖ ベースライン︓翻訳のmonolingual dataによる精度改善アプローチ MTL︓LMと⾔い換えのマルチタスク学習

• ドメイン適応させた Adapted DNPG が最も良いスコア 29 ドメイン適応できるのか︖ ベースライン︓翻訳のmonolingual dataによる精度改善アプローチ MTL︓LMと⾔い換えのマルチタスク学習

• WikiAnswers -> Quora で評価（4⼿法にランク付け）． – 基準: Readability -> Accuracy

• WikiAnswers -> Quoraで実験 • Multi-Head Attention の⼯夫（local /

• ⾔い換えにおいて3つ以上の粒度を考えることは性能改善につながるか︖ Lモデルは3つ以上でも動作するが実験は2つの場合のみ • End-to-end で精度良く学習できるのか︖Weak supervisionが必須︖ L実験は weak

• 今回は Pointer-Generator だった • Pre-training Sequence-to-sequenceモデルの台頭 – MASS [Song

• BEFTの直前，機械読解は⾔い換えによるデータ拡張が⾏われていた – QANet [Yu+, ICLR18] ※ backtranslation-base •

• 何をする研究か︖ – ⽂（〜20 words）の⾔い換え（Paraphrasing） • 貢献は何か︖ – フレーズ，⽂に分解して⾔い換えを学習するモデル Decomposable