Slide 1

Slide 1 text

Complexity-Weighted Loss and Diverse Reranking for Sentence Simplification 文献紹介 (2019/04/23) 長岡技術科学大学 自然言語処理研究室 稲岡 夢人

Slide 2

Slide 2 text

Literature Title Complexity-Weighted Loss and Diverse Reranking for Sentence Simplification Author Reno Kriz, João Sedoc, Marianna Apidianaki, Carolina Zheng, Gaurav Kumar, Eleni Miltsakaki, Chris Callison-Burch Conference NAACL-HLT 2019 Paper URL https://arxiv.org/abs/1904.02767 2

Slide 3

Slide 3 text

Abstract •最近の研究はSeq2seqを平易化に用いている → 原文からコピーしがちになる → 出力が長く複雑になる •この論文では以下の手法を提案して問題を軽減 - 単語の複雑さを予測して損失関数に組み込む - 推論時に候補を複数生成してリランキング 3

Slide 4

Slide 4 text

Text Simplification •意味を保持して複雑さを軽減 → より幅広い読者がアクセスできるようになる •前処理に用いることで他タスクの性能が向上 (構文解析、機械翻訳など) 4

Slide 5

Slide 5 text

Seq2seq in TS •平易化は同一言語における機械翻訳とみなせる → 機械翻訳で用いられるSeq2seqモデルが利用可 •平易化における操作ではコピーが最も多い → Seq2seqモデルはコピーする頻度が高くなる → 参照文よりも長い出力を生成することが多い 5

Slide 6

Slide 6 text

Contributions •内容語の複雑さを考慮した損失関数を提案 •多様な出力から流暢性、意味保持性、平易さを 高めるようリランキングする手法の提案 •より多様な出力を生成するために、類似度の高い 候補を削除する手法の提案 6

Slide 7

Slide 7 text

Contributions •内容語の複雑さを考慮した損失関数を提案 •多様な出力から流暢性、意味保持性、平易さを 高めるようリランキングする手法の提案 •より多様な出力を生成するために、類似度の高い 候補を削除する手法の提案 7

Slide 8

Slide 8 text

•Complexity-Weighted Loss Function - Word Complexity Prediction - Loss Function •Reranking Diverse Candidates •Diverse Candidate Simplifications 8

Slide 9

Slide 9 text

Word Complexity Prediction •単語長さ、音節数、頻度、単語埋め込みで 線形回帰モデルを訓練 •5段階の平易さで書かれた1,480のニュース記事の Newselaコーパスを用いて単語の複雑さを付与 (4: 元の記事 ~ 0: 最も平易化された記事) 9

Slide 10

Slide 10 text

Word Complexity Prediction •Newselaにおける各レベルの頻度の比でラベリング • : 単語の複雑さレベル • : 単語がレベルで 出現する回数 10

Slide 11

Slide 11 text

Loss function •単語の複雑さで重み付けした 損失関数を提案 • : 語彙 • : 元の確率ベクトル •𝑠𝑠 : 単語の複雑さ • : ハイパーパラメータ 11

Slide 12

Slide 12 text

Reranking Diverse Candidates •流暢さ English Gigaword v.5を学習したKenLMで| 計算されるperplexity •意味保持性 入力と出力のParagraph Vectorのコサイン類似度 •平易さ 文複雑さ予測モデルの出力を利用 12

Slide 13

Slide 13 text

Complexity Prediction Model •文書分類で用いられる畳み込みニューラルネット ワーク(CNN)で文の複雑さを予測 •Newselaコーパスの複雑さレベルを予測させる 13

Slide 14

Slide 14 text

Reranking Diverse Candidates •𝑠𝑠𝑖𝑖 = 𝑖𝑖 + 𝑖𝑖 + 𝑖𝑖 •𝑖𝑖 , 𝑖𝑖 , 𝑖𝑖 : 流暢さ、意味保持性、平易さ •𝑖𝑖 , , : 各要素の重み 14

Slide 15

Slide 15 text

Diverse Candidate Simplifications •リランキングの候補を多様にするために ビームサーチのスコア修正手法を使用 •普通のビームサーチはビームサイズを大きくしても タイムステップとともに検索空間に支配的になる 15

Slide 16

Slide 16 text

Diverse Candidate Simplifications • −1 , ,′ = log 1 , … , −1 , ,′ − ′ ∗ •−1 : 時間 − 1における位の出力 • ,′ : −1 から出力される位のトークン •, ′ ∈ 1. . •はハイパーパラメータ 16

Slide 17

Slide 17 text

Diverse Candidate Simplifications Jiwei Li, Will Monroe, and Dan Jurafsky. A Simple, Fast Diverse Decoding Algorithm for Neural Generation. 2016. CoRR, abs/1611.08562. 17

Slide 18

Slide 18 text

Cluster Candidate Simplifications •デコード後の候補をParagraph Vectorによって クラスタリングして重心に近い候補を選択 •クラスタリングにより類似した文がグループ化され、 比較的異なる候補のみを考慮できる 18

Slide 19

Slide 19 text

Dataset •Newselaコーパスでモデルを学習 •Parallel Wikipedia Corpus(PWKP)を用いない ← Simple Wikipediaの文の50%は平易でないか 正しくアライメントされていない •Newselaから1レベルだけ離れたペアを除外 •train/dev/test = 94,208/1,129/1,077 19

Slide 20

Slide 20 text

Training Details •Sockeye (Seq2seq framework built on MXNet) •損失関数における重み = 2 •ビームサイズ = 100 •ビームサーチ時のペナルティ = 1.0 •候補選択時のクラスタサイズ = 20 •リランキング時の重み = = = 1 3 と = = 1 2 , = 0 20

Slide 21

Slide 21 text

Baselines •Hybrid 文分割と削除を行ってからPBMTを行う •DRESS 強化学習によって語彙平易化を統合したSeq2seq •DMASS Transformerの構造とPPDBを統合したSeq2seq 21

Slide 22

Slide 22 text

Models •S2S-Loss 複雑さの重み付けをした損失関数を利用 •S2S-FA 流暢性(F)と意味保持性(A)によるリランキングを利用 •S2S-Cluster-FA クラスタリングの後にFAでリランキング 22

Slide 23

Slide 23 text

Models •S2S-Diverse-FA 順位のペナルティを使用したビームサーチの後にFA でリランキング •S2S-All-FA 上の2つを両方用いてFAでリランキング •S2S-All-FAS 上の手法に平易さ(S)を加えてリランキング 23

Slide 24

Slide 24 text

Evaluation (Automatic Eval.) •SARI n-gram (1≦n≦4)を正しく保持、挿入、削除する 頻度を計算する •BLEUを用いない 文分割で平易さと負の相関が示されているため 24

Slide 25

Slide 25 text

Results (SARI) •既存のSoTAを上回る •リランキングとクラスタリング による改善が見られる •S2S-Diverse-FAでOracle SARI が向上している 25

Slide 26

Slide 26 text

Results (Other metrics) •最も短く、読解レベルが低い (Flesch-Kincaid grade level) •原文に多くの変更を加える (Translation Error Rate) 26

Slide 27

Slide 27 text

Results (Other metrics) •重み付け損失関数により 挿入操作が増加 •ClusterとDiverseが候補間の 編集距離を増加させる 27

Slide 28

Slide 28 text

Evaluation (Human Eval.) •SARIは流暢さと意味保持性で弱い相関しかない •SARIは単語レベルのみを考慮しているが、 文構造の平易さも考慮に入れる必要がある → 現状の自動評価手法には限界がある •Mturkによって200文を人手評価 28

Slide 29

Slide 29 text

Results (Human Eval.) •提案手法が実質的に最高性能である結果を示す •意味保持性はDRESSの方が高い → 提案手法の方が短い文を出力するため 29

Slide 30

Slide 30 text

Evaluation (Human Eval.) •文長が人手評価に与える影響を調査 •Original : S2S-All-FAの結果 •MATCH-Dress0 : DRESS-Lenに近い文を選択 •MATCH-Dress+2 : DRESS-Len +2 に近い文を選択 •MATCH-Dress-2 : DRESS-Len – 2 に近い文を選択 30

Slide 31

Slide 31 text

Results (Human Eval.) •Originalから文長を長くして いくと意味保持性が増加し、 平易さは減少していく •文長の増加で流暢性が低下 → ビームサーチで高順位の 文は流暢性が高い 31

Slide 32

Slide 32 text

Examples of Error Type •複数の句を含む長く複雑な文 Complex : Turkey has long enshrined the secular ideals of founding father Mustafa Kemal Ataturk, particularly in an education system that until recently banned Islamic headscarves in schools and made schoolchildren begin the day reciting an oath of allegiance to Ataturk’s legacy. Reference : Schools in Turkey had banned headscarves. Simple : They made schoolchildren to Ataturk’s history. 32

Slide 33

Slide 33 text

Examples of Error Type •訓練コーパスのアライメントミスによる訓練の混乱 Complex : He heard the applause. Reference : The winning word was “magician.” Simple : But he heard the song. 33

Slide 34

Slide 34 text

Examples of Error Type •照応解析が必要なもの Complex : He is the creative director of Rethink Leisure & Entertainment, which is working on several projects in China and elsewhere in Asia. Reference : He is with Rethink Leisure & Entertainment. Simple : He is working on several projects in China. 34

Slide 35

Slide 35 text

Examples of Error Type •文の誤った部分を平易化 Complex : His father owned the home when the lava flowed slowly to the coast. Reference : His father still owned the home. Simple : The river cut slowly to the coast. 35

Slide 36

Slide 36 text

Examples of Error Type •単語埋め込みの近さによる悪い換言 Complex : In Beijing kite circles, Fei is widely known as the elder statesman. Reference : In Beijing, Fei is widely known as an expert. Simple : In Beijing, Fei is considered a doctor. 36

Slide 37

Slide 37 text

Examples of Error Type •訓練にない許容できる平易化 Complex : He later tried to buy his freedom. Reference : Henson tried to buy his freedom later. Simple : The man tried to buy his freedom. 37

Slide 38

Slide 38 text

Error Discussion •Newselaコーパスのアライメントの改善が必要 •照応解析を行うために追加の文脈を使用 → これにより文分割の実施も学習できる •文の主要な部分が消されないようにするための 構文情報を使用 38

Slide 39

Slide 39 text

Conclusion •複雑さによる重み付き損失関数、 順位ペナルティとクラスタリングによる多様な出力、 流暢性と意味保持性によるリランキングを提案 •自動評価、人手評価によって優れていることを示す •意味保持性に対する長さの影響を分析 •モデルの現在の欠点を定性的に分析 •今後は個々の要求に応じた平易化が目標となる 39

Slide 40

Slide 40 text

40