intro-paper_0928.pdf

Sentence Alignment Methods for Improving Text Simplification Systems Sanja ˇStajner,
Marc Franco-Salvador, Simone Paolo Ponzetto, Paolo Rosso, Heiner Stuckenschmidt Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Short Papers), pages 97–102, July 30 - August 4, 2017. B4 丸⼭拓海

概要 Ø アライメント⼿法の提案 Ø 提案⼿法により、Newsela コーパスの⽂アライメントをとり、平易化のためのデータセットを構築 Ø 新たに構築されたデータセットを⽤いること
で、標準的なPB-SMTモデルでも、最先端の平易化システムを上回る 1

はじめに Ø 既存の平易化システムでは、⼊⼒⽂をほとんど変更しない Ø Newsela コーパス • EW-SEW (wiki)
コーパスよりも品質が⾼い • 原テキスト(Level 0)に対して、4段階の平易化テキスト (Level 1 - 4) • ⽂ (段落) のアライメントが不⼗分であるため, end- to-end のシステムには利⽤されていない平易化コーパスのサイズや品質が問題 2

はじめに Øいくつかのアライメント⼿法の提案と⽐較 Ø 貢献 • Lexically-basedとSemantically-basedのアライメント⼿法を⽐較 • 「⼿作業による平易化において、元のテキストの順序が保持される」という仮説を検証
• 標準的なPB-SMTモデルでも、新しいアライメント⼿法により、最先端の平易化システムに繋がる 3

⼿法 Øアライメント⼿法 • Most Similar Text (MST) • MST with
Longest Increasing Sequence (MST- LIS) Ø 類似度計算⼿法 • Character 3-Gram (C3G) • WAVG • Continuous Word Alignment-based Similarity Analysis (CWASA) 4

Øアライメント⼿法 • Most Similar Text (MST) • MST with Longest
Increasing Sequence (MST- LIS) ⽂間類似度を計算し, 平易⽂を最も近い難解⽂と対応付ける MSTに 1-n対応(⽂分割)の処理を追加仮説平易化テキストは、原テキストの情報(順序)を保持している 5 ⼿法

Ø類似度計算⼿法 • Character 3-Gram (C3G) [Lexically-based] • WAVG [Semantically-based] •
Continuous Word Alignment-based Similarity Analysis (CWASA) [Semantically-based] TF – IDFによる重み付け Wikipediaからskip-gramにより, 単語の分散表現を獲得単語ベクトルの平均を⽂ベクトルとする全ての単語のコサイン類似度を計算することで, 最適なアライメントを⾒つける 6 ⼿法

評価 ØNewselaコーパスからランダムに10テキスト選択 (Level 0, 1, 3, 4)に6種類の⼿法を適⽤し⽐較 Ø ⼈⼿評価
• 3つのペア(0-1, 0-4, 3-4)に対し、2⼈のアノテータにより3段階の評価 0 : 意味的に全く⼀致しない 1 : 部分的に⼀致する (partial matches) 2 : 同じ意味である (good matches) 7

評価 * : MST-LISによるアライメント C3G-2s : Paragraphによるアライメントを取った後に、sentenceのアライメント 8

評価 Ø PB-SMTを利⽤した評価 • Training data • Tuning data, Test
data 9 (1) EW-SEW (wiki) (2) Newsela (neighboring levels, C3G-2s) + Wiki (3) Newsela (all levels, C3G-2s) + Wiki (4) Newsela (neighboring levels, HMM) + Wiki Amazon Mechanical Turkによって得られた8つの参照⽂をもつデータセット

評価 Ø 機械翻訳を利⽤した評価 • Correctness and Number of Changes •
Grammaticality (G) and Meaning Preservation (M) − 1 〜 5の5段階でスコア付け • Simplicity of sentences (S) − -2 〜 +2の5段階でスコア付け 10

まとめ Ø ⽂(段落)のアライメント⼿法の提案 ØLevel 0-4のアライメントでは、Semantically- based(WAVG, CWASA)よりもLexically-based(C3G, C3G-2s)の⽅が優れている Ø新たなデータセットを加えることで標準的な PB-SMTモデルでも、最先端の平易化システムを
上回る 11

intro-paper_0928.pdf

intro-paper_0928.pdf

MARUYAMA

More Decks by MARUYAMA

Featured

Transcript

Sentence Alignment Methods for Improving Text Simplification Systems Sanja ˇStajner,

概要 Ø アライメント⼿法の提案 Ø 提案⼿法により、Newsela コーパスの⽂アライメントをとり、平易化のためのデータセットを構築 Ø 新たに構築されたデータセットを⽤いること

はじめに Ø 既存の平易化システムでは、⼊⼒⽂をほとんど変更しない Ø Newsela コーパス • EW-SEW (wiki)

はじめに Øいくつかのアライメント⼿法の提案と⽐較 Ø 貢献 • Lexically-basedとSemantically-basedのアライメント⼿法を⽐較 • 「⼿作業による平易化において、元のテキストの順序が保持される」という仮説を検証

⼿法 Øアライメント⼿法 • Most Similar Text (MST) • MST with

Øアライメント⼿法 • Most Similar Text (MST) • MST with Longest

Ø類似度計算⼿法 • Character 3-Gram (C3G) [Lexically-based] • WAVG [Semantically-based] •

評価 ØNewselaコーパスからランダムに10テキスト選択 (Level 0, 1, 3, 4)に6種類の⼿法を適⽤し⽐較 Ø ⼈⼿評価

評価 * : MST-LISによるアライメント C3G-2s : Paragraphによるアライメントを取った後に、sentenceのアライメント 8

評価 Ø PB-SMTを利⽤した評価 • Training data • Tuning data, Test

評価 Ø 機械翻訳を利⽤した評価 • Correctness and Number of Changes •