intro_paper_0829.pdf

Exploring Neural Text Simplification Models S. Nisioi, S. Štajner, S.
P. Ponzetto, and L. P. Dinu Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, pp. 85–91, 2017. B4 丸⼭拓海

Abstract Ø ニューラル機械翻訳を利⽤した平易化 (Neural Text Simplification; NTS) Ø 既存の⾃動平易化システムと異なる点 •
「語彙平易化」と「内容の削減」を同時に実⾏ Ø⼈⼿評価 • 「⽂法」と「意味保持性」で⾼いスコア • State-of-the-artな平易化システムよりも⾼いレベルの平易化が可能 2

Introduction Ø seq2seq modelは様々な分野で成功している Ø これまでの平易化の試み • Phrase-Based SMT (PBSMT)
• Lexical simplification (LS) ØNMT, PBSMT, LS Systemの3つを⽐較 3 seq2seq model を⽤いた⾃動平易化は⾏われていない

Neural Text Simplification Ø NTS • OpenNMT を利⽤ ØNTS-w2v •
Word EmbeddingをGoogle News Corpusを⽤いて事前に学習 ØBeam Search • Beam sizeが5-12のそれぞれの場合に、候補を2つ⽣成 • BLEU, SARIにより最良なモデルを選択 4 Encoder: 原⽂ + Google News Corpus で学習 Decoder: 平易⽂ + Google News Corpus で学習

Dataset Ø Training data • English Wikipedia と Simple English
Wikipediaを対応付けしたデータセット(EW-SEW dataset) • 適切に対応付いている280K⽂のみ利⽤ (150K full matches and 130K partial matches) • トークン数と固有表現 5

Dataset 6

Dataset Ø Tuning data and Test data • Amazon Mechanical
Turkによって得られた8つの参照⽂をもつデータセット 7 Tuning data: 2,000⽂ Test data: 70⽂

Evaluation Ø Human Evaluation • 70⽂を3⼈により評価に利⽤ − Correctness and Number
of Changes 句単位で「１つの変更」と数える − Grammaticality (G) and Meaning Preservation (M) 1 – 5の5段階でスコア付け 1: very bad 5: very good − Simplicity of sentences 平易化された度合いを -2 - +2の5段階で評価 -2: 参照⽂に⽐べ、より難しい⽂に変更されている +2: 参照⽂に⽐べ、より平易な⽂に変更されている 8

Result 9

Result 10

Conclusions Ø ニューラル機械翻訳を利⽤した平易化モデルの提案 Ø 既存のシステムよりも正確かつ平易に変換できる Ø 「語彙平易化」と「内容の削減」を同時実⾏ 11

Result

intro_paper_0829.pdf

intro_paper_0829.pdf

MARUYAMA

More Decks by MARUYAMA

Featured

Transcript

Exploring Neural Text Simplification Models S. Nisioi, S. Štajner, S.

Abstract Ø ニューラル機械翻訳を利⽤した平易化 (Neural Text Simplification; NTS) Ø 既存の⾃動平易化システムと異なる点 •

Introduction Ø seq2seq modelは様々な分野で成功している Ø これまでの平易化の試み • Phrase-Based SMT (PBSMT)

Neural Text Simplification Ø NTS • OpenNMT を利⽤ ØNTS-w2v •

Dataset Ø Training data • English Wikipedia と Simple English

Dataset 6

Dataset Ø Tuning data and Test data • Amazon Mechanical

Evaluation Ø Human Evaluation • 70⽂を3⼈により評価に利⽤ − Correctness and Number

Result 9

Result 10

Conclusions Ø ニューラル機械翻訳を利⽤した平易化モデルの提案 Ø 既存のシステムよりも正確かつ平易に変換できる Ø 「語彙平易化」と「内容の削減」を同時実⾏ 11

Result