intro-paper_0928.pdf

A3ea3bc5dde6ae2dd6eae71da9c418b0?s=47 MARUYAMA
September 25, 2017
120

 intro-paper_0928.pdf

A3ea3bc5dde6ae2dd6eae71da9c418b0?s=128

MARUYAMA

September 25, 2017
Tweet

Transcript

  1. Sentence Alignment Methods for Improving Text Simplification Systems Sanja ˇStajner,

    Marc Franco-Salvador, Simone Paolo Ponzetto, Paolo Rosso, Heiner Stuckenschmidt Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Short Papers), pages 97–102, July 30 - August 4, 2017. B4 丸⼭ 拓海
  2. 概要 Ø アライメント⼿法の提案 Ø 提案⼿法により、Newsela コーパスの⽂アライ メントをとり、平易化のためのデータセットを 構築 Ø 新たに構築されたデータセットを⽤いること

    で、標準的なPB-SMTモデルでも、最先端の平易 化システムを上回る 1
  3. はじめに Ø 既存の平易化システムでは、⼊⼒⽂をほとん ど変更しない Ø Newsela コーパス • EW-SEW (wiki)

    コーパスよりも品質が⾼い • 原テキスト(Level 0)に対して、4段階の平易化テキス ト (Level 1 - 4) • ⽂ (段落) のアライメントが不⼗分であるため, end- to-end のシステムには利⽤されていない 平易化コーパスのサイズや品質が問題 2
  4. はじめに Øいくつかのアライメント⼿法の提案と⽐較 Ø 貢献 • Lexically-basedとSemantically-basedのアライメント⼿ 法を⽐較 • 「⼿作業による平易化において、元のテキストの順 序が保持される」という仮説を検証

    • 標準的なPB-SMTモデルでも、新しいアライメント ⼿法により、 最先端の平易化システムに繋がる 3
  5. ⼿法 Øアライメント⼿法 • Most Similar Text (MST) • MST with

    Longest Increasing Sequence (MST- LIS) Ø 類似度計算⼿法 • Character 3-Gram (C3G) • WAVG • Continuous Word Alignment-based Similarity Analysis (CWASA) 4
  6. Øアライメント⼿法 • Most Similar Text (MST) • MST with Longest

    Increasing Sequence (MST- LIS) ⽂間類似度を計算し, 平易⽂を最も近い難解⽂と対応 付ける MSTに 1-n対応(⽂分割)の処理を追加 仮説 平易化テキストは、原テキストの情報(順序)を保持し ている 5 ⼿法
  7. Ø類似度計算⼿法 • Character 3-Gram (C3G) [Lexically-based] • WAVG [Semantically-based] •

    Continuous Word Alignment-based Similarity Analysis (CWASA) [Semantically-based] TF – IDFによる重み付け Wikipediaからskip-gramにより, 単語の分散表現を獲得 単語ベクトルの平均を⽂ベクトルとする 全ての単語のコサイン類似度を計算することで, 最適な アライメントを⾒つける 6 ⼿法
  8. 評価 ØNewselaコーパスからランダムに10テキスト選 択 (Level 0, 1, 3, 4)に6種類の⼿法を適⽤し⽐較 Ø ⼈⼿評価

    • 3つのペア(0-1, 0-4, 3-4)に対し、2⼈のアノテータに より3段階の評価 0 : 意味的に全く⼀致しない 1 : 部分的に⼀致する (partial matches) 2 : 同じ意味である (good matches) 7
  9. 評価 * : MST-LISによるアライメント C3G-2s : Paragraphによるアライメントを取った後に、sentenceのアライメント 8

  10. 評価 Ø PB-SMTを利⽤した評価 • Training data • Tuning data, Test

    data 9 (1) EW-SEW (wiki) (2) Newsela (neighboring levels, C3G-2s) + Wiki (3) Newsela (all levels, C3G-2s) + Wiki (4) Newsela (neighboring levels, HMM) + Wiki Amazon Mechanical Turkによって得られた8つの参照⽂ をもつデータセット
  11. 評価 Ø 機械翻訳を利⽤した評価 • Correctness and Number of Changes •

    Grammaticality (G) and Meaning Preservation (M) − 1 〜 5の5段階でスコア付け • Simplicity of sentences (S) − -2 〜 +2の5段階でスコア付け 10
  12. まとめ Ø ⽂(段落)のアライメント⼿法の提案 ØLevel 0-4のアライメントでは、Semantically- based(WAVG, CWASA)よりもLexically-based(C3G, C3G-2s)の⽅が優れている Ø新たなデータセットを加えることで標準的な PB-SMTモデルでも、最先端の平易化システムを

    上回る 11
  13. None