Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Building_a_Monolingual_Parallel_Corpus_for_Text_Simplification_Using

 Building_a_Monolingual_Parallel_Corpus_for_Text_Simplification_Using

文献紹介

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

June 22, 2017
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. Building a Monolingual Parallel Corpus for Text Simplification Using Sentence

    Similarity Based on Alignment between Word Embeddings Tomoyuki Kajiwara and Mamoru Komachi Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pages 1147–1158, Osaka, Japan, December 11-17 2016. 図、表などは論文中から引用しています。 1 自然言語処理研究室 B4 勝田 哲弘 2017/6/23
  2. 概要 • 単一言語の平易化コーパスの構築 ▫ 文の類似度を基に自動で構築する手法を提案 • 二つの実験を行いどちらとも既存の研究よりも 高い評価を得ることができた。 ▫ 類似度の評価

    ▫ SMTを用いたコーパスの評価 2
  3. 処理の流れ 3

  4. 文の類似度 • Average Alignment • Maximum Alignment • Hungarian Alignment

    ▫ Song and Roth(2015) • Word Mover’s Distance ▫ (Kusner et al., 2015) 4
  5. 文の類似度 • Average Alignment • Maximum Alignment 5

  6. 文の類似度 • Hungarian Alignment ▫ 完全2部グラフで最も類似度の高い組合わせ • Word Mover’s Distance

    ▫ 輸送問題ととらえた時の輸送コストを求める 6
  7. 実験 類似度の計算 • English WikiediaとSimple English Wikipediaの ラベル付けされたデータを分類する ▫ Hwang

    et al.(2015) ▫ Good(277), Good Partial(281), Partial(117), Bad(67178) • 分類 ▫ Goodとそれ以外 ▫ Good+Good Partialとそれ以外 7
  8. 結果 類似度の計算 8

  9. 結果 類似度の計算 9

  10. 結果 類似度の計算 10

  11. 実験 コーパス • Maximum Alignmentを使用してコーパス構築 ▫ 単語類似度 0.49以上 ▫ 文類似度

    0.53以上 に設定 • English WikiediaとSimple English Wikipedia ▫ タイトルの一致をとって126,725記事のペアを取 得 • 126,725記事から492,993文の対が得られた • フレーズベースのSMTを用いて学習 11
  12. 12

  13. 実験 コーパス • 学習 ▫ ランダムな500文をチューニングに使用 ▫ 残りをトレーニングデータ • 評価

    ▫ G(281)+GP(277)をデータセット ▫ BLEU 13
  14. 結果 コーパス 14

  15. 結果 コーパス 15

  16. まとめ • 自動で平易化コーパスを構築する方法を提案 • 平易化コーパスを低コストで構築可能 • 英語以外でも適用可能 16