Upgrade to Pro — share decks privately, control downloads, hide ads and more …

intro_paper_2.pdf

MARUYAMA
March 29, 2017
54

 intro_paper_2.pdf

MARUYAMA

March 29, 2017
Tweet

Transcript

  1. Simple English Wikipedia: A New Text Simplification Task 丸山 拓海

    William Coster and David Kauchak. In Proceedings of ACL 2011, pp. 665 – 669
  2. 1 Abstract ・English WikipediaとSimple English Wikipediaから 平易化のためのデータセットを構築 ・コーパスの分析 ・フレーズベース機械翻訳(Moses)による平易化 ・Moses-Oracle:

    ベースラインよりBLEUが0.034改善可能 ・137,000文のデータセットを構築 ・Moses: ベースラインよりBLEUが0.005向上 (結果) 2
  3. 2 Introduction ・English wikipediaとSimple English Wikipediaから データセットを生成 ・Simple English Wikipedia

    子供や英語学習者を対象とし、平易な語彙と文法が用いられる 4
  4. 3 Simplification Corpus Generation ・段落のアライメントをとる ・タイトル ・ペアリング ・10,588記事(もとのEnglish Wikipedia 110K記事からの90%の減少)

    ・フィルタリング ・1行しか含まれていない記事のペアを削除 (スタブ、曖昧性回避のページ、Wikipediaに関するメタページ) (simpleが複数のnormalに割り当てられる場合もある) ・記事で利用可能な書式設定情報に基づいて段落を識別 ・simpleにおいてTF-IDF, コサイン類似度が閾値または 0.5を超えたnormalに対応付け 5
  5. 3 Simplification Corpus Generation ・段落ペアから文のペアを生成 (Barzilay and Elhadad, 2003) 動的計画法を用いて文アライメントを取る

    (, ): 番目のnormal文と番目のsimple文との類似度 (TF-IDF、コサイン類似度) _ = 0.0001 6
  6. 4 Corpus Analysis ・ normal文がどのようにsimple文に変換されるか GIZA++ を使って解析 Table2 文ペアにおける単語レベルの操作 rewordings

    : normal単語が別のsimple単語に変換 deletions : normal単語を削除 reorders : 並び替え merges : 複数のnormal単語が一つのsimple単語に結合 splits : normal単語が複数のsimple単語に分割 9