intro_paper_2.pdf

Simple English Wikipedia: A New Text Simplification Task 丸山拓海
William Coster and David Kauchak. In Proceedings of ACL 2011, pp. 665 – 669

1 Abstract ・English WikipediaとSimple English Wikipediaから平易化のためのデータセットを構築・コーパスの分析・フレーズベース機械翻訳(Moses)による平易化・Moses-Oracle:
ベースラインよりBLEUが0.034改善可能・137,000文のデータセットを構築・Moses: ベースラインよりBLEUが0.005向上 (結果) 2

2 Introduction ・テキストの平易化幅広い読者がテキストリソースを利用可能にテキストの内容を保持しつつ、文の難しさを軽減する機械翻訳や構文解析、要約の前処理に用いることで性能の向上文を与えれば、語彙と文の構造がより単純な同等の文を生成する・平易化の課題データ数が少ない 3

2 Introduction ・English wikipediaとSimple English Wikipediaからデータセットを生成・Simple English Wikipedia
子供や英語学習者を対象とし、平易な語彙と文法が用いられる 4

3 Simplification Corpus Generation ・段落のアライメントをとる・タイトル・ペアリング・10,588記事(もとのEnglish Wikipedia 110K記事からの90％の減少)
・フィルタリング・1行しか含まれていない記事のペアを削除 (スタブ、曖昧性回避のページ、Wikipediaに関するメタページ) （simpleが複数のnormalに割り当てられる場合もある) ・記事で利用可能な書式設定情報に基づいて段落を識別・simpleにおいてTF-IDF, コサイン類似度が閾値または 0.5を超えたnormalに対応付け 5

3 Simplification Corpus Generation ・段落ペアから文のペアを生成 (Barzilay and Elhadad, 2003) 動的計画法を用いて文アライメントを取る
(, )：番目のnormal文と番目のsimple文との類似度 (TF-IDF、コサイン類似度) _ = 0.0001 6

4 Corpus Analysis ・137,000文から無作為に100文選び、 2人に正しく対応付けされているかを評価 91/100が正しいと判定（残り9文も部分的に一致) ・27%はsimpleとnormalの間で同じ文・類似度が0.75を超える文のみを使用して再び評価 98/100が正しいと判定 137,000文から90,000文に減少
・10,588記事のペアから137,000文のペアを抽出全ての文を平易化する必要はない 7

4 Corpus Analysis ・ simpleの段落の65%は対応付けされていない・アライメントが取れていない文が多い Table1 データセット生成時の文レベルのアライメント操作 ※データセットにおいて2対2のアライメントは存在しない 8

4 Corpus Analysis ・ normal文がどのようにsimple文に変換されるか GIZA++ を使って解析 Table2 文ペアにおける単語レベルの操作 rewordings
: normal単語が別のsimple単語に変換 deletions : normal単語を削除 reorders : 並び替え merges : 複数のnormal単語が一つのsimple単語に結合 splits : normal単語が複数のsimple単語に分割 9

5 Sentence-level Text Simplification ・テキスト平易化問題英語から平易な英語への翻訳問題・フレーズベース機械翻訳(Moses) 124,000文のペアとn-gram言語モデルを使用 1300文対のテストデータに対して評価平易化を行わないものをベースライン(NONE)とする
10

5 Sentence-level Text Simplification ・Moses-Oracle テスト文からBLEUが高い1000文のn-bestリストを生成 n-bestリストを使ってテスト 11

6 Conclusion ・Moses-Oracle: ベースラインよりBLEUが0.034改善可能・Moses: ベースラインよりBLEUが0.005向上・English WikipediaとSimple English Wikipediaから
137,000文のデータセットを構築 12

intro_paper_2.pdf

intro_paper_2.pdf

MARUYAMA

More Decks by MARUYAMA

Featured

Transcript

Simple English Wikipedia: A New Text Simplification Task 丸山拓海

1 Abstract ・English WikipediaとSimple English Wikipediaから平易化のためのデータセットを構築・コーパスの分析・フレーズベース機械翻訳(Moses)による平易化・Moses-Oracle:

2 Introduction ・English wikipediaとSimple English Wikipediaからデータセットを生成・Simple English Wikipedia

3 Simplification Corpus Generation ・段落のアライメントをとる・タイトル・ペアリング・10,588記事(もとのEnglish Wikipedia 110K記事からの90％の減少)

3 Simplification Corpus Generation ・段落ペアから文のペアを生成 (Barzilay and Elhadad, 2003) 動的計画法を用いて文アライメントを取る

4 Corpus Analysis ・ simpleの段落の65%は対応付けされていない・アライメントが取れていない文が多い Table1 データセット生成時の文レベルのアライメント操作 ※データセットにおいて2対2のアライメントは存在しない 8

4 Corpus Analysis ・ normal文がどのようにsimple文に変換されるか GIZA++ を使って解析 Table2 文ペアにおける単語レベルの操作 rewordings

5 Sentence-level Text Simplification ・Moses-Oracle テスト文からBLEUが高い1000文のn-bestリストを生成 n-bestリストを使ってテスト 11

6 Conclusion ・Moses-Oracle: ベースラインよりBLEUが0.034改善可能・Moses: ベースラインよりBLEUが0.005向上・English WikipediaとSimple English Wikipediaから