Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
intro_paper_2.pdf
Search
MARUYAMA
March 29, 2017
0
65
intro_paper_2.pdf
MARUYAMA
March 29, 2017
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
180
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
190
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
180
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
170
20191028_literature-review.pdf
tmaru0204
0
160
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
140
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
170
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
160
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
160
Featured
See All Featured
The Cost Of JavaScript in 2023
addyosmani
55
9k
How STYLIGHT went responsive
nonsquared
100
5.8k
Designing Experiences People Love
moore
142
24k
Designing for humans not robots
tammielis
254
26k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
253
22k
Side Projects
sachag
455
43k
Bash Introduction
62gerente
615
210k
Gamification - CAS2011
davidbonilla
81
5.5k
It's Worth the Effort
3n
187
28k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.5k
Building an army of robots
kneath
306
46k
Transcript
Simple English Wikipedia: A New Text Simplification Task 丸山 拓海
William Coster and David Kauchak. In Proceedings of ACL 2011, pp. 665 – 669
1 Abstract ・English WikipediaとSimple English Wikipediaから 平易化のためのデータセットを構築 ・コーパスの分析 ・フレーズベース機械翻訳(Moses)による平易化 ・Moses-Oracle:
ベースラインよりBLEUが0.034改善可能 ・137,000文のデータセットを構築 ・Moses: ベースラインよりBLEUが0.005向上 (結果) 2
2 Introduction ・テキストの平易化 幅広い読者がテキストリソースを利用可能に テキストの内容を保持しつつ、文の難しさを軽減する 機械翻訳や構文解析、要約の前処理に用いることで性能の向上 文を与えれば、語彙と文の構造がより単純な同等の文を生成する ・平易化の課題 データ数が少ない 3
2 Introduction ・English wikipediaとSimple English Wikipediaから データセットを生成 ・Simple English Wikipedia
子供や英語学習者を対象とし、平易な語彙と文法が用いられる 4
3 Simplification Corpus Generation ・段落のアライメントをとる ・タイトル ・ペアリング ・10,588記事(もとのEnglish Wikipedia 110K記事からの90%の減少)
・フィルタリング ・1行しか含まれていない記事のペアを削除 (スタブ、曖昧性回避のページ、Wikipediaに関するメタページ) (simpleが複数のnormalに割り当てられる場合もある) ・記事で利用可能な書式設定情報に基づいて段落を識別 ・simpleにおいてTF-IDF, コサイン類似度が閾値または 0.5を超えたnormalに対応付け 5
3 Simplification Corpus Generation ・段落ペアから文のペアを生成 (Barzilay and Elhadad, 2003) 動的計画法を用いて文アライメントを取る
(, ): 番目のnormal文と番目のsimple文との類似度 (TF-IDF、コサイン類似度) _ = 0.0001 6
4 Corpus Analysis ・137,000文から無作為に100文選び、 2人に正しく対応付けされているかを評価 91/100が正しいと判定(残り9文も部分的に一致) ・27%はsimpleとnormalの間で同じ文 ・類似度が0.75を超える文のみを使用して再び評価 98/100が正しいと判定 137,000文から90,000文に減少
・10,588記事のペアから137,000文のペアを抽出 全ての文を平易化する必要はない 7
4 Corpus Analysis ・ simpleの段落の65%は対応付けされていない ・アライメントが取れていない文が多い Table1 データセット生成時の文レベルのアライメント操作 ※データセットにおいて2対2のアライメントは存在しない 8
4 Corpus Analysis ・ normal文がどのようにsimple文に変換されるか GIZA++ を使って解析 Table2 文ペアにおける単語レベルの操作 rewordings
: normal単語が別のsimple単語に変換 deletions : normal単語を削除 reorders : 並び替え merges : 複数のnormal単語が一つのsimple単語に結合 splits : normal単語が複数のsimple単語に分割 9
5 Sentence-level Text Simplification ・テキスト平易化問題 英語から平易な英語への翻訳問題 ・フレーズベース機械翻訳(Moses) 124,000文のペアとn-gram言語モデルを使用 1300文対のテストデータに対して評価 平易化を行わないものをベースライン(NONE)とする
10
5 Sentence-level Text Simplification ・Moses-Oracle テスト文からBLEUが高い1000文のn-bestリストを生成 n-bestリストを使ってテスト 11
6 Conclusion ・Moses-Oracle: ベースラインよりBLEUが0.034改善可能 ・Moses: ベースラインよりBLEUが0.005向上 ・English WikipediaとSimple English Wikipediaから
137,000文のデータセットを構築 12