Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
intro_paper_4.pdf
Search
MARUYAMA
April 24, 2017
0
79
intro_paper_4.pdf
MARUYAMA
April 24, 2017
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
180
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
190
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
180
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
160
20191028_literature-review.pdf
tmaru0204
0
150
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
140
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
170
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
150
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
150
Featured
See All Featured
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3k
How STYLIGHT went responsive
nonsquared
100
5.8k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
530
The Language of Interfaces
destraynor
161
25k
Documentation Writing (for coders)
carmenintech
74
5k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.6k
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
Building Applications with DynamoDB
mza
96
6.6k
Transcript
Lexical Simplification with Neural Ranking 丸山 拓海 Gustavo Henrique Paetzold
and Lucia Specia EACL-2017, Vol.2, pp.34–40
1. 概要 ・ニューラルネットワークを用いた語彙平易化手法 ・Newsela corpus ・context-aware word embeddings model ・neural
regression model ・語彙平易化タスクでトップスコアのシステムを実現 ・従来手法よりも文法/意味エラーが少ない 2
2. はじめに ・語彙平易化(Lexical Simplification) : 難しい単語をより簡単なものに置き換える ・パイプライン ・難解語の識別 (Complex Word
Identification: CWI) ・置換候補の生成 (Substitution Generation: SG) ・置換候補の選択 (Substitution selection: SS) ・置換候補のランク付け(Substitution Ranking: SR) 3
3. 置換候補の生成 (SG) ・Newsela corpus ・context-aware word embeddings model ・単語アライメント
・フィルタリング (“同じ品詞タグを持たないもの”, “固有名詞”など) ・置換規則の一般化 : 難解語に対し、以下の条件を満たす3語を変換候補に追加 ・コサイン距離が近い ・品詞タグが同じ ・形態的な変化がない 4
4. 置換候補の選択 (SS) ・ Unsupervised Boundary Ranking SS : 文脈に適合しない置換候補を削除
5 Gustavo Henrique Paetzold and Lucia Specia. 2016. Unsupervised lexical simplification for non-native speakers. In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, pages 3761–3767. AAAI Press.
5. 置換候補のランク付け (SR) ・Regression : 候補1が候補2よりもどの程度平易かを表す値を生成 " , $ :候補語、
" , $ : ランク、():候補語の特徴量を与える関数 [(" ) ($ )]: " − $ 6
5. 置換候補のランク付け (SR) ・Ordering : 平易さのスコアを与えて、ランク付け 置換候補の集合のペア(, , - )
モデルによって推定された値(, , - ) ・ Confidence Check : tri-gram言語モデルを用いて、信頼性のチェック ターゲット語tの位置に置換候補語cを当てはめ、信頼性を比較する 7
6. 評価 ・置換候補の生成に対する評価 8
6. 評価 ・置換候補のランク付けに対する評価 TRank:ランキングの信頼性 (相関係数): 平易さの度合 9
6. 評価 ・フルパイプラインの評価 10 ・Accuracy : 最もランクの高い候補に置き換えられた割合 ・Precision: 最もランクの高い候補に置換または置換なしの割合
7. エラー分析 3A: 置換候補が生成されなかったもの 3B: より平易な候補が生成されないもの 4 : 置換により文の意味や文法を損なうもの 5
: 置換しても平易ではないもの 1 :エラーなし 2A: 複雑語が平易として分類 2B: 平易語が複雑として分類 11
8. まとめ ・ニューラルネットワークを用いた語彙平易化手法 ・Newsela corpus ・context-aware word embeddings model ・neural
regression model ・語彙平易化タスクでトップスコアのシステムを実現 ・従来手法よりも文法/意味エラーが少ない ・置換候補の生成 ・置換候補の選択 12