Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
intro_paper_4.pdf
Search
MARUYAMA
April 24, 2017
0
81
intro_paper_4.pdf
MARUYAMA
April 24, 2017
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
200
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
210
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
190
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
180
20191028_literature-review.pdf
tmaru0204
0
160
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
150
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
180
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
160
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
180
Featured
See All Featured
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.2k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Thoughts on Productivity
jonyablonski
75
5.1k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.3k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
120
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
460
[SF Ruby Conf 2025] Rails X
palkan
2
860
What does AI have to do with Human Rights?
axbom
PRO
1
2.1k
Docker and Python
trallard
47
3.8k
A better future with KSS
kneath
240
18k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.5k
Transcript
Lexical Simplification with Neural Ranking 丸山 拓海 Gustavo Henrique Paetzold
and Lucia Specia EACL-2017, Vol.2, pp.34–40
1. 概要 ・ニューラルネットワークを用いた語彙平易化手法 ・Newsela corpus ・context-aware word embeddings model ・neural
regression model ・語彙平易化タスクでトップスコアのシステムを実現 ・従来手法よりも文法/意味エラーが少ない 2
2. はじめに ・語彙平易化(Lexical Simplification) : 難しい単語をより簡単なものに置き換える ・パイプライン ・難解語の識別 (Complex Word
Identification: CWI) ・置換候補の生成 (Substitution Generation: SG) ・置換候補の選択 (Substitution selection: SS) ・置換候補のランク付け(Substitution Ranking: SR) 3
3. 置換候補の生成 (SG) ・Newsela corpus ・context-aware word embeddings model ・単語アライメント
・フィルタリング (“同じ品詞タグを持たないもの”, “固有名詞”など) ・置換規則の一般化 : 難解語に対し、以下の条件を満たす3語を変換候補に追加 ・コサイン距離が近い ・品詞タグが同じ ・形態的な変化がない 4
4. 置換候補の選択 (SS) ・ Unsupervised Boundary Ranking SS : 文脈に適合しない置換候補を削除
5 Gustavo Henrique Paetzold and Lucia Specia. 2016. Unsupervised lexical simplification for non-native speakers. In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, pages 3761–3767. AAAI Press.
5. 置換候補のランク付け (SR) ・Regression : 候補1が候補2よりもどの程度平易かを表す値を生成 " , $ :候補語、
" , $ : ランク、():候補語の特徴量を与える関数 [(" ) ($ )]: " − $ 6
5. 置換候補のランク付け (SR) ・Ordering : 平易さのスコアを与えて、ランク付け 置換候補の集合のペア(, , - )
モデルによって推定された値(, , - ) ・ Confidence Check : tri-gram言語モデルを用いて、信頼性のチェック ターゲット語tの位置に置換候補語cを当てはめ、信頼性を比較する 7
6. 評価 ・置換候補の生成に対する評価 8
6. 評価 ・置換候補のランク付けに対する評価 TRank:ランキングの信頼性 (相関係数): 平易さの度合 9
6. 評価 ・フルパイプラインの評価 10 ・Accuracy : 最もランクの高い候補に置き換えられた割合 ・Precision: 最もランクの高い候補に置換または置換なしの割合
7. エラー分析 3A: 置換候補が生成されなかったもの 3B: より平易な候補が生成されないもの 4 : 置換により文の意味や文法を損なうもの 5
: 置換しても平易ではないもの 1 :エラーなし 2A: 複雑語が平易として分類 2B: 平易語が複雑として分類 11
8. まとめ ・ニューラルネットワークを用いた語彙平易化手法 ・Newsela corpus ・context-aware word embeddings model ・neural
regression model ・語彙平易化タスクでトップスコアのシステムを実現 ・従来手法よりも文法/意味エラーが少ない ・置換候補の生成 ・置換候補の選択 12