Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
intro_paper_4.pdf
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
MARUYAMA
April 24, 2017
0
80
intro_paper_4.pdf
MARUYAMA
April 24, 2017
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
190
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
200
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
190
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
180
20191028_literature-review.pdf
tmaru0204
0
160
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
150
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
180
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
160
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
170
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.9k
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
250
Art, The Web, and Tiny UX
lynnandtonic
304
21k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.9k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
76
Writing Fast Ruby
sferik
630
62k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
830
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
1
440
WENDY [Excerpt]
tessaabrams
9
36k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.7k
Transcript
Lexical Simplification with Neural Ranking 丸山 拓海 Gustavo Henrique Paetzold
and Lucia Specia EACL-2017, Vol.2, pp.34–40
1. 概要 ・ニューラルネットワークを用いた語彙平易化手法 ・Newsela corpus ・context-aware word embeddings model ・neural
regression model ・語彙平易化タスクでトップスコアのシステムを実現 ・従来手法よりも文法/意味エラーが少ない 2
2. はじめに ・語彙平易化(Lexical Simplification) : 難しい単語をより簡単なものに置き換える ・パイプライン ・難解語の識別 (Complex Word
Identification: CWI) ・置換候補の生成 (Substitution Generation: SG) ・置換候補の選択 (Substitution selection: SS) ・置換候補のランク付け(Substitution Ranking: SR) 3
3. 置換候補の生成 (SG) ・Newsela corpus ・context-aware word embeddings model ・単語アライメント
・フィルタリング (“同じ品詞タグを持たないもの”, “固有名詞”など) ・置換規則の一般化 : 難解語に対し、以下の条件を満たす3語を変換候補に追加 ・コサイン距離が近い ・品詞タグが同じ ・形態的な変化がない 4
4. 置換候補の選択 (SS) ・ Unsupervised Boundary Ranking SS : 文脈に適合しない置換候補を削除
5 Gustavo Henrique Paetzold and Lucia Specia. 2016. Unsupervised lexical simplification for non-native speakers. In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, pages 3761–3767. AAAI Press.
5. 置換候補のランク付け (SR) ・Regression : 候補1が候補2よりもどの程度平易かを表す値を生成 " , $ :候補語、
" , $ : ランク、():候補語の特徴量を与える関数 [(" ) ($ )]: " − $ 6
5. 置換候補のランク付け (SR) ・Ordering : 平易さのスコアを与えて、ランク付け 置換候補の集合のペア(, , - )
モデルによって推定された値(, , - ) ・ Confidence Check : tri-gram言語モデルを用いて、信頼性のチェック ターゲット語tの位置に置換候補語cを当てはめ、信頼性を比較する 7
6. 評価 ・置換候補の生成に対する評価 8
6. 評価 ・置換候補のランク付けに対する評価 TRank:ランキングの信頼性 (相関係数): 平易さの度合 9
6. 評価 ・フルパイプラインの評価 10 ・Accuracy : 最もランクの高い候補に置き換えられた割合 ・Precision: 最もランクの高い候補に置換または置換なしの割合
7. エラー分析 3A: 置換候補が生成されなかったもの 3B: より平易な候補が生成されないもの 4 : 置換により文の意味や文法を損なうもの 5
: 置換しても平易ではないもの 1 :エラーなし 2A: 複雑語が平易として分類 2B: 平易語が複雑として分類 11
8. まとめ ・ニューラルネットワークを用いた語彙平易化手法 ・Newsela corpus ・context-aware word embeddings model ・neural
regression model ・語彙平易化タスクでトップスコアのシステムを実現 ・従来手法よりも文法/意味エラーが少ない ・置換候補の生成 ・置換候補の選択 12