Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
JNLP2018_report.pdf
Search
MARUYAMA
March 18, 2018
0
90
JNLP2018_report.pdf
MARUYAMA
March 18, 2018
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
140
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
170
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
150
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
140
20191028_literature-review.pdf
tmaru0204
0
130
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
120
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
140
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
130
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
130
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
120k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
The Cult of Friendly URLs
andyhume
78
6.1k
How to Think Like a Performance Engineer
csswizardry
22
1.3k
Faster Mobile Websites
deanohume
305
30k
YesSQL, Process and Tooling at Scale
rocio
170
14k
A Philosophy of Restraint
colly
203
16k
Adopting Sorbet at Scale
ufuk
74
9.2k
Designing for humans not robots
tammielis
250
25k
The Invisible Side of Design
smashingmag
299
50k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.8k
Transcript
⾔語処理学会 第24回年次⼤会 参加報告 ⾃然⾔語処理研究室 丸⼭ 拓海 * 図, 表は⽂献から引⽤
⽬次 Ø ニューラルヘッドライン⽣成における誤⽣ 成問題の改善 清野 舜, ⾼瀬 翔, 鈴⽊ 潤,
岡崎 直観, 乾 健太郎, 永⽥ 昌明 Ø 英語教育⽀援のための複単語表現平易化⼿ 法の検討 芦原和樹,⾼⽥祥平,荒瀬由紀,内⽥諭
ニューラルヘッドライン⽣成 における誤⽣成問題の改善 清野 舜, ⾼瀬 翔, 鈴⽊ 潤, 岡崎 直観,
乾 健太郎, 永⽥ 昌明
ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø Encoder-Decoder model(EncDec)によるヘッドライン ⽣成の問題点 全ての誤⽣成問題の統⼀的な解決に取り組む
ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø EncDecに拡張モジュール(Source-side Prediction Module)を追加 Ø 出⼒単語と⼊⼒単語の対応関係をモデル化 • 対応関係を考慮しながら⽣成 繰り返し⽣成を解消
• 出⼒単語に対応する⼊⼒側の単語を考慮 無関係な単語の⽣成を解消 • ⼊⼒から重要な情報を選択する機構 重要な語句の⽋損を解消
ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø Source-side Prediction Module (SPM) Encoder-Decoder Source-side Prediction Module
ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø データセット • Gigaword Test (Rush) 低頻度が<unk>で置換されている • Gigaword
Test (Ours) <unk>の置換を修正
ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø 結果
ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø 結果
英語教育⽀援のための複単語 表現平易化⼿法の検討 芦原和樹,⾼⽥祥平,荒瀬由紀,内⽥諭
英語教育⽀援のための複単語表現平易化⼿法の検討 Ø 英語教育における教材準備⽀援 Ø 複単語表現の平易化はほとんどない Ø 複単語表現を対象とした平易化⼿法の提案 • 平易化対象: 複単語表現
• 置換候補のランキング: 複単語表現を考慮した分散表現を利⽤
英語教育⽀援のための複単語表現平易化⼿法の検討 Common European Framework of Reference for Languages (CEFR): 単語および複単語表現の難易度
A1 A2 B1 B2 C1 C2 easy difficult 平易化対象: English Vocabulary Profile (EVP), Thesaurus.com両⽅に採録されて いる難易度 B2 以上のもの
英語教育⽀援のための複単語表現平易化⼿法の検討 Common European Framework of Reference for Languages (CEFR): 単語および複単語表現の難易度
A1 A2 B1 B2 C1 C2 easy difficult 置換候補: Thesaurus.comに収録されている 難易度B1以下のもの
英語教育⽀援のための複単語表現平易化⼿法の検討 Common European Framework of Reference for Languages (CEFR): 単語および複単語表現の難易度
A1 A2 B1 B2 C1 C2 easy difficult 置換候補のランキング: CandidateをTargetとのcos類似 度でランキング Retrofittingを⽤いた単語分散表 現を利⽤ (Wikipedia, Paraphrase database)
英語教育⽀援のための複単語表現平易化⼿法の検討 Ø 置換候補のランキング CandidateをTargetとのcos類似度でランキング Ø 分散表現モデル • w2v: wikipediaからword2vec (CBOW)で学習
• w2v(PPDB): w2v + Retrofitting • w2v_m: 複単語表現をアンダーバー(_)で連結して学習 • w2v_m(PPDB): w2v_m + Retrofitting
英語教育⽀援のための複単語表現平易化⼿法の検討 Ø データセット Rice⼤学が公開している教科書データ Ø 評価指標 • Targetベースの適合率: ランクの上位 nに正解が1
つ以上存在するTarget の割合 • Candidateベースの適合率 − ランク付けした上位 n 件中の正解Candidateの割合
英語教育⽀援のための複単語表現平易化⼿法の検討 Ø 結果
報告内容 Ø ニューラルヘッドライン⽣成における誤⽣ 成問題の改善 清野 舜, ⾼瀬 翔, 鈴⽊ 潤,
岡崎 直観, 乾 健太郎, 永⽥ 昌明 Ø 英語教育⽀援のための複単語表現平易化⼿ 法の検討 芦原和樹,⾼⽥祥平,荒瀬由紀,内⽥諭