Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
JNLP2018_report.pdf
MARUYAMA
March 18, 2018
0
70
JNLP2018_report.pdf
MARUYAMA
March 18, 2018
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
69
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
52
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
62
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
61
20191028_literature-review.pdf
tmaru0204
0
63
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
46
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
61
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
56
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
48
Featured
See All Featured
Six Lessons from altMBA
skipperchong
14
1.3k
Intergalactic Javascript Robots from Outer Space
tanoku
261
25k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
224
49k
Git: the NoSQL Database
bkeepers
PRO
415
59k
Build The Right Thing And Hit Your Dates
maggiecrowley
19
1.1k
How to name files
jennybc
39
59k
Building an army of robots
kneath
299
40k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
29
4.3k
jQuery: Nuts, Bolts and Bling
dougneiner
56
6.4k
Keith and Marios Guide to Fast Websites
keithpitt
404
21k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
119
28k
Producing Creativity
orderedlist
PRO
333
37k
Transcript
⾔語処理学会 第24回年次⼤会 参加報告 ⾃然⾔語処理研究室 丸⼭ 拓海 * 図, 表は⽂献から引⽤
⽬次 Ø ニューラルヘッドライン⽣成における誤⽣ 成問題の改善 清野 舜, ⾼瀬 翔, 鈴⽊ 潤,
岡崎 直観, 乾 健太郎, 永⽥ 昌明 Ø 英語教育⽀援のための複単語表現平易化⼿ 法の検討 芦原和樹,⾼⽥祥平,荒瀬由紀,内⽥諭
ニューラルヘッドライン⽣成 における誤⽣成問題の改善 清野 舜, ⾼瀬 翔, 鈴⽊ 潤, 岡崎 直観,
乾 健太郎, 永⽥ 昌明
ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø Encoder-Decoder model(EncDec)によるヘッドライン ⽣成の問題点 全ての誤⽣成問題の統⼀的な解決に取り組む
ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø EncDecに拡張モジュール(Source-side Prediction Module)を追加 Ø 出⼒単語と⼊⼒単語の対応関係をモデル化 • 対応関係を考慮しながら⽣成 繰り返し⽣成を解消
• 出⼒単語に対応する⼊⼒側の単語を考慮 無関係な単語の⽣成を解消 • ⼊⼒から重要な情報を選択する機構 重要な語句の⽋損を解消
ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø Source-side Prediction Module (SPM) Encoder-Decoder Source-side Prediction Module
ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø データセット • Gigaword Test (Rush) 低頻度が<unk>で置換されている • Gigaword
Test (Ours) <unk>の置換を修正
ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø 結果
ニューラルヘッドライン⽣成における誤⽣成問題の改善 Ø 結果
英語教育⽀援のための複単語 表現平易化⼿法の検討 芦原和樹,⾼⽥祥平,荒瀬由紀,内⽥諭
英語教育⽀援のための複単語表現平易化⼿法の検討 Ø 英語教育における教材準備⽀援 Ø 複単語表現の平易化はほとんどない Ø 複単語表現を対象とした平易化⼿法の提案 • 平易化対象: 複単語表現
• 置換候補のランキング: 複単語表現を考慮した分散表現を利⽤
英語教育⽀援のための複単語表現平易化⼿法の検討 Common European Framework of Reference for Languages (CEFR): 単語および複単語表現の難易度
A1 A2 B1 B2 C1 C2 easy difficult 平易化対象: English Vocabulary Profile (EVP), Thesaurus.com両⽅に採録されて いる難易度 B2 以上のもの
英語教育⽀援のための複単語表現平易化⼿法の検討 Common European Framework of Reference for Languages (CEFR): 単語および複単語表現の難易度
A1 A2 B1 B2 C1 C2 easy difficult 置換候補: Thesaurus.comに収録されている 難易度B1以下のもの
英語教育⽀援のための複単語表現平易化⼿法の検討 Common European Framework of Reference for Languages (CEFR): 単語および複単語表現の難易度
A1 A2 B1 B2 C1 C2 easy difficult 置換候補のランキング: CandidateをTargetとのcos類似 度でランキング Retrofittingを⽤いた単語分散表 現を利⽤ (Wikipedia, Paraphrase database)
英語教育⽀援のための複単語表現平易化⼿法の検討 Ø 置換候補のランキング CandidateをTargetとのcos類似度でランキング Ø 分散表現モデル • w2v: wikipediaからword2vec (CBOW)で学習
• w2v(PPDB): w2v + Retrofitting • w2v_m: 複単語表現をアンダーバー(_)で連結して学習 • w2v_m(PPDB): w2v_m + Retrofitting
英語教育⽀援のための複単語表現平易化⼿法の検討 Ø データセット Rice⼤学が公開している教科書データ Ø 評価指標 • Targetベースの適合率: ランクの上位 nに正解が1
つ以上存在するTarget の割合 • Candidateベースの適合率 − ランク付けした上位 n 件中の正解Candidateの割合
英語教育⽀援のための複単語表現平易化⼿法の検討 Ø 結果
報告内容 Ø ニューラルヘッドライン⽣成における誤⽣ 成問題の改善 清野 舜, ⾼瀬 翔, 鈴⽊ 潤,
岡崎 直観, 乾 健太郎, 永⽥ 昌明 Ø 英語教育⽀援のための複単語表現平易化⼿ 法の検討 芦原和樹,⾼⽥祥平,荒瀬由紀,内⽥諭