Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
文献紹介: Self-Supervised_Neural_Machine_Translation
Yumeto Inaoka
December 13, 2019
Research
0
74
文献紹介: Self-Supervised_Neural_Machine_Translation
2019/12/13の文献紹介で発表
Yumeto Inaoka
December 13, 2019
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
70
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
95
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
77
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
50
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
150
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
180
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
120
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
130
文献紹介: Similarity-Based Reconstruction Loss for Meaning Representation
yumeto
1
100
Other Decks in Research
See All in Research
SummerCake_pdf.pdf
lyh125
0
160
JPX Tokyo Stock Exchange Prediction Award Ceremony 解法総評
gamella
2
1.5k
kintone UXリサーチャーのお仕事紹介
cybozuinsideout
PRO
1
820
【IR Reading2022秋】 CPFair: Personalized Consumer and Producer Fairness Re-ranking for Recommender Systems
yamato0811
1
110
Teslaはカメラを使ってどのように世界を認識しているか
inoichan
5
7.5k
Revisiting Over-smoothing in BERT from the Perspective of Graph
eumesy
PRO
0
310
『組織として』顧客を理解するインタビュー習慣の作り方 #pmconf2022 / Continuous user interview habit
tktktks10
4
5.6k
メタバースプラットフォームを支えるアーキテクチャの現在とこれから
clustervr
PRO
0
520
プルサーマル202211アップ用.pdf
hide2kano
0
140
理科の固有性に関する基礎的研究―「自然科学の性質」と「歴史学の性質」の比較を中心として―/Nature of School Science(Rika): A Comparison of "Nature of Science" and "Nature of History"
unzaih
0
110
On the Training of Infinitely Deep and Wide ResNets
gpeyre
0
200
Compositional Evaluation on Japanese Textual Entailment and Similarity (JSICK:構成的推論・類似度データセットSICK日本語版の紹介)
verypluming
2
420
Featured
See All Featured
Making the Leap to Tech Lead
cromwellryan
117
7.7k
JazzCon 2018 Closing Keynote - Leadership for the Reluctant Leader
reverentgeek
175
9.1k
Testing 201, or: Great Expectations
jmmastey
25
5.7k
Optimizing for Happiness
mojombo
365
64k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
22
1.7k
Stop Working from a Prison Cell
hatefulcrawdad
263
18k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
236
1.1M
Design by the Numbers
sachag
271
18k
Thoughts on Productivity
jonyablonski
49
2.7k
No one is an island. Learnings from fostering a developers community.
thoeni
12
1.5k
A Modern Web Designer's Workflow
chriscoyier
689
180k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
120
29k
Transcript
Self-Supervised Neural Machine Translation 文献紹介 2019/12/13 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
Literature 2 Title: Self-Supervised Neural Machine Translation Authors: Dana Ruiter,
Cristina España-Bonet, Josef van Genabith Volume: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics Pages: 1828–1834 Year: 2019
Abstract • NMTの学習で得られる内部表現を用いて訓練データ を選択する自己教師あり学習を提案 • 表現の学習とデータ選択はお互いを強化するように 並列データなしで行なわれる • 言語に依存しない &
追加のハイパーパラメータなし 3
Low-resource NMT • NMTは高品質の並列コーパスに依存している → 多数の低資源言語では存在しない • NMTであらゆる言語をカバーするためには 教師なし手法の開発、並列データの抽出が必要 4
Their approach • NMTモデルは有用な文ペアを判断するのに充分な ほど学習される • MTの学習とCross-lingualな近い文を見つける補助 タスクで相互に自己教師あり学習を繰り返させる 5
Joint Model Architecture • EncoderとDecoderのどちらも両方の言語情報を持つ 双方向NMTを考える ← 入力文に目的言語のタグを付けることで実現 • 以下の2つを文のベクトル表現とする
- Ce: 単語埋め込みの合計 - Ch: Encoderの隠れ状態の合計 6
Score input sentence pairs • 2つの文ベクトルを使ってペアをスコアリング • コサイン類似度による方法ではしきい値を決める 必要がある →
Margin-basedな手法を用いる 7
Selection process • 以下の4つの戦略を検討する • Ce, Chのいずれか、または両方利用 1. Threshold dependent
2. High precision, medium recall (System P) 3. Medium precision, high recall (System R) 4. Low precision, high recall 8
Threshold dependent • 各原文で一番スコアの高い目的言語文を見つける • Ce, Chのいずれかを使用 • 両言語方向で一致したペアのみを用いる •
誤検知を除外するためのしきい値は経験的に決定 9
High precision, medium recall • Threshold dependentとほとんど同じ • Ch, Ceの両方の表現を用いる
• 両言語方向かつ両表現で一致したペアのみを用いる • 補完的なCh, Ceによってしきい値は不要となる 10
Medium precision, high recall • High precision, medium recallは制限が強い •
最高スコアの目的言語文だけを用いるのではなく top-n (本実験ではn=2) を用いるようにする • 両方の表現を用いるのは同じだが、上の拡張は Chにおいてのみ使用する 11
Low precision, high recall • Medium precision, high recall における
source-targetとCh-Ce を対称にした手法 12
Experimental Setup (Data) • 初期の単語埋め込みの計算: Wikipedia の En/Fr (92M/27M sents.)を使用
• 学習コーパス: 言語間でリンクできる記事のみを使用 (12M/8M) 13
Experimental Setup (Model) • OpenNMT toolkitを使用 • LSTM: 1-layer Bi-LSTM
with Attention, SGD • Transformer: 6-layer, 8-head, Adam 14
Experimental Setup (Model) • simP: CeとChを使用, high precision, sim関数を使用 •
margP: simPと同じ, margin関数を使用 • margR: margPと同じ, high recall • margH: margPと同じ, Chのみ使用, しきい値は1.0 • margE: margPと同じ, Ceのみ使用, しきい値は1.2 15
Results (Epochs - #Pairs) • epochが進むにつれて使われる ペアが増える • 学習の前半では数字や固有表現 を含む文が選ばれる
• 学習が進むにつれて同じ意味の 複雑な文が選ばれる 16
Results (Epochs – BLEU) • Epochが進むにつれて TransformerのBLEUが向上 → この傾向は一般的 17
Results • BLEUによる各システムの比較 • sim()とmargin()の差が明確 • 用いる表現による差は小さい • margEやmergHは両方使うより 2~10ポイント低い
• UNMTより少ないコーパスで 同程度の結果が得られている → monolingual dataかcomparable corpusかの差 18
Conclusions • 翻訳の学習とデータの選択を同時に行なう手法の提案 → 互いに増分的に助け合う自己教師あり形式 • 使用する表現、選択に用いる関数に注目 → ハイパーパラメータ設定を回避 •
marginによるスコアと文表現の組み合わせが重要 19