Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介: Self-Supervised_Neural_Machine_Translation
Search
Yumeto Inaoka
December 13, 2019
Research
0
130
文献紹介: Self-Supervised_Neural_Machine_Translation
2019/12/13の文献紹介で発表
Yumeto Inaoka
December 13, 2019
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
150
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
200
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
140
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
120
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
240
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
300
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
200
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
yumeto
0
200
文献紹介: Similarity-Based Reconstruction Loss for Meaning Representation
yumeto
1
190
Other Decks in Research
See All in Research
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
460
書き手はどこを訪れたか? - 言語モデルで訪問行動を読み取る -
hiroki13
0
150
大規模日本語VLM Asagi-VLMにおける合成データセットの構築とモデル実装
kuehara
4
820
Weekly AI Agents News!
masatoto
31
54k
第79回 産総研人工知能セミナー 発表資料
agiats
3
210
文書画像のデータ化における VLM活用 / Use of VLM in document image data conversion
sansan_randd
2
530
AWS 音声基盤モデル トーク解析AI MiiTelの音声処理について
ken57
0
140
Poster: Feasibility of Runtime-Neutral Wasm Instrumentation for Edge-Cloud Workload Handover
chikuwait
0
350
ラムダ計算の拡張に基づく 音楽プログラミング言語mimium とそのVMの実装
tomoyanonymous
0
410
PostgreSQLにおける分散トレーシングの現在 - 第50回PostgreSQLアンカンファレンス
seinoyu
0
240
o1 pro mode の調査レポート
smorce
0
120
Weekly AI Agents News! 11月号 プロダクト/ニュースのアーカイブ
masatoto
0
300
Featured
See All Featured
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Optimizing for Happiness
mojombo
376
70k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.5k
BBQ
matthewcrist
87
9.5k
Speed Design
sergeychernyshev
27
810
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
Building an army of robots
kneath
303
45k
Scaling GitHub
holman
459
140k
A better future with KSS
kneath
238
17k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
46
2.3k
Transcript
Self-Supervised Neural Machine Translation 文献紹介 2019/12/13 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
Literature 2 Title: Self-Supervised Neural Machine Translation Authors: Dana Ruiter,
Cristina España-Bonet, Josef van Genabith Volume: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics Pages: 1828–1834 Year: 2019
Abstract • NMTの学習で得られる内部表現を用いて訓練データ を選択する自己教師あり学習を提案 • 表現の学習とデータ選択はお互いを強化するように 並列データなしで行なわれる • 言語に依存しない &
追加のハイパーパラメータなし 3
Low-resource NMT • NMTは高品質の並列コーパスに依存している → 多数の低資源言語では存在しない • NMTであらゆる言語をカバーするためには 教師なし手法の開発、並列データの抽出が必要 4
Their approach • NMTモデルは有用な文ペアを判断するのに充分な ほど学習される • MTの学習とCross-lingualな近い文を見つける補助 タスクで相互に自己教師あり学習を繰り返させる 5
Joint Model Architecture • EncoderとDecoderのどちらも両方の言語情報を持つ 双方向NMTを考える ← 入力文に目的言語のタグを付けることで実現 • 以下の2つを文のベクトル表現とする
- Ce: 単語埋め込みの合計 - Ch: Encoderの隠れ状態の合計 6
Score input sentence pairs • 2つの文ベクトルを使ってペアをスコアリング • コサイン類似度による方法ではしきい値を決める 必要がある →
Margin-basedな手法を用いる 7
Selection process • 以下の4つの戦略を検討する • Ce, Chのいずれか、または両方利用 1. Threshold dependent
2. High precision, medium recall (System P) 3. Medium precision, high recall (System R) 4. Low precision, high recall 8
Threshold dependent • 各原文で一番スコアの高い目的言語文を見つける • Ce, Chのいずれかを使用 • 両言語方向で一致したペアのみを用いる •
誤検知を除外するためのしきい値は経験的に決定 9
High precision, medium recall • Threshold dependentとほとんど同じ • Ch, Ceの両方の表現を用いる
• 両言語方向かつ両表現で一致したペアのみを用いる • 補完的なCh, Ceによってしきい値は不要となる 10
Medium precision, high recall • High precision, medium recallは制限が強い •
最高スコアの目的言語文だけを用いるのではなく top-n (本実験ではn=2) を用いるようにする • 両方の表現を用いるのは同じだが、上の拡張は Chにおいてのみ使用する 11
Low precision, high recall • Medium precision, high recall における
source-targetとCh-Ce を対称にした手法 12
Experimental Setup (Data) • 初期の単語埋め込みの計算: Wikipedia の En/Fr (92M/27M sents.)を使用
• 学習コーパス: 言語間でリンクできる記事のみを使用 (12M/8M) 13
Experimental Setup (Model) • OpenNMT toolkitを使用 • LSTM: 1-layer Bi-LSTM
with Attention, SGD • Transformer: 6-layer, 8-head, Adam 14
Experimental Setup (Model) • simP: CeとChを使用, high precision, sim関数を使用 •
margP: simPと同じ, margin関数を使用 • margR: margPと同じ, high recall • margH: margPと同じ, Chのみ使用, しきい値は1.0 • margE: margPと同じ, Ceのみ使用, しきい値は1.2 15
Results (Epochs - #Pairs) • epochが進むにつれて使われる ペアが増える • 学習の前半では数字や固有表現 を含む文が選ばれる
• 学習が進むにつれて同じ意味の 複雑な文が選ばれる 16
Results (Epochs – BLEU) • Epochが進むにつれて TransformerのBLEUが向上 → この傾向は一般的 17
Results • BLEUによる各システムの比較 • sim()とmargin()の差が明確 • 用いる表現による差は小さい • margEやmergHは両方使うより 2~10ポイント低い
• UNMTより少ないコーパスで 同程度の結果が得られている → monolingual dataかcomparable corpusかの差 18
Conclusions • 翻訳の学習とデータの選択を同時に行なう手法の提案 → 互いに増分的に助け合う自己教師あり形式 • 使用する表現、選択に用いる関数に注目 → ハイパーパラメータ設定を回避 •
marginによるスコアと文表現の組み合わせが重要 19