Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Unsupervised Statistical Machine Translation
Search
katsutan
March 20, 2019
Technology
180
0
Share
Unsupervised Statistical Machine Translation
文献紹介
長岡技術科学大学
勝田 哲弘
katsutan
March 20, 2019
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
240
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
220
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
270
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
220
Improving Word Embeddings Using Kernel PCA
katsutan
0
230
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
330
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
270
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
300
Other Decks in Technology
See All in Technology
自分をひらくと次のチャレンジの敷居が下がる
sudoakiy
5
1.9k
Kubernetes基盤における開発者体験 とセキュリティの両⽴ / Balancing developer experience and security in a Kubernetes-based environment
chmikata
0
210
LLM とプロンプトエンジニアリング/チューターを定義する / LLMs and Prompt Engineering, and Defining Tutors
ks91
PRO
0
280
レガシーシステムをどう次世代に受け継ぐか
tachiiri
0
300
サイボウズ 開発本部採用ピッチ / Cybozu Engineer Recruit
cybozuinsideout
PRO
10
77k
Data Enabling Team立ち上げました
sansantech
PRO
0
290
ASTのGitHub CopilotとCopilot CLIの現在地をお話しします/How AST Operates GitHub Copilot and Copilot CLI
aeonpeople
1
190
チームで育てるAI自走環境_20260409
fuktig
0
920
スクラムを支える内部品質の話
iij_pr
0
310
パワポ作るマンをMCP Apps化してみた
iwamot
PRO
0
310
Databricksを用いたセキュアなデータ基盤構築とAIプロダクトへの応用.pdf
pkshadeck
PRO
0
200
今年60歳のおっさんCBになる
kentapapa
1
300
Featured
See All Featured
Claude Code のすすめ
schroneko
67
220k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.1k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
New Earth Scene 8
popppiees
2
2k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.5k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
240
Paper Plane (Part 1)
katiecoart
PRO
0
6.4k
Ruling the World: When Life Gets Gamed
codingconduct
0
190
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
What's in a price? How to price your products and services
michaelherold
247
13k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Believing is Seeing
oripsolob
1
110
Transcript
Unsupervised Statistical Machine Translation Proceedings of the 2018 Conference on
Empirical Methods in Natural Language Processing, pages 3632–3642 Brussels, Belgium, October 31 - November 4, 2018. 文献紹介 長岡技術科学大学 勝田 哲弘
Introduction • 近年では、教師なし学習モデル(NMT)が提案されているが、教師ありと比 べるとパフォーマンスが低いことがわかる。 • NMTは大規模のパラレルコーパスを効率的に学習できる。 • しかし、コーパスが十分に大きくない場合ではSMTが優れている。 この実験では、SMTが教師なし学習の設定に適しているかを 調べ、新しいモデルの提案を行う。
2
提案手法 基礎となる手法 • phrase-based SMT(Koehn et al., 2003) • cross-lingual
n-gram embeddings(Artetxe et al., 2018) 3
Unsupervised SMT フレーズテーブルの誘導 • ソース側の各ngramをターゲット側の最も近い100のngramが翻訳候補 の値をAdamを用いて最適化する 4
Unsupervised SMT 標準のSMTでは小さな並列コーパスに対して MERTを使用して学習する 逆翻訳によって擬似的に対訳コーパスを生成 し、SMTを学習させる 10000文をランダムに抽出 10 iterationsで学習 5
Unsupervised SMT より正確なモデルの学習 validation set 10000文 train set 200万文 反復
3回 6
Results 7
Ablation analysis 8
Results 9
Conclusions and future work 本稿では、単言語コーパスだけで訓練することができる新しい教師なしSMTシス テムを提案した。 • NMTベースの手法より優れた教師なしモデルであることを確認 将来的には半教師学習、疑似データの生成によるNMTの学習など 10