Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
Unsupervised Statistical Machine Translation
katsutan
March 20, 2019
Technology
0
110
Unsupervised Statistical Machine Translation
文献紹介
長岡技術科学大学
勝田 哲弘
katsutan
March 20, 2019
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
120
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
96
Simple task-specific bilingual word embeddings
katsutan
0
110
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
120
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
89
Improving Word Embeddings Using Kernel PCA
katsutan
0
120
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
120
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
140
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
180
Other Decks in Technology
See All in Technology
~スタートアップの人たちに捧ぐ~ 監視再入門 in AWS
track3jyo
PRO
30
8.3k
OSINT/GEOINT ワークショップ 20220514 古橋資料
furuhashilab
2
220
街じゅうを"駅前化"する電動マイクロモビリティのシェアサービス「LUUP」のIoTとSRE
0gm
1
460
1,000万人以上が利用する「家族アルバム みてね」のSRE組織は4年間でどのように作られてきたのか/SRE NEXT 2022
isaoshimizu
4
2.3k
Salesforce女子部-権限についてまとめてみたその1
sfggjp
0
170
長年運用されてきたモノリシックアプリケーションをコンテナ化しようとするとどんな問題に遭遇するか? / SRE NEXT 2022
nulabinc
PRO
15
6.9k
AWS CloudShellという推しサービスについて / lt-20220502-jawsug-cli
becominn
0
620
株式会社オプティム_採用会社紹介資料 / optim-recruit
optim
0
5.2k
Power BI ”を” 可視化しよう!
hanaseleb
0
140
Kubernetesの上に作る、統一されたマイクロサービス運用体験
tkuchiki
1
690
jaws-ug-asa-datasync-20220510
hiashisan
0
450
エンジニアインターンの採用〜実際の開発への関与について for EM meetup#10
dmiyamoto
1
250
Featured
See All Featured
Keith and Marios Guide to Fast Websites
keithpitt
404
21k
KATA
mclloyd
7
8.6k
From Idea to $5000 a Month in 5 Months
shpigford
372
44k
Scaling GitHub
holman
451
140k
Art, The Web, and Tiny UX
lynnandtonic
280
17k
Streamline your AJAX requests with AmplifyJS and jQuery
dougneiner
125
8.5k
The Language of Interfaces
destraynor
148
20k
Documentation Writing (for coders)
carmenhchung
48
2.5k
Gamification - CAS2011
davidbonilla
75
3.9k
Principles of Awesome APIs and How to Build Them.
keavy
113
15k
Making the Leap to Tech Lead
cromwellryan
113
6.9k
Making Projects Easy
brettharned
98
4.3k
Transcript
Unsupervised Statistical Machine Translation Proceedings of the 2018 Conference on
Empirical Methods in Natural Language Processing, pages 3632–3642 Brussels, Belgium, October 31 - November 4, 2018. 文献紹介 長岡技術科学大学 勝田 哲弘
Introduction • 近年では、教師なし学習モデル(NMT)が提案されているが、教師ありと比 べるとパフォーマンスが低いことがわかる。 • NMTは大規模のパラレルコーパスを効率的に学習できる。 • しかし、コーパスが十分に大きくない場合ではSMTが優れている。 この実験では、SMTが教師なし学習の設定に適しているかを 調べ、新しいモデルの提案を行う。
2
提案手法 基礎となる手法 • phrase-based SMT(Koehn et al., 2003) • cross-lingual
n-gram embeddings(Artetxe et al., 2018) 3
Unsupervised SMT フレーズテーブルの誘導 • ソース側の各ngramをターゲット側の最も近い100のngramが翻訳候補 の値をAdamを用いて最適化する 4
Unsupervised SMT 標準のSMTでは小さな並列コーパスに対して MERTを使用して学習する 逆翻訳によって擬似的に対訳コーパスを生成 し、SMTを学習させる 10000文をランダムに抽出 10 iterationsで学習 5
Unsupervised SMT より正確なモデルの学習 validation set 10000文 train set 200万文 反復
3回 6
Results 7
Ablation analysis 8
Results 9
Conclusions and future work 本稿では、単言語コーパスだけで訓練することができる新しい教師なしSMTシス テムを提案した。 • NMTベースの手法より優れた教師なしモデルであることを確認 将来的には半教師学習、疑似データの生成によるNMTの学習など 10