Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Unsupervised Statistical Machine Translation
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
katsutan
March 20, 2019
Technology
0
170
Unsupervised Statistical Machine Translation
文献紹介
長岡技術科学大学
勝田 哲弘
katsutan
March 20, 2019
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
240
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
270
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
220
Improving Word Embeddings Using Kernel PCA
katsutan
0
230
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
320
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
270
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
300
Other Decks in Technology
See All in Technology
Keycloak を使った SSO で CockroachDB にログインする / CockroachDB SSO with Keycloak
kota2and3kan
0
160
"作る"から"使われる"へ:Backstage 活用の現在地
sbtechnight
0
190
スクリプトの先へ!AIエージェントと組み合わせる モバイルE2Eテスト
error96num
0
180
Windows ファイル共有(SMB)を再確認する
murachiakira
PRO
0
140
決済サービスを支えるElastic Cloud - Elastic Cloudの導入と推進、決済サービスのObservability
suzukij
2
660
Go標準パッケージのI/O処理をながめる
matumoto
0
220
コンテキスト・ハーネスエンジニアリングの現在
hirosatogamo
PRO
3
470
Postman v12 で変わる API開発ワークフロー (Postman v12 アップデート) / New API development workflow with Postman v12
yokawasa
0
140
Claude Code のコード品質がばらつくので AI に品質保証させる仕組みを作った話 / A story about building a mechanism to have AI ensure quality, because the code quality from Claude Code was inconsistent
nrslib
13
8.6k
OCHaCafe S11 #2 コンテナ時代の次の一手:Wasm 最前線
oracle4engineer
PRO
2
150
わからなくて良いなら、わからなきゃだめなの?
kotaoue
1
370
Kiro Powers 入門
k_adachi_01
0
110
Featured
See All Featured
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.1k
Utilizing Notion as your number one productivity tool
mfonobong
4
260
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.3k
Ruling the World: When Life Gets Gamed
codingconduct
0
180
Designing for Performance
lara
611
70k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
690
Visualization
eitanlees
150
17k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
199
73k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
86
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
350
Optimizing for Happiness
mojombo
378
71k
Transcript
Unsupervised Statistical Machine Translation Proceedings of the 2018 Conference on
Empirical Methods in Natural Language Processing, pages 3632–3642 Brussels, Belgium, October 31 - November 4, 2018. 文献紹介 長岡技術科学大学 勝田 哲弘
Introduction • 近年では、教師なし学習モデル(NMT)が提案されているが、教師ありと比 べるとパフォーマンスが低いことがわかる。 • NMTは大規模のパラレルコーパスを効率的に学習できる。 • しかし、コーパスが十分に大きくない場合ではSMTが優れている。 この実験では、SMTが教師なし学習の設定に適しているかを 調べ、新しいモデルの提案を行う。
2
提案手法 基礎となる手法 • phrase-based SMT(Koehn et al., 2003) • cross-lingual
n-gram embeddings(Artetxe et al., 2018) 3
Unsupervised SMT フレーズテーブルの誘導 • ソース側の各ngramをターゲット側の最も近い100のngramが翻訳候補 の値をAdamを用いて最適化する 4
Unsupervised SMT 標準のSMTでは小さな並列コーパスに対して MERTを使用して学習する 逆翻訳によって擬似的に対訳コーパスを生成 し、SMTを学習させる 10000文をランダムに抽出 10 iterationsで学習 5
Unsupervised SMT より正確なモデルの学習 validation set 10000文 train set 200万文 反復
3回 6
Results 7
Ablation analysis 8
Results 9
Conclusions and future work 本稿では、単言語コーパスだけで訓練することができる新しい教師なしSMTシス テムを提案した。 • NMTベースの手法より優れた教師なしモデルであることを確認 将来的には半教師学習、疑似データの生成によるNMTの学習など 10