Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Unsupervised Statistical Machine Translation
Search
katsutan
March 20, 2019
Technology
0
150
Unsupervised Statistical Machine Translation
文献紹介
長岡技術科学大学
勝田 哲弘
katsutan
March 20, 2019
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
190
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
170
Simple task-specific bilingual word embeddings
katsutan
0
190
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
210
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
170
Improving Word Embeddings Using Kernel PCA
katsutan
0
190
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
260
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
240
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
260
Other Decks in Technology
See All in Technology
Postman Vaultを使った秘密情報の安全な管理
nagix
3
210
Enhancing SRE Using AI
yoshiiryo1
1
430
ビジネスと現場活動をつなぐソフトウェアエンジニアリング~とあるスタートアッププロダクトの成長記録より~
mizunori
0
110
日経電子版 x AIエージェントの可能性とAgentic RAGによって提案書生成を行う技術
masahiro_nishimi
1
180
SCSAから学ぶセキュリティ管理
masakamayama
0
130
開発者が自律的に AWS Security Hub findings に 対応する仕組みと AWS re:Invent 2024 登壇体験談 / Developers autonomously report AWS Security Hub findings Corresponding mechanism and AWS re:Invent 2024 presentation experience
kaminashi
0
110
パフォーマンスとコスト改善のために法人データ分析基盤をBigQueryに移行した話
seiya303
1
110
地方企業がクラウドを活用するヒント
miu_crescent
PRO
1
120
サーバーレスで楽しよう!お気軽に始められる3つのポイント / Have fun with Serverless!
_kensh
3
280
High Performance PHP
cmuench
0
120
Fintech SREの挑戦 PCI DSS対応をスマートにこなすインフラ戦略/Fintech SRE’s Challenge: Smart Infrastructure Strategies for PCI DSS Compliance
maaaato
0
330
オーティファイ会社紹介資料 / Autify Company Deck
autifyhq
10
120k
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
137
6.8k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.5k
Into the Great Unknown - MozCon
thekraken
34
1.6k
Designing for Performance
lara
604
68k
Writing Fast Ruby
sferik
628
61k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Building Applications with DynamoDB
mza
93
6.2k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
113
50k
Site-Speed That Sticks
csswizardry
3
310
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
28
4.5k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
Transcript
Unsupervised Statistical Machine Translation Proceedings of the 2018 Conference on
Empirical Methods in Natural Language Processing, pages 3632–3642 Brussels, Belgium, October 31 - November 4, 2018. 文献紹介 長岡技術科学大学 勝田 哲弘
Introduction • 近年では、教師なし学習モデル(NMT)が提案されているが、教師ありと比 べるとパフォーマンスが低いことがわかる。 • NMTは大規模のパラレルコーパスを効率的に学習できる。 • しかし、コーパスが十分に大きくない場合ではSMTが優れている。 この実験では、SMTが教師なし学習の設定に適しているかを 調べ、新しいモデルの提案を行う。
2
提案手法 基礎となる手法 • phrase-based SMT(Koehn et al., 2003) • cross-lingual
n-gram embeddings(Artetxe et al., 2018) 3
Unsupervised SMT フレーズテーブルの誘導 • ソース側の各ngramをターゲット側の最も近い100のngramが翻訳候補 の値をAdamを用いて最適化する 4
Unsupervised SMT 標準のSMTでは小さな並列コーパスに対して MERTを使用して学習する 逆翻訳によって擬似的に対訳コーパスを生成 し、SMTを学習させる 10000文をランダムに抽出 10 iterationsで学習 5
Unsupervised SMT より正確なモデルの学習 validation set 10000文 train set 200万文 反復
3回 6
Results 7
Ablation analysis 8
Results 9
Conclusions and future work 本稿では、単言語コーパスだけで訓練することができる新しい教師なしSMTシス テムを提案した。 • NMTベースの手法より優れた教師なしモデルであることを確認 将来的には半教師学習、疑似データの生成によるNMTの学習など 10