Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Unsupervised Statistical Machine Translation
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
katsutan
March 20, 2019
Technology
0
170
Unsupervised Statistical Machine Translation
文献紹介
長岡技術科学大学
勝田 哲弘
katsutan
March 20, 2019
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
230
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
210
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
260
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
210
Improving Word Embeddings Using Kernel PCA
katsutan
0
230
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
320
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
270
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
300
Other Decks in Technology
See All in Technology
ブロックテーマ、WordPress でウェブサイトをつくるということ / 2026.02.07 Gifu WordPress Meetup
torounit
0
180
2026年、サーバーレスの現在地 -「制約と戦う技術」から「当たり前の実行基盤」へ- /serverless2026
slsops
2
240
Frontier Agents (Kiro autonomous agent / AWS Security Agent / AWS DevOps Agent) の紹介
msysh
3
170
Introduction to Bill One Development Engineer
sansan33
PRO
0
360
ClickHouseはどのように大規模データを活用したAIエージェントを全社展開しているのか
mikimatsumoto
0
230
30万人の同時アクセスに耐えたい!新サービスの盤石なリリースを支える負荷試験 / SRE Kaigi 2026
genda
4
1.3k
Context Engineeringが企業で不可欠になる理由
hirosatogamo
PRO
3
570
Bill One急成長の舞台裏 開発組織が直面した失敗と教訓
sansantech
PRO
2
370
CDK対応したAWS DevOps Agentを試そう_20260201
masakiokuda
1
270
Kiro IDEのドキュメントを全部読んだので地味だけどちょっと嬉しい機能を紹介する
khmoryz
0
180
ZOZOにおけるAI活用の現在 ~開発組織全体での取り組みと試行錯誤~
zozotech
PRO
5
5.4k
FinTech SREのAWSサービス活用/Leveraging AWS Services in FinTech SRE
maaaato
0
130
Featured
See All Featured
Marketing to machines
jonoalderson
1
4.6k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
64
BBQ
matthewcrist
89
10k
sira's awesome portfolio website redesign presentation
elsirapls
0
150
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
110
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Visualization
eitanlees
150
17k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.7k
Optimising Largest Contentful Paint
csswizardry
37
3.6k
RailsConf 2023
tenderlove
30
1.3k
We Have a Design System, Now What?
morganepeng
54
8k
Typedesign – Prime Four
hannesfritz
42
2.9k
Transcript
Unsupervised Statistical Machine Translation Proceedings of the 2018 Conference on
Empirical Methods in Natural Language Processing, pages 3632–3642 Brussels, Belgium, October 31 - November 4, 2018. 文献紹介 長岡技術科学大学 勝田 哲弘
Introduction • 近年では、教師なし学習モデル(NMT)が提案されているが、教師ありと比 べるとパフォーマンスが低いことがわかる。 • NMTは大規模のパラレルコーパスを効率的に学習できる。 • しかし、コーパスが十分に大きくない場合ではSMTが優れている。 この実験では、SMTが教師なし学習の設定に適しているかを 調べ、新しいモデルの提案を行う。
2
提案手法 基礎となる手法 • phrase-based SMT(Koehn et al., 2003) • cross-lingual
n-gram embeddings(Artetxe et al., 2018) 3
Unsupervised SMT フレーズテーブルの誘導 • ソース側の各ngramをターゲット側の最も近い100のngramが翻訳候補 の値をAdamを用いて最適化する 4
Unsupervised SMT 標準のSMTでは小さな並列コーパスに対して MERTを使用して学習する 逆翻訳によって擬似的に対訳コーパスを生成 し、SMTを学習させる 10000文をランダムに抽出 10 iterationsで学習 5
Unsupervised SMT より正確なモデルの学習 validation set 10000文 train set 200万文 反復
3回 6
Results 7
Ablation analysis 8
Results 9
Conclusions and future work 本稿では、単言語コーパスだけで訓練することができる新しい教師なしSMTシス テムを提案した。 • NMTベースの手法より優れた教師なしモデルであることを確認 将来的には半教師学習、疑似データの生成によるNMTの学習など 10