Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
A robust self-learning method for fully unsuper...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
katsutan
June 19, 2019
Technology
300
0
Share
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
文献紹介
長岡技術科学大学 自然言語処理研究室
勝田 哲弘
katsutan
June 19, 2019
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
240
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
220
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
270
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
220
Improving Word Embeddings Using Kernel PCA
katsutan
0
230
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
330
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
280
DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction
katsutan
0
280
Other Decks in Technology
See All in Technology
[OpsJAWS 40]リリースしたら終わり、じゃなかった。セキュリティ空白期間をAWS Security Agentで埋める
sh_fk2
3
220
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
4
23k
AI駆動1on1〜AIに自分を育ててもらう〜
yoshiakiyasuda
0
120
Introduction to Bill One Development Engineer
sansan33
PRO
0
410
Azure Static Web Apps の自動ビルドがタイムアウトしやすくなった状況に対応した件/global-azure2026
thara0402
0
370
明日からドヤれる!超マニアックなAWSセキュリティTips10連発 / 10 Ultra-Niche AWS Security Tips
yuj1osm
0
550
AI時代のガードレールとしてのAPIガバナンス
nagix
0
210
AIペネトレーションテスト・ セキュリティ検証「AgenticSec」ご紹介資料
laysakura
0
4k
猫でもわかるKiro CLI(CDKコーディング編)
kentapapa
1
130
2026年、知っておくべき最新 サーバレスTips10選/serverless-10-tips
slsops
13
5.1k
Eight Engineering Unit 紹介資料
sansan33
PRO
3
7.2k
20年前の「OSS革命」に学ぶ AI時代の生存戦略
samakada
0
320
Featured
See All Featured
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
340
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
99
Design in an AI World
tapps
0
190
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Between Models and Reality
mayunak
3
260
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.4k
Tell your own story through comics
letsgokoyo
1
890
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
200
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
64
53k
Transcript
A robust self-learning method for fully unsupervised cross-lingual mappings of
word embeddings Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers), pages 789–798, 2018. 文献紹介 長岡技術科学大学 自然言語処理研究室 勝田 哲弘
Abstract • 先行研究でadversarial trainingによって教師なしで複数言語の分散表現を 共有することが可能になった ◦ 良い精度 ◦ しかし、評価は非常に近い単語間でのみ行われている •
より堅牢なモデルの提案 ◦ 単語分散表現の構造的類似性を明示的に活用する完全に教師なしの初期化 ◦ iterative self-learningに基づく代替アプローチ 実装は以下で公開されている https://github.com/artetxem/vecmap 2
Introduction • Cross-lingual embedding mappings ◦ 単一言語コーパスを使用して異なる言語ごとに分散表現を個別に訓練し、線形変換によっ て共有空間にマッピングする ▪ 辞書を必要とするものがほとんど
▪ 最近、adversarial trainingで教師なしが可能に ◦ iterative self-learningは非常に小さい辞書( 25対の単語程)からの高品質なマッピングが可 能 (Artetxe et al., 2017) • 単語類似度の分布をもとに初期解を構築 ◦ 教師なし 3
Proposed method • XW X = ZW Z となるようにW X
,W Z を学習 X,Z:各言語の分散表現 ◦ 1: 分散表現の初期化、前処理 ◦ 2: 初期解を生成 ◦ 3: self-learningを繰り返して解を改善 ◦ 4: 得られるマッピングをさらに改善する最終的な改良 4 init_dict map dict
Embedding normalization 前処理 ベクトルの長さを正規化 ↓ 各次元の兵権を中心に揃える ↓ 再び、長さを正規化 内積を取るとcos類似度が計算できる ユークリッド距離が類似度の尺度とみなせる
5
Fully unsupervised initialization • それぞれの語彙を対応させる最初の辞書 ◦ M X == XXT,
M Z = ZZT の間で一致を見つける 6
Robust self-learning 学習は収束するまで次の2つのステップを繰り返す • 現在の辞書Dを最大化する直交マッピングを計算 • 最近傍検索 ◦ 7
Robust self-learning • Stochastic dictionary induction ◦ 類似度行列を確率pで保持、残りを0にする ◦ p
= 0.1から徐々に増やす • Frequency-based vocabulary cutoff ◦ 各言語で高頻度のk単語に制限 • CSLS retrieval ◦ k最近傍の平均コサイン類似度 • Bidirectional dictionary induction 8
Symmetric re-weighting • それぞれの相互相関に従って再加重 9
Experimental settings 対訳辞書抽出の精度を評価 Dinu et al. (2015),subsequent extensions of Artetxe
et al. (2017, 2018) • 分散表現(CBOW: 300-dimension) ◦ WacKy crawling corpora (English, Italian, German) ◦ Common Crawl (Finnish) ◦ WMT News Crawl (Spanish) Zhang et al. (2017a) • 分散表現(CBOW: 50-dimension) ◦ Wikipedia 10
Results 11
Results 12
Ablation test 13
Conclusions • self-learningと初期の弱いマッピング手法を組み合わせたモデルの提案 ◦ 教師なし、ハイパーパラメータに強く依存しない • 教師なし、教師つきマッピングに関する以前の研究と比較して最良の結果を 示した • 将来的には、バイリンガルからマルチリンガルへと拡張し、さらに長いフレー
ズを埋め込む 14