Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介: Analyzing the Limitations of Cross-lingua...
Search
Yumeto Inaoka
June 25, 2019
Research
0
220
文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
2019/06/25の文献紹介で発表
Yumeto Inaoka
June 25, 2019
Tweet
Share
More Decks by Yumeto Inaoka
See All by Yumeto Inaoka
文献紹介: Quantity doesn’t buy quality syntax with neural language models
yumeto
1
180
文献紹介: Open Domain Web Keyphrase Extraction Beyond Language Modeling
yumeto
0
230
文献紹介: Self-Supervised_Neural_Machine_Translation
yumeto
0
160
文献紹介: Comparing and Developing Tools to Measure the Readability of Domain-Specific Texts
yumeto
0
170
文献紹介: PAWS: Paraphrase Adversaries from Word Scrambling
yumeto
0
150
文献紹介: Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
yumeto
0
270
文献紹介: EditNTS: An Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing
yumeto
0
340
文献紹介: Decomposable Neural Paraphrase Generation
yumeto
0
230
文献紹介: Similarity-Based Reconstruction Loss for Meaning Representation
yumeto
1
210
Other Decks in Research
See All in Research
Self-supervised audiovisual representation learning for remote sensing data
satai
3
230
チャッドローン:LLMによる画像認識を用いた自律型ドローンシステムの開発と実験 / ec75-morisaki
yumulab
1
510
大規模な2値整数計画問題に対する 効率的な重み付き局所探索法
mickey_kubo
1
270
Generative Models 2025
takahashihiroshi
21
12k
Creation and environmental applications of 15-year daily inundation and vegetation maps for Siberia by integrating satellite and meteorological datasets
satai
3
130
Collaborative Development of Foundation Models at Japanese Academia
odashi
2
560
最適決定木を用いた処方的価格最適化
mickey_kubo
4
1.7k
MGDSS:慣性式モーションキャプチャを用いたジェスチャによるドローンの操作 / ec75-yamauchi
yumulab
0
260
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
120
SSII2025 [TS2] リモートセンシング画像処理の最前線
ssii
PRO
7
2.9k
プロシェアリング白書2025_PROSHARING_REPORT_2025
circulation
1
900
2025/7/5 応用音響研究会招待講演@北海道大学
takuma_okamoto
1
110
Featured
See All Featured
Building an army of robots
kneath
306
45k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.1k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.7k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.5k
Designing for Performance
lara
610
69k
How STYLIGHT went responsive
nonsquared
100
5.6k
GraphQLとの向き合い方2022年版
quramy
49
14k
Code Review Best Practice
trishagee
69
19k
A designer walks into a library…
pauljervisheath
207
24k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Transcript
Analyzing the Limitations of Cross-lingual Word Embedding Mappings 文献紹介 (2019/06/25)
長岡技術科学大学 自然言語処理研究室 稲岡 夢人
Literature Title: Analyzing the Limitations of Cross-lingual Word Embedding Mappings
Author: Aitor Ormazabal, Mikel Artetxe, Gorka Labaka, Aitor Soroa, Eneko Agirre Conf.: ACL 2019 Year: 2019 URL: https://arxiv.org/abs/1906.05407 2
Abstract • Cross-lingual Word Embeddingsの学習は、 単言語で学習したWord Embeddingsを線形変換 して共有空間にマッピングするのがほとんど → そもそも線形変換でマッピング出来るかは疑問
• 別々に学習する場合と一緒に学習する場合で比較 • 一緒に学習した方がより同型(Isomorphism)で ハブ(Hubness)に敏感でない結果となった 3
Cross-lingual Word Embeddings • 既存のCross-lingual Word Embeddings(CWE)は 大きく2つの学習方法に分けられる • Joint
methods: 並列コーパスで複数のWord Embeddingsを 同時に学習する • Mapping methods: 別々に学習して線形変換を介して共有空間に マッピングする手法 4
Limitation of mapping method • マッピングするためには空間が言語によらず 同じ構造を持っている必要がある → 仮定が正しくなければマッピングには制限がある •
異言語、異ドメインにおいて空間構造は一致せず マッピングを妨げることが知られている 5
Methods Mapping method: 1. 各言語で300次元のskip-gramを学習 2. VecMapで教師なしマッピングの自己学習を反復* Joint learning: 1.
文脈として原言語と目的言語の両方を与える BiVecを学習 * Artetxe et al. A robust self-learning method for fully unsupervised cross- lingual mappings of word embeddings. ACL 2018. 6
Isomorphism (同型) • 両言語の構造的類似性を測定 1. 各言語の高頻度語上位10,000語で最近傍 グラフを作成 2. それらのラプラシアン行列L 1
, L 2 を計算 3. L 1 , L 2 においてK 1 , K 2 個の固有値の合計が全体の 合計の90%になるような最小のK 1 , K 2 を求める 4. ∆ = σ =1 min 1,2 1 − 2 2 を求める 7
Hubness • ある単語が他のあらゆる単語と近くなる現象が Cross-lingual Word Embeddingでは問題となる • 原言語単語のN%の最近傍である目的言語単語の 最小パーセンテージH N
を求める(Nはパラメータ) • 例えばH 10% =0.3% の場合、目的言語単語の0.3% が原言語単語の10%の最近傍であることを示す 8
Nearest neighbor retrieval • Hubnessの計算では最近傍検索を行う • 最近傍検索ではコサイン類似度を用いるのが一般的 • コサイン類似度を用いた最近傍検索において、 yがxの最近傍であることはxがyの最近傍であること
を意味しない(非対称性) ← 画像特徴マッチングから言語理解までの様々な所 で問題視されている → Cross-domain Similarity Local Scaling(CSLS)を利用 9
Bilingual Lexicon Induction • 原言語の各単語を目的言語の最近傍単語にリンク させて対訳辞書を作成 • 上の辞書とGold-standardの辞書を比較 • Precision@1で精度を測定
11
Datasets (Word Embeddings) • 英語を目的言語として、それと比較的近い言語の ドイツ語、スペイン語、イタリア語を原言語とする • 膠着語であるフィンランド語も原言語に用いる • ParaCrawlコーパスから学習
• de/es/it/fi = 503M/492M/308M/55M (tokens in En.) 12
Datasets (Dictionary) • Eparl Europarlの単語アライメントから抽出(1,500件) • MUSE Facebookの内部翻訳ツールを用いて収集(1,500件) 13
Results 14
Results (isomorphism •Joint learningがより同型 (isomorphic)な結果 •Mappingと比較してより 構造的に類似した空間を 持つことを示す •訓練コーパスが小さく 離れたフィンランド語で
向上が大きい 15
Results (Hubness) •ドイツ語以外で良好な結果 → 言語の相違がマッピングに 深刻な影響を与える示唆 •CSLSは特にMappingで 非常に効果的 16
Results (Dictionary) •特にフィンランド語において Joint learningの効果が大きい •CSLSは特にMappingで 効果的 17
Discussion • 同じ条件下で対訳コーパスを訓練した場合に Joint learningはMappingよりも優れた表現を得る • Joint learningによって言語間の相違が軽減される • Joint
learningがMappingよりも優れているという 主張ではない • 結果はMapping methodの根本的な制限を示す 18
Conclusions • 並列コーパスによるCross-lingual Word Embeddings の学習を通じてJoint learningとMappingの特性の 違いを比較 • Joint
learningがより良い表現を得ることを確認 • 現行のMappingには強い制限がある • 単言語コーパスでの学習にJoint learningを用いる 新たな手法が求められる 19