Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
The Geometry of Multilingual Language Model Representations
Search
hajime kiyama
August 31, 2023
Research
0
62
The Geometry of Multilingual Language Model Representations
Japansese explanation for SNLP2023
hajime kiyama
August 31, 2023
Tweet
Share
More Decks by hajime kiyama
See All by hajime kiyama
意味変化分析に向けた単語埋め込みの時系列パターン分析
rudorudo11
0
15
Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations
rudorudo11
0
160
Word Sense Extension
rudorudo11
0
24
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
rudorudo11
0
42
What Context Features Can Transformer Language Models Use?
rudorudo11
0
13
Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation
rudorudo11
0
17
How to Dissect a Muppet: The Structure of Transformer Embedding Spaces
rudorudo11
0
18
PromptBERT: Improving BERT Sentence Embeddings with Prompts
rudorudo11
0
59
Other Decks in Research
See All in Research
音声処理ツールキットESPnetの現在と未来
kanbayashi1125
3
560
待機電力を削減したネットワーク更新型電子ペーパーサイネージの開発と評価 / IOT64
yumulab
0
110
方策の長期性能に対する効率的なオフライン評価・学習 (Long-term Off-Policy Evaluation and Learning)
usaito
PRO
2
190
継続的な研究費獲得のための考え方
moda0
2
450
一般化ランダムフォレストの理論と統計的因果推論への応用
tomoshige_n
10
1.8k
Evolutionary Optimization ofModel Merging Recipes (2024/04/17, NLPコロキウム)
iwiwi
9
3.2k
データで診て考える合志市の渋滞と公共交通 ~めざせ 車1割削減、渋滞半減、公共交通2倍~
trafficbrain
0
470
生成AIを用いたText to SQLの最前線
masatoto
1
2.5k
Source Code Diff Revolution (JetBrains Open Reading Club)
tsantalis
0
290
Julia Tokyo #11 トーク: 「Juliaで歩く自動微分」
abap34
2
1.3k
機械学習と最適化の融合動的ロットサイズ決定問題を例として
mickey_kubo
2
260
リサーチに組織を巻き込むための「準備8割」の話
terasho
0
470
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
504
110k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
245
20k
How to train your dragon (web standard)
notwaldorf
75
5.2k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
8
3.4k
We Have a Design System, Now What?
morganepeng
43
6.8k
The Art of Programming - Codeland 2020
erikaheidi
43
12k
How to name files
jennybc
65
93k
Clear Off the Table
cherdarchuk
85
310k
The Mythical Team-Month
searls
217
42k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
155
14k
Why Our Code Smells
bkeepers
PRO
331
56k
Embracing the Ebb and Flow
colly
80
4.2k
Transcript
発表者:木山 朔 東京都立大学 M1 最先端NLP2023 1 ※スライド中の図表は指定がない限りは論文からの引用となります。 EMNLP2022
Intro • 多言語モデルの内部構造の理解を目指す • 言語に敏感な情報と言語を横断する情報の両方が encode される ◦ 言語に敏感な情報:語彙 ◦
言語を横断する情報:トークンの位置,品詞 • 言語部分空間の幾何構造を分析 ◦ 言語間の部分空間を比較 ◦ 低次元への射影 2 language-sensitive axis (横から切るイメージ) language-neutral axis (上から切るイメージ)
Related work • 多言語モデルがどのような情報を encode するか? ◦ 言語間の平均表現距離 [Rama et
al., 2020] [Choenni and Shutova, 2020] [Liang et al., 2021] ▪ 言語間の差異に相関,類型的特徴の予測に使用可能 ◦ 構文情報 [Chi et al., 2020] ◦ トークン頻度 [Rajaee and Pilehvar, 2022] ◦ 言語平均の変換による文検索 [Libovický et al., 2020] [Pires et al., 2019] • 多言語モデルの埋め込み空間の幾何学的な形状については分析されていない ◦ 上記の研究は特定の特徴に焦点を当てている ◦ 幾何学的な分析がなされていない ◦ 言語部分空間から特徴を encodeする軸を特定 3
Language subspace • モデル:XLM-R [Conneau et al., 2020a] ◦ RoBERTa
ベースで100言語を学習 • データセット:OSCAR [Abadji et al., 2021] ◦ web のテキストデータ ◦ 各系列が512トークンを含むように文を連結 ◦ 言語ごとに 262k の文脈を使用 ◦ 言語ごとに対応は取れていない • 特異値分解 (SVD) を用いて88言語をアフィン変換 ◦ モデルとデータセットの両方に出現する言語を対象 ◦ ここでのアフィン変換:平均によるシフトを行い,線形変換 4
• 言語Aに対する部分空間を定義 ◦ 言語内の分散を最大化する k方向を使ってアフィン部分空間を定義 ◦ 平均化した埋め込みを使って特異値分解することで求める ◦ kは部分空間が言語Aの全分散の90%を占めるように定義 Affine
language subspaces 5
Affine subspaces accounted for language modeling performance • ターゲット言語Aに対する perplexity
を評価する ◦ 射影前後の埋め込み表現の perplexity の比を評価 ◦ 言語A以外の言語Bでの評価も実施 ◦ 言語Aの部分空間に射影した埋め込み表現を用意 ◦ 言語Aで平均化し,言語Bの部分空間に射影したものも比較 6
Language modeling perplexity scores • 言語ごとに部分空間は異なる ◦ Proj_A vs Proj_B(黄
vs 緑) ◦ 異なる言語だと性能低下 • 平均処理すると部分空間は類似 ◦ Proj_B_μA vs Proj_B(赤 vs 緑) ◦ 言語Aの部分空間の平均処理の有無 ◦ 中間層では特に類似 ◦ 深い層では言語ごとの違いが可視化 7 ※薄い色の領域は平均から標準偏差 1個分の領域
Subspace dinstance • 特異値分解から各言語の主軸と対応する分散が特定可能 • 軸と分散を共分散行列 K として定義 • (1)
式の距離を用いて評価 [Bonnabel and Sepulchre, 2009] ◦ 部分空間の平均を無視できる指標 ◦ 88の言語部分空間間のペアワイズ距離を算出 ◦ λ_i: の固有値 8
Analogous rotations and scalings • 各層の距離を各軸に θ 度回転させ,倍率 γ でスケーリング
• 中間層では言語部分空間はかなり類似 ◦ 5度以下の回転と1.6倍以下のスケーリング ◦ 先行研究 [Libovický et al., 2020] [Pires et al., 2019] と一致 9
Language-sensitive axes • 言語感受性 (Language-sensitive) ◦ 言語Aと言語Bが異なる分布を持つ ▪ 入力言語で変化する情報 •
言語部分空間は平均化すると似たような空間となる • 一方で言語部分空間における平均の違いが存在 ◦ 言語特有の情報を持つ軸が存在するのでは? • 言語感受性について分析 ◦ 言語平均のシフトはターゲット言語の語彙を誘発させる ◦ LDA による分析により言語族の観点で分離する軸を発見 10
Inducing target language vocabulary • 言語固有の語彙を定義 ◦ OSCAR コーパスの10億個のトークンを対象 ◦
1e-6の頻度を持つトークン集合をその言語の語彙と定義 ◦ 複数言語に共通するトークンを除外 • 言語モデリングで予測されたトークンが評価言語の語彙かどうかを判定 ◦ 言語Aの系列に対して言語モデリングを実施 ◦ 別の言語Bの部分空間に射影した際にターゲット言語の割合を調べる ▪ 平均のシフトなども考慮 11
The proportion of tokens by shifting • 言語平均のシフト ◦ μ_A
-> μ_B vs No projection(緑 vs 青) ◦ 言語平均のシフトにより,言語 Aの割合が減少し,言語 Bの割合が増加 ◦ ターゲット言語Bの語彙を誘導 12
The proportion of tokens by projection • 言語部分空間への射影 ◦ Proj_B
vs No projection (黄 vs 青) ◦ 言語Bの部分空間に射影すると,言語 Aの割合が減少し,言語 Bの割合が増加 ◦ ターゲット言語の語彙を誘導 13
The proportion of tokens by shifting and projection • 言語平均のシフト
+ 言語部分空間への射影 ◦ μ_A -> μ_B , Proj_B vs No projection(赤 vs 青) ◦ 言語Bの割合が大幅に増加 ◦ 言語感受性の高い軸の存在を示唆 14
Linear discriminant analysis • 言語の部分空間を分離する軸を LDA を用いて特定 ◦ LDA:n組の表現がある時に,組間の分離を最大化する (n-1)軸を計算
◦ 軸の分析(幾何構造の可視化)がこの研究のメイン 15
Languages clustered by family • 言語族ごとにクラスターが形成 ◦ LDA の軸が言語類型論的特徴を encode
する 16
Languages clustered by family • 言語感受性の高い軸は中間層で安定 ◦ 5-9層はかなり類似した射影 ◦ 意味情報を処理していると考えられる
17
Language-neutral axes • 言語中立性 (Language-neutral) ◦ 言語Aと言語Bが似たような分布を持つ ▪ 入力言語で変化しない情報 •
多言語モデルでは言語に敏感な軸で言語固有の情報を encode する • 言語中立的な軸はどのような情報を encode するか? • LDA で分析 ◦ トークン位置 ◦ 品詞 18
Position axes were language-neutral • XLM-R は Transformer 層の前に絶対位置埋め込みを行う ◦
トークンの位置は言語中立的に encode されるはず • 言語が異なっても位置によって形状が決まる ◦ 言語の違いが影響を及ぼさない ◦ 言語中立的な情報 19
Position information was encoded along nonlinear structures. • 位置情報は非線形の構造に encode
◦ Swiss-Roll 多様体と類似 [Cai et al. 2021] • スパイラル構造は絶対/相対位置埋め込みの両方が作用? ◦ 多次元スパイラル構造 ◦ カーブ(左)では相対位置 ◦ トーラス(右)だと絶対位置 20
Position representations were stable across layers • 位置情報は層を超えて安定 ◦ 他の層(2層-11層)でも似たような曲線が獲得可能
◦ 各層で言語中立的な軸に沿った表現を変換することが示唆 21
Part-of-speech • token の品詞を encode する軸を調査 ◦ モデルに直接入力されていない点に注意 ◦ モデルが教師なしで名詞や動詞などの特徴を捉える必要
• Universal Dependency [Nivre et al., 2020] を使用 ◦ それぞれの品詞タグに対し 8k 個を一様にサンプリング • LDA による分析 ◦ n 次元に対する投影は n+1 個のPOSタグが必要 ◦ POS タグの表現を分離する n 個の軸を用意 22
POS axes were language-neutral and stable across layers • 言語とは無関係に品詞ごとにプロットされている
◦ 品詞ごとにクラスタリングに近いような表現 ◦ 構文情報は言語間で共有された線形部分空間で整列 [Chi et al. 2020] 23
POS axes were relatively stable across layers one through ten
• 品詞軸は1層から10層まで安定 ◦ 中間層では high-level (意味情報など)の情報を処理 [Jawahar et al.,2019] [Tenney et al., 2019] ◦ low-level の情報は保持されている 24
Multilingual structure (1/3) • 言語部分空間は言語感受性の高い軸があれば重ならない ◦ 要は言語間で分割できる軸が言語感受性の軸であるため,分離可能ということ • future work
◦ language-sensitivity を定量的に定義できるか? 25
Multilingual structure (2/3) • 異なる特徴を encode する軸は(しばしば)直交かつ独立している ◦ 純粋にある特徴量に関する射影が計算できる ◦
高次元空間を無理やり低次元に射影しているため? ◦ 相関が少ない特徴量を選択したため? • future work ◦ より複雑な言語の特徴をどのように幾何的に表現できるか? ◦ 埋め込み空間が異なる特徴がどれだけ分解できるか? ◦ アライメントすべき/すべきでない軸の特定に使えるかもしれない 26
Multilingual structure (3/3) • 多言語モデルの中間層では,言語族,トークン位置,POSは安定してencode ◦ 特定の情報は保持されたまま変化されることが示唆 • future work
◦ 特定の情報が層を超えてどのように保持されるのか? 27
conclusion • 多言語モデル (XLM-R) において言語部分空間を分析 • 2つの軸の存在を示唆 ◦ 言語感受性の高い軸:語彙,言語族 ◦
言語中立性の高い軸: token 位置,品詞 • 埋め込み空間の直交する軸に射影することで特徴を encode する ◦ 下流タスクや多言語学習で効率よく encode できることが示唆 28
limitation • モデルとデータセット内の言語 ◦ 言語的多様性が制限される • データセットの品質 ◦ 各言語のデータのサイズ,品質が異なる ◦
サイズが小さく,品質が良くないものでは傾向が異なる可能性 • XLM-R のみの分析 ◦ モデル,ハイパラなど変えると変化する可能性 ◦ GPTシリーズの中身の埋め込みの分析も気になるところ 29
補足:Language-sensitive vs Language-neutral • 言語感受性 (Language-sensitive) ◦ ある表現が部分空間に投影される時,入力言語の identityと高い相互情報量を持つ ◦
言語Aと言語Bが異なる分布を持つ ▪ 入力言語で変化する情報 • 言語中立性 (Language-neutral) ◦ ある表現が部分空間に投影される時,入力言語の identityと低い相互情報量を持つ ◦ 言語Aと言語Bが似たような分布を持つ ▪ 入力言語で変化しない情報 30
補足:Language-sensitive vs. Language-neutral axes • 各言語における平均と分散をみることで判別可能 • 言語中立性の高い軸 ◦ 各言語部分空間の平均が等しく,分散が小さい軸
◦ 各言語部分空間の平均が等しく,分散が大きい軸 • 言語感受性の高い軸 ◦ 言語Aで分散が大きく,言語 Bで分散が小さい軸 ◦ 平均が等しくなく,分散が同程度に高い軸 ◦ 平均が等しくなく,分散が同程度に低い軸 31