Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2019ACL読み会_Choosing-Transfer-Languages-for-Cros...
Search
Ikumi Yamashita
November 18, 2019
Technology
0
57
2019ACL読み会_Choosing-Transfer-Languages-for-Cross-Lingual-Learning
Ikumi Yamashita
November 18, 2019
Tweet
Share
More Decks by Ikumi Yamashita
See All by Ikumi Yamashita
2021論文紹介_When-Do-You-Need-Billions-of-Words-of-Pretraining-Data?
ikumi193
0
180
2021EACL/NAACL論文紹介_Multilingual-LAMA-Investigating-Knowledge-in-Multilingual-Pretrained-Language-Models
ikumi193
0
62
2021論文紹介_CANINE:-Pre-training-an-Efficient-Tokenization-Free-Encoder-for-Language-Representation
ikumi193
0
320
2020COLING読み会_Linguistic-Profiling-of-a-Neural-Language-Model
ikumi193
0
98
2020EMNLP読み会_Identifying-Elements-Essential-for-BERT's-Multilinguality
ikumi193
0
130
2020ACL読み会_FastBERT:-a-Self-distilling-BERT-with-Adaptive-Inference-Time
ikumi193
0
150
2020論文紹介_Finding-Universal-Grammatical-Relations-in-Multilingual-BERT
ikumi193
0
280
2019EMNLP読み会_Unicoder_A_Universal_Language_Encoder_by_Pre-training_with_Multiple_Cross-lingual_Tasks
ikumi193
0
68
2019論文読み会_Language-Modeling-with-Shared-Grammar
ikumi193
0
220
Other Decks in Technology
See All in Technology
AWS re:Invent 2025で見たGrafana最新機能の紹介
hamadakoji
0
100
グレートファイアウォールを自宅に建てよう
ctes091x
0
140
直接メモリアクセス
koba789
0
280
AWS Bedrock AgentCoreで作る 1on1支援AIエージェント 〜Memory × Evaluationsによる実践開発〜
yusukeshimizu
6
360
世界最速級 memcached 互換サーバー作った
yasukata
0
320
EM歴1年10ヶ月のぼくがぶち当たった苦悩とこれからへ向けて
maaaato
0
270
エンジニアとPMのドメイン知識の溝をなくす、 AIネイティブな開発プロセス
applism118
4
710
プロダクトマネジメントの分業が生む「デリバリーの渋滞」を解消するTPMの越境
recruitengineers
PRO
3
710
法人支出管理領域におけるソフトウェアアーキテクチャに基づいたテスト戦略の実践
ogugu9
1
210
著者と読み解くAIエージェント現場導入の勘所 Lancers TechBook#2
smiyawaki0820
12
5.8k
re:Invent2025 コンテナ系アップデート振り返り(+CloudWatchログのアップデート紹介)
masukawa
0
300
意外とあった SQL Server 関連アップデート + Database Savings Plans
stknohg
PRO
0
290
Featured
See All Featured
How GitHub (no longer) Works
holman
316
140k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
Leading Effective Engineering Teams in the AI Era
addyosmani
8
1.3k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
Become a Pro
speakerdeck
PRO
31
5.7k
How to Ace a Technical Interview
jacobian
280
24k
Optimizing for Happiness
mojombo
379
70k
[SF Ruby Conf 2025] Rails X
palkan
0
490
Site-Speed That Sticks
csswizardry
13
990
Art, The Web, and Tiny UX
lynnandtonic
303
21k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Transcript
Choosing Transfer Languages for Cross-Lingual Learning Yu-Hsiang Lin, Chian-Yu Chen,
Jean Lee, Zirui Li, Yuyan Zhang, Mengzhou Xia, Shruti Rijhwani, Junxian He, Zhisong Zhang, Xuezhe Ma, Antonios Anastasopoulos, Patrick Littell, Graham Neubig ACL2019 2019/11/18 ACL2019読み会 紹介者:⼭下郁海
Overview • Cross-Lingual Transfer において最適な転移元の⾔語を選ぶためのフレーム ワーク -"/( 3"/, を提案 •
Machine Translation, Entity Linking, POS tagging, Dependency Parsing の4つ のタスクにおいて従来の転移元⾔語の選択⽅法よりも良い転移元⾔語を選択 できることを⽰した • 複数の素性でモデルを学習し、転移元⾔語の選択にどういった素性が強く影 響しているのかの分析を⾏った
Previous works 従来の転移元⾔語の選択⽅法 • 同じ語族の⾔語から選ぶ → 単⼀の語族の⾔語全てが同じ特性を持つとは限らない • タスクに重要な⾔語特性が類似したものから選ぶ (例
: Parsing task における語順が類似したもの) → どの⾔語特性が転移の際に重要であるかは⾃明ではない
-"/( 3"/, 特定の NLP タスクにおけるタスク⾔語と転移元⾔語の集合が与えられたとき、 スコアを⾼くするような転移元⾔語を選ぶランキングタスクとして定義 タスク⾔語と転移元⾔語のペアから複数の素性を抽出 → モデルを学習
Ranking features (Data-dependent) • Dataset size • Type-Token ratio (TTR)
• Word overlap and subword overlap "# : 転移元⾔語の training example 数 "$ : タスク (転移先) ⾔語の training example 数 % &'( &') : dataset size の⽐ MT, POS, DEP はコーパス中の⽂数 EL は bilingual entity gazetter 中の entity 数
Ranking features (Data-dependent) • Dataset size • Type-Token ratio (TTR)
• Word overlap and subword overlap "# : 転移元⾔語の type 数と token 数の⽐ "$ : タスク (転移先) ⾔語の type 数と token 数の⽐ "", = (1 − "'( "') )2 : TTR 間の距離 EL には TTR に関連する feature は⼊れていない
Ranking features (Data-dependent) • Dataset size • Type-Token ratio (TTR)
• Word overlap and subword overlap "# , "$ : 転移元⾔語とタスク (転移先) ⾔語の type 集合 "#, "$ : 転移元⾔語とタスク (転移先) ⾔語の subword 集合
Ranking features (Data-independent) • Geographic distance • Genetic distance •
Inventory distance • Syntactic distance • Phonological distance • Featural distance ※ 全て URIEL Typological Database から取得 678 : Glottolog 3.3 に基づいた地球表⾯状の⾔語距離 679 : Glottolog 3.3 の⾔語系統⽊に基づいた⾔語の系図状の距離
Ranking features (Data-independent) • Geographic distance • Genetic distance •
Inventory distance • Syntactic distance • Phonological distance • Featural distance :9; : PHOIBLE database に基づいた⾳韻素性ベクトル間のコサイン距離 &<9 : WALS database に基づいた⾔語構造素性ベクトル間のコサイン距離
Ranking features (Data-independent) • Geographic distance • Genetic distance •
Inventory distance • Syntactic distance • Phonological distance • Featural distance =>8 : WALS database と Ethnologue database に基づいた⾳韻素性ベク トル間のコサイン距離 #7? : 上記の 5 つの特徴を結合させたベクトル間のコサイン距離
Ranking model Model : GBDT + LambdaRank 1 つのモデルあたりの決定⽊の数は 100
1 つの決定⽊あたりの葉の数は 16 利点 : 1 ) 現在の SOTA の⼿法の⼀つ (特に特徴量が少なくデータに限りがあるときに 強い) 2 ) 決定⽊ベースのアルゴリズムは⽐較的解釈しやすい (どういった素性が重要なのかの分析がしやすい)
Experimental settings • MT Model : attention-based seq2seq model (Bahdanau
et al., 2015). Data : multilingual TED talk corpus (転移元もタスクも 56 ⾔語, 翻訳先は全て 英語) → 2862 task/transfer pairs 転移は転移元⾔語とタスク⾔語のデータを concat して学習することで⾏う • EL Model : two character-level LSTM encoders Data : ⾔語に link した Wikipedia article titles のデータ (タスク⾔語が9, 転移 元⾔語が 53) → 477 task/transfer pairs zero-shot setting で学習
Experimental settings • POS Model : bi-directional LSTM-CNN-CRF model Data
: Universal Dependencies v2.2 dataset (データの少ないタスク⾔語 26, 転移元⾔語 60 を選択) → 1545 task/transfer pairs タスク⾔語の train データがあれば concat して, なければ転移元⾔語のみで 学習 • DEP Model : deep biaffine attentional graph-based model Data : Universal Dependencies v2.2 dataset (タスク⾔語, 転移元⾔語共に 30 を選択) → 870 task/transfer pairs zero-shot setting で学習
Evaluation protocol 1 それぞれのタスクのモデルの評価は leave-one-out cross validation で⾏う テストセットに使う⾔語のうち⼀つを test
データとし、残りは train 学習中は train のデータのうちの⼀つを dev として残りを train に 以上を⾔語の数だけ繰り返す
Evaluation protocol 2 ranking model の評価は NDCG@3 で⾏う (A?B =
10) : は 番⽬だと予測された⾔語の点数 (gold の top が A?B 、そこから⼀つ順位 が下がるごとに点数が 1 下がる ) IDCG は DCG と同じ計算を gold に対して⾏う NDCG は ranking が全て正しければ 1 になる
Results
Analysis & Discussion
Conclusion • タスクを転移元⾔語を選ぶランキングタスクと定義することによって予測モ デルを構築することが可能になった • 単⼀の⾔語的要素やデータに関する要素のみで転移元⾔語を選ぶよりも複数 の素性を考慮して選んだ⽅が良いことを⽰した • それぞれのタスクにおいてどのような要素が強く影響を及ぼしているのかの 分析・洞察を得られた