2019ACL読み会_Choosing-Transfer-Languages-for-Cross-Lingual-Learning

Choosing Transfer Languages for Cross-Lingual Learning Yu-Hsiang Lin, Chian-Yu Chen,
Jean Lee, Zirui Li, Yuyan Zhang, Mengzhou Xia, Shruti Rijhwani, Junxian He, Zhisong Zhang, Xuezhe Ma, Antonios Anastasopoulos, Patrick Littell, Graham Neubig ACL2019 2019/11/18 ACL2019読み会紹介者：⼭下郁海

Overview • Cross-Lingual Transfer において最適な転移元の⾔語を選ぶためのフレームワーク -"/( 3"/, を提案 •
Machine Translation, Entity Linking, POS tagging, Dependency Parsing の4つのタスクにおいて従来の転移元⾔語の選択⽅法よりも良い転移元⾔語を選択できることを⽰した • 複数の素性でモデルを学習し、転移元⾔語の選択にどういった素性が強く影響しているのかの分析を⾏った

Previous works 従来の転移元⾔語の選択⽅法 • 同じ語族の⾔語から選ぶ → 単⼀の語族の⾔語全てが同じ特性を持つとは限らない • タスクに重要な⾔語特性が類似したものから選ぶ (例
: Parsing task における語順が類似したもの) → どの⾔語特性が転移の際に重要であるかは⾃明ではない

-"/( 3"/, 特定の NLP タスクにおけるタスク⾔語と転移元⾔語の集合が与えられたとき、スコアを⾼くするような転移元⾔語を選ぶランキングタスクとして定義タスク⾔語と転移元⾔語のペアから複数の素性を抽出 → モデルを学習

Ranking features (Data-dependent) • Dataset size • Type-Token ratio (TTR)
• Word overlap and subword overlap "# : 転移元⾔語の training example 数 "$ : タスク (転移先) ⾔語の training example 数 % &'( &') : dataset size の⽐ MT, POS, DEP はコーパス中の⽂数 EL は bilingual entity gazetter 中の entity 数

• Word overlap and subword overlap "# : 転移元⾔語の type 数と token 数の⽐ "$ : タスク (転移先) ⾔語の type 数と token 数の⽐ "", = (1 − "'( "') )2 : TTR 間の距離 EL には TTR に関連する feature は⼊れていない

• Word overlap and subword overlap "# , "$ : 転移元⾔語とタスク (転移先) ⾔語の type 集合 "#, "$ : 転移元⾔語とタスク (転移先) ⾔語の subword 集合

Ranking features (Data-independent) • Geographic distance • Genetic distance •
Inventory distance • Syntactic distance • Phonological distance • Featural distance ※ 全て URIEL Typological Database から取得 678 : Glottolog 3.3 に基づいた地球表⾯状の⾔語距離 679 : Glottolog 3.3 の⾔語系統⽊に基づいた⾔語の系図状の距離

Inventory distance • Syntactic distance • Phonological distance • Featural distance :9; : PHOIBLE database に基づいた⾳韻素性ベクトル間のコサイン距離 &<9 : WALS database に基づいた⾔語構造素性ベクトル間のコサイン距離

Inventory distance • Syntactic distance • Phonological distance • Featural distance =>8 : WALS database と Ethnologue database に基づいた⾳韻素性ベクトル間のコサイン距離 #7? : 上記の 5 つの特徴を結合させたベクトル間のコサイン距離

Ranking model Model : GBDT + LambdaRank 1 つのモデルあたりの決定⽊の数は 100
1 つの決定⽊あたりの葉の数は 16 利点 : 1 ) 現在の SOTA の⼿法の⼀つ (特に特徴量が少なくデータに限りがあるときに強い) 2 ) 決定⽊ベースのアルゴリズムは⽐較的解釈しやすい (どういった素性が重要なのかの分析がしやすい)

Experimental settings • MT Model : attention-based seq2seq model (Bahdanau
et al., 2015). Data : multilingual TED talk corpus (転移元もタスクも 56 ⾔語, 翻訳先は全て英語) → 2862 task/transfer pairs 転移は転移元⾔語とタスク⾔語のデータを concat して学習することで⾏う • EL Model : two character-level LSTM encoders Data : ⾔語に link した Wikipedia article titles のデータ (タスク⾔語が9, 転移元⾔語が 53) → 477 task/transfer pairs zero-shot setting で学習

Experimental settings • POS Model : bi-directional LSTM-CNN-CRF model Data
: Universal Dependencies v2.2 dataset (データの少ないタスク⾔語 26, 転移元⾔語 60 を選択) → 1545 task/transfer pairs タスク⾔語の train データがあれば concat して, なければ転移元⾔語のみで学習 • DEP Model : deep biaffine attentional graph-based model Data : Universal Dependencies v2.2 dataset (タスク⾔語, 転移元⾔語共に 30 を選択) → 870 task/transfer pairs zero-shot setting で学習

Evaluation protocol 1 それぞれのタスクのモデルの評価は leave-one-out cross validation で⾏うテストセットに使う⾔語のうち⼀つを test
データとし、残りは train 学習中は train のデータのうちの⼀つを dev として残りを train に以上を⾔語の数だけ繰り返す

Evaluation protocol 2 ranking model の評価は NDCG@3 で⾏う (A?B =
10) : は番⽬だと予測された⾔語の点数 (gold の top が A?B 、そこから⼀つ順位が下がるごとに点数が 1 下がる ) IDCG は DCG と同じ計算を gold に対して⾏う NDCG は ranking が全て正しければ 1 になる

Results

Analysis & Discussion

Conclusion • タスクを転移元⾔語を選ぶランキングタスクと定義することによって予測モデルを構築することが可能になった • 単⼀の⾔語的要素やデータに関する要素のみで転移元⾔語を選ぶよりも複数の素性を考慮して選んだ⽅が良いことを⽰した • それぞれのタスクにおいてどのような要素が強く影響を及ぼしているのかの分析・洞察を得られた

2019ACL読み会_Choosing-Transfer-Languages-for-Cros...

2019ACL読み会_Choosing-Transfer-Languages-for-Cross-Lingual-Learning

Ikumi Yamashita

More Decks by Ikumi Yamashita

Other Decks in Technology

Featured

Transcript

Choosing Transfer Languages for Cross-Lingual Learning Yu-Hsiang Lin, Chian-Yu Chen,

Overview • Cross-Lingual Transfer において最適な転移元の⾔語を選ぶためのフレームワーク -"/( 3"/, を提案 •

Previous works 従来の転移元⾔語の選択⽅法 • 同じ語族の⾔語から選ぶ → 単⼀の語族の⾔語全てが同じ特性を持つとは限らない • タスクに重要な⾔語特性が類似したものから選ぶ (例

Ranking features (Data-dependent) • Dataset size • Type-Token ratio (TTR)

Ranking features (Data-dependent) • Dataset size • Type-Token ratio (TTR)

Ranking features (Data-dependent) • Dataset size • Type-Token ratio (TTR)

Ranking features (Data-independent) • Geographic distance • Genetic distance •

Ranking features (Data-independent) • Geographic distance • Genetic distance •

Ranking features (Data-independent) • Geographic distance • Genetic distance •

Ranking model Model : GBDT + LambdaRank 1 つのモデルあたりの決定⽊の数は 100

Experimental settings • MT Model : attention-based seq2seq model (Bahdanau

Experimental settings • POS Model : bi-directional LSTM-CNN-CRF model Data

Evaluation protocol 1 それぞれのタスクのモデルの評価は leave-one-out cross validation で⾏うテストセットに使う⾔語のうち⼀つを test

Evaluation protocol 2 ranking model の評価は NDCG@3 で⾏う (A?B =

Results

Analysis & Discussion