Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2019ACL読み会_Choosing-Transfer-Languages-for-Cross-Lingual-Learning

 2019ACL読み会_Choosing-Transfer-Languages-for-Cross-Lingual-Learning

Ikumi Yamashita

November 18, 2019
Tweet

More Decks by Ikumi Yamashita

Other Decks in Technology

Transcript

  1. Choosing Transfer Languages for Cross-Lingual Learning Yu-Hsiang Lin, Chian-Yu Chen,

    Jean Lee, Zirui Li, Yuyan Zhang, Mengzhou Xia, Shruti Rijhwani, Junxian He, Zhisong Zhang, Xuezhe Ma, Antonios Anastasopoulos, Patrick Littell, Graham Neubig ACL2019 2019/11/18 ACL2019読み会 紹介者:⼭下郁海
  2. Overview • Cross-Lingual Transfer において最適な転移元の⾔語を選ぶためのフレーム ワーク -"/( 3"/, を提案 •

    Machine Translation, Entity Linking, POS tagging, Dependency Parsing の4つ のタスクにおいて従来の転移元⾔語の選択⽅法よりも良い転移元⾔語を選択 できることを⽰した • 複数の素性でモデルを学習し、転移元⾔語の選択にどういった素性が強く影 響しているのかの分析を⾏った
  3. Ranking features (Data-dependent) • Dataset size • Type-Token ratio (TTR)

    • Word overlap and subword overlap "# : 転移元⾔語の training example 数 "$ : タスク (転移先) ⾔語の training example 数 % &'( &') : dataset size の⽐ MT, POS, DEP はコーパス中の⽂数 EL は bilingual entity gazetter 中の entity 数
  4. Ranking features (Data-dependent) • Dataset size • Type-Token ratio (TTR)

    • Word overlap and subword overlap "# : 転移元⾔語の type 数と token 数の⽐ "$ : タスク (転移先) ⾔語の type 数と token 数の⽐ "", = (1 − "'( "') )2 : TTR 間の距離 EL には TTR に関連する feature は⼊れていない
  5. Ranking features (Data-dependent) • Dataset size • Type-Token ratio (TTR)

    • Word overlap and subword overlap "# , "$ : 転移元⾔語とタスク (転移先) ⾔語の type 集合 "#, "$ : 転移元⾔語とタスク (転移先) ⾔語の subword 集合
  6. Ranking features (Data-independent) • Geographic distance • Genetic distance •

    Inventory distance • Syntactic distance • Phonological distance • Featural distance ※ 全て URIEL Typological Database から取得 678 : Glottolog 3.3 に基づいた地球表⾯状の⾔語距離 679 : Glottolog 3.3 の⾔語系統⽊に基づいた⾔語の系図状の距離
  7. Ranking features (Data-independent) • Geographic distance • Genetic distance •

    Inventory distance • Syntactic distance • Phonological distance • Featural distance :9; : PHOIBLE database に基づいた⾳韻素性ベクトル間のコサイン距離 &<9 : WALS database に基づいた⾔語構造素性ベクトル間のコサイン距離
  8. Ranking features (Data-independent) • Geographic distance • Genetic distance •

    Inventory distance • Syntactic distance • Phonological distance • Featural distance =>8 : WALS database と Ethnologue database に基づいた⾳韻素性ベク トル間のコサイン距離 #7? : 上記の 5 つの特徴を結合させたベクトル間のコサイン距離
  9. Ranking model Model : GBDT + LambdaRank 1 つのモデルあたりの決定⽊の数は 100

    1 つの決定⽊あたりの葉の数は 16 利点 : 1 ) 現在の SOTA の⼿法の⼀つ (特に特徴量が少なくデータに限りがあるときに 強い) 2 ) 決定⽊ベースのアルゴリズムは⽐較的解釈しやすい (どういった素性が重要なのかの分析がしやすい)
  10. Experimental settings • MT Model : attention-based seq2seq model (Bahdanau

    et al., 2015). Data : multilingual TED talk corpus (転移元もタスクも 56 ⾔語, 翻訳先は全て 英語) → 2862 task/transfer pairs 転移は転移元⾔語とタスク⾔語のデータを concat して学習することで⾏う • EL Model : two character-level LSTM encoders Data : ⾔語に link した Wikipedia article titles のデータ (タスク⾔語が9, 転移 元⾔語が 53) → 477 task/transfer pairs zero-shot setting で学習
  11. Experimental settings • POS Model : bi-directional LSTM-CNN-CRF model Data

    : Universal Dependencies v2.2 dataset (データの少ないタスク⾔語 26, 転移元⾔語 60 を選択) → 1545 task/transfer pairs タスク⾔語の train データがあれば concat して, なければ転移元⾔語のみで 学習 • DEP Model : deep biaffine attentional graph-based model Data : Universal Dependencies v2.2 dataset (タスク⾔語, 転移元⾔語共に 30 を選択) → 870 task/transfer pairs zero-shot setting で学習
  12. Evaluation protocol 1 それぞれのタスクのモデルの評価は leave-one-out cross validation で⾏う テストセットに使う⾔語のうち⼀つを test

    データとし、残りは train 学習中は train のデータのうちの⼀つを dev として残りを train に 以上を⾔語の数だけ繰り返す
  13. Evaluation protocol 2 ranking model の評価は NDCG@3 で⾏う (A?B =

    10) : は 番⽬だと予測された⾔語の点数 (gold の top が A?B 、そこから⼀つ順位 が下がるごとに点数が 1 下がる ) IDCG は DCG と同じ計算を gold に対して⾏う NDCG は ranking が全て正しければ 1 になる