Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(最先端NLP2021)Evaluating morphological typology ...

Kaori Abe
September 15, 2021

(最先端NLP2021)Evaluating morphological typology in zero-shot cross-lingual transfer

最先端NLP勉強会2021(2021/9/16-17開催)にて、発表に用いたスライドです。

・最先端NLP勉強会:https://sites.google.com/view/snlp-jp/home/2021?authuser=0

・論文情報
Title: Evaluating morphological typology in zero-shot cross-lingual transfer (ACL 2021)
Authors: Antonio Martínez-García, Toni Badia, Jeremy Barnes
paper URL (ACL anthology): https://aclanthology.org/2021.acl-long.244/

・発表者情報
東北大学 乾研究室
阿部 香央莉

Kaori Abe

September 15, 2021
Tweet

More Decks by Kaori Abe

Other Decks in Research

Transcript

  1. Evaluating morphological typology in zero-shot cross-lingual transfer 読み⼿: 東北⼤学 乾研究室

    D2 阿部 ⾹央莉 ([email protected]) 2021/09/17 第13回最先端NLP勉強会 1 ※スライド中の図表は,特に明記がない限り元論⽂からの抜粋です.
  2. • ⼤規模多⾔語モデルからのCross-lingual transferにより, zero-shot設定(全く⾒たことのない⾔語)でもある程度の精度が 得られることがわかってきた 背景: ⼤規模多⾔語モデルによるzero-shot cross-lingual transferの成功 2021/09/17

    第13回最先端NLP勉強会 2 ⼤規模多⾔語モデル (mBERT, XLMなど) あるタスクのEn データで再学習 再学習済 モデル EN EN もちろんEnデータ は解けるし… タスクのデータは ⾒ていないDeで も解ける︕ De ここがzero-shot EN De Ja Ar Zh
  3. • ⼤規模多⾔語モデルからのCross-lingual transferにより, zero-shot設定(全く⾒たことのない⾔語)でもある程度の精度が 得られることがわかってきた 背景: zero-shot cross-lingual transferが⼀部の⾔語族に効きづらい︖ 2021/09/17

    第13回最先端NLP勉強会 3 ⼤規模多⾔語モデル (mBERT, XLMなど) • しかし,⼀部の⾔語(族)に対しては性能が出ない,という結果が 報告されている (Artetxe+, 2020; Conneau+, 2020a) => が,その報告は 詳細な実証の元に報告されているわけではない あるタスクのEn データで再学習 再学習済 モデル EN EN もちろんEnデータ は解けるし… De ここがzero-shot Ja Ar ✔ ︖ ︖ EN De Ja Ar Zh
  4. • 融合語 (Fusional languages) : 語幹に接辞を融合させる(接辞は場合に よって変化する,屈折語とも呼ばれる) Buss-en kom sen-t

    バス-限定 来た(完了) 遅れる-副詞 • 孤⽴語 (Isola/ng languages) : 語が(接辞などで)変化しない Bus itu datang terlambat バス (that) 来る 遅れて • 膠着語 (Agglu/na/ve languages) : 語幹に接辞を連結させる Autobus-a berandu etorri zen バス-限定 遅れて 来た(分詞) (3⼈称過去-助動詞) • Introflexive languages : ⼦⾳で構成された語根に⺟⾳・⼦⾳を挿⼊ Ix-xarabank waslet tard 限定-バス 来た(完了) 遅れて 導⼊︓⾔語族・類型とはなんぞや︖ 2021/09/17 第13回最先端NLP勉強会 4 ノルウェー語 インドネシア語 バスク語 マルタ語
  5. • 融合語 (Fusional languages) : 語幹に接辞を融合させる(接辞は場合に よって変化する,屈折語とも呼ばれる) Buss-en kom sen-t

    バス-限定 来た(完了) 遅れて-副詞 • 孤⽴語 (Isola/ng languages) : 語幹が(接辞などで)変化しない Bus itu datang terlambat バス (that) 来る 遅れて • 膠着語 (Agglu/na/ve languages) : 語幹に接辞を連結させる Autobus-a berandu etorri zen バス-限定 遅れて 来た(分詞) (3⼈称過去-助動詞) • Introflexive languages : ⼦⾳で構成された語幹に⺟⾳・⼦⾳を挿⼊ Ix-xarabank waslet tard 限定-バス 来た(完了) 遅れて 今回扱う各類型に属す⾔語(19⾔語) 2021/09/17 第13回最先端NLP勉強会 5 ドイツ,スペイン,ス ロバキア,ノルウェー, ギリシャ 中国,タイ, ベトナム, 広東,インド ネシア フィンランド, バスク,韓国, ⽇本,トルコ アラビア,ヘブライ, アルジェリア,マルタ ノルウェー語 インドネシア語 バスク語 マルタ語
  6. RQ1︓形態的類型がどの程度SOTAモデル (mBERT, XLM-R) の性能に影響を及ぼすのか︖ → 現状のモデルは(英語,ドイツ語などが属す) 融合語 に該当する⾔語に fitしてしまっている RQ2︓類型が他変数(データの有無,ドメインの違い)より強い影響を持つのか︖

    • 類型︓POS taggingの場合,特に強い影響を持つ • データの有無︓Sentiment Analysisの場合,再学習に⽤いた⾔語が事前学習に 含まれているかが強く影響する • ドメインの違い︓⼤きな影響は⾒られない RQ3 ︓構造を捉えるタスクと意味を捉えるタスクで影響に違いはあるか︖ → 構造を捉えるタスク (POS tagging) の⽅が,より類型に影響を受けやすい 本研究の貢献︓Cross-lingual transferモデルに対する 3つのResearch Questionの解明 2021/09/17 第13回最先端NLP勉強会 6
  7. 今回の研究の⽬的︓zero-shot cross-lingual transferでの類型の影響調査 2021/09/17 第13回最先端NLP勉強会 7 • 今回はこの⾔語類型4区分 (融合語,孤⽴語,膠着語,Introflexive)を ⽤いて,各類型から各類型へzero-shot

    transferした際の性能差を⾒る En De Es Sk No Gr Mandarin … En De Es Sk No Gr Mandarin … 多⾔語モデルの訓練 (再学習) に使う⾔語 zero-shot の評価に 使う⾔語 この部分の平均を取る = 融合語 → 融合語 での性能 とみる 孤⽴語 → 融合語 融合語 → 孤⽴語
  8. POS taggingにおけるtransfer後のaccuracy 2021/09/17 第13回最先端NLP勉強会 8 POS taggingの場合︓ • 全体的に,最も性能が良いのは同類型へtransferした時 (=対⾓線のスコアが最⾼性能になる)

    • 融合語 → 融合語が(絶対値で)最も性能良い • ただ Introflexive → Introflexive は50%以下の性能となる (Fine-tuning) (Zero-shot)
  9. Semantic analysisにおけるtransfer後のaccuracy 2021/09/17 第13回最先端NLP勉強会 9 • Semantic Analysisの場合︓ • POS

    taggingの時とmBERT, XLM-R共に挙動が異なり,対⾓線 = 最も性能良くなると は限らない • mBERTだと,最も性能が良くなるのがIsolating(孤⽴語)で学習した時となる • XLM-Rだと,POSほどtransferした時に性能下がらない (= Semantic Analysisにおいては,XLM-Rの汎化⼒は⾼い︖)
  10. • Transfer後の影響をより直感的に⾒るため,Transfer lossという指標を導⼊ • 「別⾔語に転移したことでaccuracyがどれくらい下がったか」の指標 • ある⾔語xからyにtransferした時のTransfer lossを以下のように定義︓ 評価指標︓Transfer loss

    2021/09/17 第13回最先端NLP勉強会 10 En De Es … Mandarin … En SEn→En SDe→En SEs→En … SMan→En … De SEn→De SDe→De SEs→De … SMan→De … Es SEn→Es SDe→Es SEs→Es … SMan→Es ... … … … … … … … Mandarin SEn→Man SDe→Man SEs→Man … SMan→Man … … … … … … … … 多⾔語モデルの訓練 (再学習) に使う⾔語 zero- shot の 評価 に 使う ⾔語 例︓TLEn→De = SEn→En - SEn→De • Accuracyの時と 同様に, 類型→類型ごと の結果を得る
  11. RQ1︓形態類型がどの程度SOTAモデル (mBERT, XLM-R) の性能に影響を及ぼすのか︖ RQ2︓類型が他変数(データ量,ドメインの違い)より強い影響を持つのか︖ RQ3 ︓構造を捉えるタスクと意味を捉えるタスクで影響に違いはあるか︖ • 実際やる実験 1.

    同 ó 別類型へtranferした時のtransfer lossの違い 2. 線形回帰モデルで影響が⼤きい変数(類型,データ量など)を調査 3. 学習データ量の違いによるスコアの変化 4. ドメイン不⼀致による性能の影響 Transfer lossを⽤いて,RQを定量的に検証 2021/09/17 第13回最先端NLP勉強会 11
  12. POS Tagging での同・別類型へのTransfer lossの違い 2021/09/17 第13回最先端NLP勉強会 12 RQ1: 形態類型がどの程度SOTAモデルの性能に影響を及ぼすのか︖ →

    上の2点より,⼤規模多⾔語モデルは融合語にfitしている 特にPOS Taggingでは 融合語 (Fusional) は 別類型にtransferすると ⼤きく性能が落ちる (SemanTc Analysisだと そこまで落ちない) 融合語は同類型への Transfer lossが (他の類型と⽐較して) 少ない = 別類型へのtransfer = 同類型へのtransfer 上にいくほど Transfer lossが⼤きい = transfer後に性能が落ちる
  13. • POS tagging (構造を捉える必要があるタスク)での結果 1. 対象⾔語がが事前学習に含まれているか (25.9) 2. 同/別類型へのtransferの違い (8.6)

    3. テスト例のトークン⻑ (4.0) 4. In-language score (3.3) * 括弧内はstandard coefficientの値,mBERTとXLM-Rでほぼ同じ値だったとの事 RQ2: 形態的類型が他の変数より強い影響を持つのか︖ → 各変数からtransfer lossを当てる線形回帰モデルを作成し,影響を測る 線形回帰モデルで POS Tagging へ影響が⼤きい変数を調査 2021/09/17 第13回最先端NLP勉強会 13 ... POS taggingは類型の 変化に敏感 (RQ3) 線形回帰モデル テスト例のトークン⻑ 同/別類型へtransferしたか Pre-trainに対象⾔語を含むか否か Transfer loss 訓練 / 評価 データから 得られる 各変数
  14. RQ2: 形態的類型が他の変数より強い影響を持つのか︖ → 各変数からtransfer lossを当てる線形回帰モデルを作成し,影響を測る • Sentiment Analysis(意味を捉える必要があるタスク)での結果 1. 再学習に使った⾔語が事前学習に含まれているか

    (mBERT: -11.8, XLM-R: -18.7) 2. 対象⾔語が事前学習に含まれているか (mBERT: -10.3, XLM-R: -16.3) 3. In-language score (mBERT: 6.8, XLM-R: 6.5) 4. サブワードに分割される単語の割合 (mBERT: 3.3, XLM-R: 2.7) 5. positiveラベル付きの例の割合 (XLM-Rのみ: -2.8) -. Transfer type (not significant) 線形回帰モデルで Sentiment Analysis へ影響が⼤きい変数を調査 2021/09/17 第13回最先端NLP勉強会 14 線形回帰モデル テスト例のトークン⻑ 同/別類型へtransferしたか Pre-trainに対象⾔語を含むか否か ... Transfer loss 訓練 / 評価 データから 得られる 各変数 Sentiment Analysisでは類型 の影響は⼩さい (RQ3) * 括弧内はstandard coefficientの値
  15. 学習データ量の違いによるスコア(accuracy)の変化 (RQ2, RQ3) 2021/09/17 第13回最先端NLP勉強会 15 • POS taggingは同・別類型か(⻘ó 橙の⽐較)に強く影響される

    • SenLment Analysisは類型の影響(⻘ ó 橙 の差)は少ない • 150,000例(= ⼗分数)訓練事例がある⾔語/タスクのペア(ドイツ語 のPOS tagging, 韓国語のSentiment Analysis)でデータ量の影響を調査 Intra-Group: 同類型へtransfer したとき Inter-Group: 別類型へtransfer したとき 時間があれば
  16. ドメイン不⼀致による性能の影響 (RQ2) 2021/09/17 第13回最先端NLP勉強会 16 • Proxy A-distance (Glorot+, 2011)

    というドメイン不⼀致の指標*を⽤いて, transfer前後のドメイン不⼀致の影響を調査 * 2つのドメイン間を判別する線形SVMモデルを訓練し,その汎化エラーを測る • 各⾔語でのデータをGoogle翻訳で英語に訳した1000⽂と(たぶん)各⾔語での タスクデータとの間での差を測る • POS tagging • mBERT: ⼩さい負の影響 / 有意差なし (-0.07, p > 0.01) • XLM-R: 〃 (-0.07, p > 0.01) • Sentiment Analysis • mBERT: 影響なし / 有意差なし (-0.06, p > 0.01) • XLM-R: ⼩さい負の影響 / 有意差あり (-0.27, p < 0.01) 全体的に,ドメイン不⼀致による⼤きな影響は⾒られなかった (RQ2) ※ピアソン相関 時間があれば
  17. RQ1︓形態類型がどの程度SOTAモデル (mBERT, XLM-R) の性能に影響を及ぼすのか︖ • 類型→類型へのtransferにおける性能の損失(transfer loss)を測った結果, 融合語同⼠のtransferと融合語 → 別類型へのtransferに⼤きな乖離があった

    = 現状のモデルは(英語,ドイツ語などが属す) 融合語 に該当する⾔語に fitしてしまっている RQ2︓類型が他変数(データの有無,ドメインの違い)より強い影響を持つのか︖ → 各変数(データの有無,類型…)からTransfer lossを予測する線形回帰モデルを 学習し,重みによって調査 • 類型︓POS taggingの場合,強い影響を持つ • データの有無︓Sen\ment Analysisの場合,再学習に⽤いた⾔語が事前学習に 含まれているかが強く影響する • (ドメインの違い︓⼤きな影響は⾒られない) RQ3︓構造 or 意味を捉えるタスクで影響に違いはあるか︖ → 構造を捉えるタスク (POS tagging) の⽅が,より類型に影響を受けやすい まとめ(再掲) 2021/09/17 第13回最先端NLP勉強会 17
  18. 😊 19⾔語扱って,かつ⾔語類型を考慮して分析している のが偉い • 類型で分析しよう︕となったときに,体系的には 孤⽴・膠着・融合(屈折)・抱合 or 複統合 or 少数総合的⾔語

    となりそうだが あえてIntroflexiveにしているのが(逆に)偉いのかも 😊 Cross-lingual, Multilingual系で課題になりがちなデータ量,ドメインの 違いにも気を使って(︖)分析している 🤔ドメイン不⼀致,無理⽮理⼊れた感は否めないが…… 🤔 低次元/⾼次元タスク に対する影響としての結論を出すには, POS taggingだけ/semantic analysisだけだと不⼗分な気も︖ • しかし,⾔語横断的に & それなりに(他⾔語話者でも)使えるよう 整備されているデータがあるタスクは少ないのが現状か この論⽂についての感想 2021/09/17 第13回最先端NLP勉強会 18
  19. 「⼦⾳で構成された語幹に⺟⾳・⼦⾳を挿⼊」 とは︖ → 3⼦⾳で語幹となる その合間に⺟⾳を⼊れたり,⼦⾳を重ねたりする ← これが⽂法的な役割 マルタ語Wikipedia* より︓ 「書く」を表す三つの⼦⾳ktbに,接中辞-i,

    接尾辞-naを加えてktibna (私たちは書いた)を作る(アラビア語だと katabna, ヘブライ語だとkatavnu) • (妄想)Introflexive 同⼠のtransferがあまりうまく⾏かない理由 → Script問題︖ • マルタ語はラテン⽂字でも記述可能(最初の例にマルタ語が使われているのも このため︖) • アルジェリア語はアラビア語の⽅⾔的な側⾯がある(⽅⾔も現代標準アラビア表記と 異なる) • [Muller+, 2020] : アラビア語と近い⾔語に関して,Scriptが異なる時のzero-shot transfer の影響を報告(Modern Standard Arabic, MSA or ラテン⽂字) Introflexive language 2021/09/17 第13回最先端NLP勉強会 23 * hXps://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%AB%E3%82%BF%E8%AA%9E
  20. • 「別⾔語に転移したことでaccuracyがどれくらい下がったか」の指標 • ある⾔語xからyにtransferした時のTransfer lossを以下のように定義︓ 評価指標︓Transfer loss 2021/09/17 第13回最先端NLP勉強会 24

    • 「⾔語類型ごとの違い」を⾒るため,同じ類型(融合・孤⽴・ 膠着・introflexive)に属す⾔語全部での平均を取る • まず対象⾔語側を平均化して, • 次に源⾔語側を平均化する S: 再学習後のスコア A: ある類型に属す⾔語のセット N_A: Aに含まれる⾔語数
  21. Seman?c Analysisでの同・別類型へのTransfer lossの違い 2021/09/17 第13回最先端NLP勉強会 25 RQ1: 形態類型がどの程度SOTAモデルの性能に影響を及ぼすのか︖ • Seman=c

    Analysisは POS taggingほど 同 ó 別類型で⼤きな傾きにならない = 類型の差にはあまり影響受けない (RQ2) • 基本的に の傾きになっている = 同類型より別類型へのtransferの⽅が難しい
  22. • 融合語 (Fusional languages) • 英語,ドイツ語,スペイン語,スロバキア語,ノルウェー語,ギリシャ語 • 孤⽴語 (Isolating languages)

    • 中国語 (標準中国語),タイ語,ベトナム語,広東語,インドネシア語 • 膠着語 (Agglutinative languages) • フィンランド語,バスク語,韓国語,⽇本語,トルコ語 • Introflexive languages • アラビア語,ヘブライ語,アルジェリア語,マルタ語 • 太字の3⾔語は事前学習時に含まれていない → 「事前に⼀度でも⾒た ことあるか」による性能差が⼤きい (p11, 12) ため,この3⾔語を 除いて観察してみた (→ 次ページ) mBERT, XLM-Rの事前学習に含まれていない⾔語がいくつかある 2021/09/17 第13回最先端NLP勉強会 26
  23. • In-language scoreとは︖ → 論⽂内を検索しても,具体的 な定義がない…︖ (おそらくin-domain score”的な ノリで,cross-lingualでなく普通に その⾔語データで訓練したモデルで

    の値︖) • POS taggingの結果のみ変化 • 同類型へのtransfer時の 平均が(In-language scoreを 揃えていない時と⽐較して) 落ちている In-language Scoreを揃えた時の結果 2021/09/17 第13回最先端NLP勉強会 28