Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(最先端NLP2021)Evaluating morphological typology ...

Avatar for Kaori Abe Kaori Abe
September 15, 2021

(最先端NLP2021)Evaluating morphological typology in zero-shot cross-lingual transfer

最先端NLP勉強会2021(2021/9/16-17開催)にて、発表に用いたスライドです。

・最先端NLP勉強会:https://sites.google.com/view/snlp-jp/home/2021?authuser=0

・論文情報
Title: Evaluating morphological typology in zero-shot cross-lingual transfer (ACL 2021)
Authors: Antonio Martínez-García, Toni Badia, Jeremy Barnes
paper URL (ACL anthology): https://aclanthology.org/2021.acl-long.244/

・発表者情報
東北大学 乾研究室
阿部 香央莉

Avatar for Kaori Abe

Kaori Abe

September 15, 2021
Tweet

More Decks by Kaori Abe

Other Decks in Research

Transcript

  1. Evaluating morphological typology in zero-shot cross-lingual transfer 読み⼿: 東北⼤学 乾研究室

    D2 阿部 ⾹央莉 ([email protected]) 2021/09/17 第13回最先端NLP勉強会 1 ※スライド中の図表は,特に明記がない限り元論⽂からの抜粋です.
  2. • ⼤規模多⾔語モデルからのCross-lingual transferにより, zero-shot設定(全く⾒たことのない⾔語)でもある程度の精度が 得られることがわかってきた 背景: ⼤規模多⾔語モデルによるzero-shot cross-lingual transferの成功 2021/09/17

    第13回最先端NLP勉強会 2 ⼤規模多⾔語モデル (mBERT, XLMなど) あるタスクのEn データで再学習 再学習済 モデル EN EN もちろんEnデータ は解けるし… タスクのデータは ⾒ていないDeで も解ける︕ De ここがzero-shot EN De Ja Ar Zh
  3. • ⼤規模多⾔語モデルからのCross-lingual transferにより, zero-shot設定(全く⾒たことのない⾔語)でもある程度の精度が 得られることがわかってきた 背景: zero-shot cross-lingual transferが⼀部の⾔語族に効きづらい︖ 2021/09/17

    第13回最先端NLP勉強会 3 ⼤規模多⾔語モデル (mBERT, XLMなど) • しかし,⼀部の⾔語(族)に対しては性能が出ない,という結果が 報告されている (Artetxe+, 2020; Conneau+, 2020a) => が,その報告は 詳細な実証の元に報告されているわけではない あるタスクのEn データで再学習 再学習済 モデル EN EN もちろんEnデータ は解けるし… De ここがzero-shot Ja Ar ✔ ︖ ︖ EN De Ja Ar Zh
  4. • 融合語 (Fusional languages) : 語幹に接辞を融合させる(接辞は場合に よって変化する,屈折語とも呼ばれる) Buss-en kom sen-t

    バス-限定 来た(完了) 遅れる-副詞 • 孤⽴語 (Isola/ng languages) : 語が(接辞などで)変化しない Bus itu datang terlambat バス (that) 来る 遅れて • 膠着語 (Agglu/na/ve languages) : 語幹に接辞を連結させる Autobus-a berandu etorri zen バス-限定 遅れて 来た(分詞) (3⼈称過去-助動詞) • Introflexive languages : ⼦⾳で構成された語根に⺟⾳・⼦⾳を挿⼊ Ix-xarabank waslet tard 限定-バス 来た(完了) 遅れて 導⼊︓⾔語族・類型とはなんぞや︖ 2021/09/17 第13回最先端NLP勉強会 4 ノルウェー語 インドネシア語 バスク語 マルタ語
  5. • 融合語 (Fusional languages) : 語幹に接辞を融合させる(接辞は場合に よって変化する,屈折語とも呼ばれる) Buss-en kom sen-t

    バス-限定 来た(完了) 遅れて-副詞 • 孤⽴語 (Isola/ng languages) : 語幹が(接辞などで)変化しない Bus itu datang terlambat バス (that) 来る 遅れて • 膠着語 (Agglu/na/ve languages) : 語幹に接辞を連結させる Autobus-a berandu etorri zen バス-限定 遅れて 来た(分詞) (3⼈称過去-助動詞) • Introflexive languages : ⼦⾳で構成された語幹に⺟⾳・⼦⾳を挿⼊ Ix-xarabank waslet tard 限定-バス 来た(完了) 遅れて 今回扱う各類型に属す⾔語(19⾔語) 2021/09/17 第13回最先端NLP勉強会 5 ドイツ,スペイン,ス ロバキア,ノルウェー, ギリシャ 中国,タイ, ベトナム, 広東,インド ネシア フィンランド, バスク,韓国, ⽇本,トルコ アラビア,ヘブライ, アルジェリア,マルタ ノルウェー語 インドネシア語 バスク語 マルタ語
  6. RQ1︓形態的類型がどの程度SOTAモデル (mBERT, XLM-R) の性能に影響を及ぼすのか︖ → 現状のモデルは(英語,ドイツ語などが属す) 融合語 に該当する⾔語に fitしてしまっている RQ2︓類型が他変数(データの有無,ドメインの違い)より強い影響を持つのか︖

    • 類型︓POS taggingの場合,特に強い影響を持つ • データの有無︓Sentiment Analysisの場合,再学習に⽤いた⾔語が事前学習に 含まれているかが強く影響する • ドメインの違い︓⼤きな影響は⾒られない RQ3 ︓構造を捉えるタスクと意味を捉えるタスクで影響に違いはあるか︖ → 構造を捉えるタスク (POS tagging) の⽅が,より類型に影響を受けやすい 本研究の貢献︓Cross-lingual transferモデルに対する 3つのResearch Questionの解明 2021/09/17 第13回最先端NLP勉強会 6
  7. 今回の研究の⽬的︓zero-shot cross-lingual transferでの類型の影響調査 2021/09/17 第13回最先端NLP勉強会 7 • 今回はこの⾔語類型4区分 (融合語,孤⽴語,膠着語,Introflexive)を ⽤いて,各類型から各類型へzero-shot

    transferした際の性能差を⾒る En De Es Sk No Gr Mandarin … En De Es Sk No Gr Mandarin … 多⾔語モデルの訓練 (再学習) に使う⾔語 zero-shot の評価に 使う⾔語 この部分の平均を取る = 融合語 → 融合語 での性能 とみる 孤⽴語 → 融合語 融合語 → 孤⽴語
  8. POS taggingにおけるtransfer後のaccuracy 2021/09/17 第13回最先端NLP勉強会 8 POS taggingの場合︓ • 全体的に,最も性能が良いのは同類型へtransferした時 (=対⾓線のスコアが最⾼性能になる)

    • 融合語 → 融合語が(絶対値で)最も性能良い • ただ Introflexive → Introflexive は50%以下の性能となる (Fine-tuning) (Zero-shot)
  9. Semantic analysisにおけるtransfer後のaccuracy 2021/09/17 第13回最先端NLP勉強会 9 • Semantic Analysisの場合︓ • POS

    taggingの時とmBERT, XLM-R共に挙動が異なり,対⾓線 = 最も性能良くなると は限らない • mBERTだと,最も性能が良くなるのがIsolating(孤⽴語)で学習した時となる • XLM-Rだと,POSほどtransferした時に性能下がらない (= Semantic Analysisにおいては,XLM-Rの汎化⼒は⾼い︖)
  10. • Transfer後の影響をより直感的に⾒るため,Transfer lossという指標を導⼊ • 「別⾔語に転移したことでaccuracyがどれくらい下がったか」の指標 • ある⾔語xからyにtransferした時のTransfer lossを以下のように定義︓ 評価指標︓Transfer loss

    2021/09/17 第13回最先端NLP勉強会 10 En De Es … Mandarin … En SEn→En SDe→En SEs→En … SMan→En … De SEn→De SDe→De SEs→De … SMan→De … Es SEn→Es SDe→Es SEs→Es … SMan→Es ... … … … … … … … Mandarin SEn→Man SDe→Man SEs→Man … SMan→Man … … … … … … … … 多⾔語モデルの訓練 (再学習) に使う⾔語 zero- shot の 評価 に 使う ⾔語 例︓TLEn→De = SEn→En - SEn→De • Accuracyの時と 同様に, 類型→類型ごと の結果を得る
  11. RQ1︓形態類型がどの程度SOTAモデル (mBERT, XLM-R) の性能に影響を及ぼすのか︖ RQ2︓類型が他変数(データ量,ドメインの違い)より強い影響を持つのか︖ RQ3 ︓構造を捉えるタスクと意味を捉えるタスクで影響に違いはあるか︖ • 実際やる実験 1.

    同 ó 別類型へtranferした時のtransfer lossの違い 2. 線形回帰モデルで影響が⼤きい変数(類型,データ量など)を調査 3. 学習データ量の違いによるスコアの変化 4. ドメイン不⼀致による性能の影響 Transfer lossを⽤いて,RQを定量的に検証 2021/09/17 第13回最先端NLP勉強会 11
  12. POS Tagging での同・別類型へのTransfer lossの違い 2021/09/17 第13回最先端NLP勉強会 12 RQ1: 形態類型がどの程度SOTAモデルの性能に影響を及ぼすのか︖ →

    上の2点より,⼤規模多⾔語モデルは融合語にfitしている 特にPOS Taggingでは 融合語 (Fusional) は 別類型にtransferすると ⼤きく性能が落ちる (SemanTc Analysisだと そこまで落ちない) 融合語は同類型への Transfer lossが (他の類型と⽐較して) 少ない = 別類型へのtransfer = 同類型へのtransfer 上にいくほど Transfer lossが⼤きい = transfer後に性能が落ちる
  13. • POS tagging (構造を捉える必要があるタスク)での結果 1. 対象⾔語がが事前学習に含まれているか (25.9) 2. 同/別類型へのtransferの違い (8.6)

    3. テスト例のトークン⻑ (4.0) 4. In-language score (3.3) * 括弧内はstandard coefficientの値,mBERTとXLM-Rでほぼ同じ値だったとの事 RQ2: 形態的類型が他の変数より強い影響を持つのか︖ → 各変数からtransfer lossを当てる線形回帰モデルを作成し,影響を測る 線形回帰モデルで POS Tagging へ影響が⼤きい変数を調査 2021/09/17 第13回最先端NLP勉強会 13 ... POS taggingは類型の 変化に敏感 (RQ3) 線形回帰モデル テスト例のトークン⻑ 同/別類型へtransferしたか Pre-trainに対象⾔語を含むか否か Transfer loss 訓練 / 評価 データから 得られる 各変数
  14. RQ2: 形態的類型が他の変数より強い影響を持つのか︖ → 各変数からtransfer lossを当てる線形回帰モデルを作成し,影響を測る • Sentiment Analysis(意味を捉える必要があるタスク)での結果 1. 再学習に使った⾔語が事前学習に含まれているか

    (mBERT: -11.8, XLM-R: -18.7) 2. 対象⾔語が事前学習に含まれているか (mBERT: -10.3, XLM-R: -16.3) 3. In-language score (mBERT: 6.8, XLM-R: 6.5) 4. サブワードに分割される単語の割合 (mBERT: 3.3, XLM-R: 2.7) 5. positiveラベル付きの例の割合 (XLM-Rのみ: -2.8) -. Transfer type (not significant) 線形回帰モデルで Sentiment Analysis へ影響が⼤きい変数を調査 2021/09/17 第13回最先端NLP勉強会 14 線形回帰モデル テスト例のトークン⻑ 同/別類型へtransferしたか Pre-trainに対象⾔語を含むか否か ... Transfer loss 訓練 / 評価 データから 得られる 各変数 Sentiment Analysisでは類型 の影響は⼩さい (RQ3) * 括弧内はstandard coefficientの値
  15. 学習データ量の違いによるスコア(accuracy)の変化 (RQ2, RQ3) 2021/09/17 第13回最先端NLP勉強会 15 • POS taggingは同・別類型か(⻘ó 橙の⽐較)に強く影響される

    • SenLment Analysisは類型の影響(⻘ ó 橙 の差)は少ない • 150,000例(= ⼗分数)訓練事例がある⾔語/タスクのペア(ドイツ語 のPOS tagging, 韓国語のSentiment Analysis)でデータ量の影響を調査 Intra-Group: 同類型へtransfer したとき Inter-Group: 別類型へtransfer したとき 時間があれば
  16. ドメイン不⼀致による性能の影響 (RQ2) 2021/09/17 第13回最先端NLP勉強会 16 • Proxy A-distance (Glorot+, 2011)

    というドメイン不⼀致の指標*を⽤いて, transfer前後のドメイン不⼀致の影響を調査 * 2つのドメイン間を判別する線形SVMモデルを訓練し,その汎化エラーを測る • 各⾔語でのデータをGoogle翻訳で英語に訳した1000⽂と(たぶん)各⾔語での タスクデータとの間での差を測る • POS tagging • mBERT: ⼩さい負の影響 / 有意差なし (-0.07, p > 0.01) • XLM-R: 〃 (-0.07, p > 0.01) • Sentiment Analysis • mBERT: 影響なし / 有意差なし (-0.06, p > 0.01) • XLM-R: ⼩さい負の影響 / 有意差あり (-0.27, p < 0.01) 全体的に,ドメイン不⼀致による⼤きな影響は⾒られなかった (RQ2) ※ピアソン相関 時間があれば
  17. RQ1︓形態類型がどの程度SOTAモデル (mBERT, XLM-R) の性能に影響を及ぼすのか︖ • 類型→類型へのtransferにおける性能の損失(transfer loss)を測った結果, 融合語同⼠のtransferと融合語 → 別類型へのtransferに⼤きな乖離があった

    = 現状のモデルは(英語,ドイツ語などが属す) 融合語 に該当する⾔語に fitしてしまっている RQ2︓類型が他変数(データの有無,ドメインの違い)より強い影響を持つのか︖ → 各変数(データの有無,類型…)からTransfer lossを予測する線形回帰モデルを 学習し,重みによって調査 • 類型︓POS taggingの場合,強い影響を持つ • データの有無︓Sen\ment Analysisの場合,再学習に⽤いた⾔語が事前学習に 含まれているかが強く影響する • (ドメインの違い︓⼤きな影響は⾒られない) RQ3︓構造 or 意味を捉えるタスクで影響に違いはあるか︖ → 構造を捉えるタスク (POS tagging) の⽅が,より類型に影響を受けやすい まとめ(再掲) 2021/09/17 第13回最先端NLP勉強会 17
  18. 😊 19⾔語扱って,かつ⾔語類型を考慮して分析している のが偉い • 類型で分析しよう︕となったときに,体系的には 孤⽴・膠着・融合(屈折)・抱合 or 複統合 or 少数総合的⾔語

    となりそうだが あえてIntroflexiveにしているのが(逆に)偉いのかも 😊 Cross-lingual, Multilingual系で課題になりがちなデータ量,ドメインの 違いにも気を使って(︖)分析している 🤔ドメイン不⼀致,無理⽮理⼊れた感は否めないが…… 🤔 低次元/⾼次元タスク に対する影響としての結論を出すには, POS taggingだけ/semantic analysisだけだと不⼗分な気も︖ • しかし,⾔語横断的に & それなりに(他⾔語話者でも)使えるよう 整備されているデータがあるタスクは少ないのが現状か この論⽂についての感想 2021/09/17 第13回最先端NLP勉強会 18
  19. 「⼦⾳で構成された語幹に⺟⾳・⼦⾳を挿⼊」 とは︖ → 3⼦⾳で語幹となる その合間に⺟⾳を⼊れたり,⼦⾳を重ねたりする ← これが⽂法的な役割 マルタ語Wikipedia* より︓ 「書く」を表す三つの⼦⾳ktbに,接中辞-i,

    接尾辞-naを加えてktibna (私たちは書いた)を作る(アラビア語だと katabna, ヘブライ語だとkatavnu) • (妄想)Introflexive 同⼠のtransferがあまりうまく⾏かない理由 → Script問題︖ • マルタ語はラテン⽂字でも記述可能(最初の例にマルタ語が使われているのも このため︖) • アルジェリア語はアラビア語の⽅⾔的な側⾯がある(⽅⾔も現代標準アラビア表記と 異なる) • [Muller+, 2020] : アラビア語と近い⾔語に関して,Scriptが異なる時のzero-shot transfer の影響を報告(Modern Standard Arabic, MSA or ラテン⽂字) Introflexive language 2021/09/17 第13回最先端NLP勉強会 23 * hXps://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%AB%E3%82%BF%E8%AA%9E
  20. • 「別⾔語に転移したことでaccuracyがどれくらい下がったか」の指標 • ある⾔語xからyにtransferした時のTransfer lossを以下のように定義︓ 評価指標︓Transfer loss 2021/09/17 第13回最先端NLP勉強会 24

    • 「⾔語類型ごとの違い」を⾒るため,同じ類型(融合・孤⽴・ 膠着・introflexive)に属す⾔語全部での平均を取る • まず対象⾔語側を平均化して, • 次に源⾔語側を平均化する S: 再学習後のスコア A: ある類型に属す⾔語のセット N_A: Aに含まれる⾔語数
  21. Seman?c Analysisでの同・別類型へのTransfer lossの違い 2021/09/17 第13回最先端NLP勉強会 25 RQ1: 形態類型がどの程度SOTAモデルの性能に影響を及ぼすのか︖ • Seman=c

    Analysisは POS taggingほど 同 ó 別類型で⼤きな傾きにならない = 類型の差にはあまり影響受けない (RQ2) • 基本的に の傾きになっている = 同類型より別類型へのtransferの⽅が難しい
  22. • 融合語 (Fusional languages) • 英語,ドイツ語,スペイン語,スロバキア語,ノルウェー語,ギリシャ語 • 孤⽴語 (Isolating languages)

    • 中国語 (標準中国語),タイ語,ベトナム語,広東語,インドネシア語 • 膠着語 (Agglutinative languages) • フィンランド語,バスク語,韓国語,⽇本語,トルコ語 • Introflexive languages • アラビア語,ヘブライ語,アルジェリア語,マルタ語 • 太字の3⾔語は事前学習時に含まれていない → 「事前に⼀度でも⾒た ことあるか」による性能差が⼤きい (p11, 12) ため,この3⾔語を 除いて観察してみた (→ 次ページ) mBERT, XLM-Rの事前学習に含まれていない⾔語がいくつかある 2021/09/17 第13回最先端NLP勉強会 26
  23. • In-language scoreとは︖ → 論⽂内を検索しても,具体的 な定義がない…︖ (おそらくin-domain score”的な ノリで,cross-lingualでなく普通に その⾔語データで訓練したモデルで

    の値︖) • POS taggingの結果のみ変化 • 同類型へのtransfer時の 平均が(In-language scoreを 揃えていない時と⽐較して) 落ちている In-language Scoreを揃えた時の結果 2021/09/17 第13回最先端NLP勉強会 28