（最先端NLP2021）Evaluating morphological typology in zero-shot cross-lingual transfer

Evaluating morphological typology in zero-shot cross-lingual transfer 読み⼿: 東北⼤学乾研究室
D2 阿部⾹央莉 ([email protected]) 2021/09/17 第13回最先端NLP勉強会 1 ※スライド中の図表は，特に明記がない限り元論⽂からの抜粋です．

• ⼤規模多⾔語モデルからのCross-lingual transferにより， zero-shot設定（全く⾒たことのない⾔語）でもある程度の精度が得られることがわかってきた背景: ⼤規模多⾔語モデルによるzero-shot cross-lingual transferの成功 2021/09/17
第13回最先端NLP勉強会 2 ⼤規模多⾔語モデル（mBERT, XLMなど）あるタスクのEn データで再学習再学習済モデル EN EN もちろんEnデータは解けるし… タスクのデータは⾒ていないDeでも解ける︕ De ここがzero-shot EN De Ja Ar Zh

• ⼤規模多⾔語モデルからのCross-lingual transferにより， zero-shot設定（全く⾒たことのない⾔語）でもある程度の精度が得られることがわかってきた背景: zero-shot cross-lingual transferが⼀部の⾔語族に効きづらい︖ 2021/09/17
第13回最先端NLP勉強会 3 ⼤規模多⾔語モデル（mBERT, XLMなど） • しかし，⼀部の⾔語（族）に対しては性能が出ない，という結果が報告されている (Artetxe+, 2020; Conneau+, 2020a) => が，その報告は詳細な実証の元に報告されているわけではないあるタスクのEn データで再学習再学習済モデル EN EN もちろんEnデータは解けるし… De ここがzero-shot Ja Ar ✔ ︖ ︖ EN De Ja Ar Zh

• 融合語 (Fusional languages) : 語幹に接辞を融合させる（接辞は場合によって変化する，屈折語とも呼ばれる） Buss-en kom sen-t
バス-限定来た(完了) 遅れる-副詞 • 孤⽴語 (Isola/ng languages) : 語が（接辞などで）変化しない Bus itu datang terlambat バス (that) 来る遅れて • 膠着語 (Agglu/na/ve languages) : 語幹に接辞を連結させる Autobus-a berandu etorri zen バス-限定遅れて来た(分詞) (3⼈称過去-助動詞) • Introﬂexive languages : ⼦⾳で構成された語根に⺟⾳・⼦⾳を挿⼊ Ix-xarabank waslet tard 限定-バス来た(完了) 遅れて導⼊︓⾔語族・類型とはなんぞや︖ 2021/09/17 第13回最先端NLP勉強会 4 ノルウェー語インドネシア語バスク語マルタ語

• 融合語 (Fusional languages) : 語幹に接辞を融合させる（接辞は場合によって変化する，屈折語とも呼ばれる） Buss-en kom sen-t
バス-限定来た(完了) 遅れて-副詞 • 孤⽴語 (Isola/ng languages) : 語幹が（接辞などで）変化しない Bus itu datang terlambat バス (that) 来る遅れて • 膠着語 (Agglu/na/ve languages) : 語幹に接辞を連結させる Autobus-a berandu etorri zen バス-限定遅れて来た(分詞) (3⼈称過去-助動詞) • Introﬂexive languages : ⼦⾳で構成された語幹に⺟⾳・⼦⾳を挿⼊ Ix-xarabank waslet tard 限定-バス来た(完了) 遅れて今回扱う各類型に属す⾔語（19⾔語） 2021/09/17 第13回最先端NLP勉強会 5 ドイツ，スペイン，スロバキア，ノルウェー，ギリシャ中国，タイ，ベトナム，広東，インドネシアフィンランド，バスク，韓国，⽇本，トルコアラビア，ヘブライ，アルジェリア，マルタノルウェー語インドネシア語バスク語マルタ語

RQ1︓形態的類型がどの程度SOTAモデル (mBERT, XLM-R) の性能に影響を及ぼすのか︖ → 現状のモデルは（英語，ドイツ語などが属す）融合語に該当する⾔語に fitしてしまっている RQ2︓類型が他変数（データの有無，ドメインの違い）より強い影響を持つのか︖
• 類型︓POS taggingの場合，特に強い影響を持つ • データの有無︓Sentiment Analysisの場合，再学習に⽤いた⾔語が事前学習に含まれているかが強く影響する • ドメインの違い︓⼤きな影響は⾒られない RQ3 ︓構造を捉えるタスクと意味を捉えるタスクで影響に違いはあるか︖ → 構造を捉えるタスク (POS tagging) の⽅が，より類型に影響を受けやすい本研究の貢献︓Cross-lingual transferモデルに対する 3つのResearch Questionの解明 2021/09/17 第13回最先端NLP勉強会 6

今回の研究の⽬的︓zero-shot cross-lingual transferでの類型の影響調査 2021/09/17 第13回最先端NLP勉強会 7 • 今回はこの⾔語類型4区分 (融合語，孤⽴語，膠着語，Introﬂexive)を⽤いて，各類型から各類型へzero-shot
transferした際の性能差を⾒る En De Es Sk No Gr Mandarin … En De Es Sk No Gr Mandarin … 多⾔語モデルの訓練 (再学習) に使う⾔語 zero-shot の評価に使う⾔語この部分の平均を取る = 融合語 → 融合語での性能とみる孤⽴語 → 融合語融合語 → 孤⽴語

POS taggingにおけるtransfer後のaccuracy 2021/09/17 第13回最先端NLP勉強会 8 POS taggingの場合︓ • 全体的に，最も性能が良いのは同類型へtransferした時（=対⾓線のスコアが最⾼性能になる）
• 融合語 → 融合語が（絶対値で）最も性能良い • ただ Introflexive → Introflexive は50%以下の性能となる (Fine-tuning) (Zero-shot)

Semantic analysisにおけるtransfer後のaccuracy 2021/09/17 第13回最先端NLP勉強会 9 • Semantic Analysisの場合︓ • POS
taggingの時とmBERT, XLM-R共に挙動が異なり，対⾓線 = 最も性能良くなるとは限らない • mBERTだと，最も性能が良くなるのがIsolating（孤⽴語）で学習した時となる • XLM-Rだと，POSほどtransferした時に性能下がらない（= Semantic Analysisにおいては，XLM-Rの汎化⼒は⾼い︖）

• Transfer後の影響をより直感的に⾒るため，Transfer lossという指標を導⼊ • 「別⾔語に転移したことでaccuracyがどれくらい下がったか」の指標 • ある⾔語xからyにtransferした時のTransfer lossを以下のように定義︓ 評価指標︓Transfer loss
2021/09/17 第13回最先端NLP勉強会 10 En De Es … Mandarin … En SEn→En SDe→En SEs→En … SMan→En … De SEn→De SDe→De SEs→De … SMan→De … Es SEn→Es SDe→Es SEs→Es … SMan→Es ... … … … … … … … Mandarin SEn→Man SDe→Man SEs→Man … SMan→Man … … … … … … … … 多⾔語モデルの訓練 (再学習) に使う⾔語 zero- shot の評価に使う⾔語例︓TLEn→De = SEn→En - SEn→De • Accuracyの時と同様に，類型→類型ごとの結果を得る

RQ1︓形態類型がどの程度SOTAモデル (mBERT, XLM-R) の性能に影響を及ぼすのか︖ RQ2︓類型が他変数（データ量，ドメインの違い）より強い影響を持つのか︖ RQ3 ︓構造を捉えるタスクと意味を捉えるタスクで影響に違いはあるか︖ • 実際やる実験 1.
同 ó 別類型へtranferした時のtransfer lossの違い 2. 線形回帰モデルで影響が⼤きい変数（類型，データ量など）を調査 3. 学習データ量の違いによるスコアの変化 4. ドメイン不⼀致による性能の影響 Transfer lossを⽤いて，RQを定量的に検証 2021/09/17 第13回最先端NLP勉強会 11

POS Tagging での同・別類型へのTransfer lossの違い 2021/09/17 第13回最先端NLP勉強会 12 RQ1: 形態類型がどの程度SOTAモデルの性能に影響を及ぼすのか︖ →
上の2点より，⼤規模多⾔語モデルは融合語にfitしている特にPOS Taggingでは融合語 (Fusional) は別類型にtransferすると⼤きく性能が落ちる（SemanTc Analysisだとそこまで落ちない）融合語は同類型への Transfer lossが（他の類型と⽐較して）少ない = 別類型へのtransfer = 同類型へのtransfer 上にいくほど Transfer lossが⼤きい = transfer後に性能が落ちる

• POS tagging （構造を捉える必要があるタスク）での結果 1. 対象⾔語がが事前学習に含まれているか (25.9) 2. 同/別類型へのtransferの違い (8.6)
3. テスト例のトークン⻑ (4.0) 4. In-language score (3.3) * 括弧内はstandard coeﬃcientの値，mBERTとXLM-Rでほぼ同じ値だったとの事 RQ2: 形態的類型が他の変数より強い影響を持つのか︖ → 各変数からtransfer lossを当てる線形回帰モデルを作成し，影響を測る線形回帰モデルで POS Tagging へ影響が⼤きい変数を調査 2021/09/17 第13回最先端NLP勉強会 13 ... POS taggingは類型の変化に敏感 (RQ3) 線形回帰モデルテスト例のトークン⻑同/別類型へtransferしたか Pre-trainに対象⾔語を含むか否か Transfer loss 訓練 / 評価データから得られる各変数

RQ2: 形態的類型が他の変数より強い影響を持つのか︖ → 各変数からtransfer lossを当てる線形回帰モデルを作成し，影響を測る • Sentiment Analysis（意味を捉える必要があるタスク）での結果 1. 再学習に使った⾔語が事前学習に含まれているか
(mBERT: -11.8, XLM-R: -18.7) 2. 対象⾔語が事前学習に含まれているか (mBERT: -10.3, XLM-R: -16.3) 3. In-language score (mBERT: 6.8, XLM-R: 6.5) 4. サブワードに分割される単語の割合 (mBERT: 3.3, XLM-R: 2.7) 5. positiveラベル付きの例の割合 (XLM-Rのみ: -2.8) -. Transfer type (not significant) 線形回帰モデルで Sentiment Analysis へ影響が⼤きい変数を調査 2021/09/17 第13回最先端NLP勉強会 14 線形回帰モデルテスト例のトークン⻑同/別類型へtransferしたか Pre-trainに対象⾔語を含むか否か ... Transfer loss 訓練 / 評価データから得られる各変数 Sentiment Analysisでは類型の影響は⼩さい (RQ3) * 括弧内はstandard coeﬃcientの値

学習データ量の違いによるスコア（accuracy）の変化 (RQ2, RQ3) 2021/09/17 第13回最先端NLP勉強会 15 • POS taggingは同・別類型か（⻘ó 橙の⽐較）に強く影響される
• SenLment Analysisは類型の影響（⻘ ó 橙の差）は少ない • 150,000例（= ⼗分数）訓練事例がある⾔語/タスクのペア（ドイツ語のPOS tagging, 韓国語のSentiment Analysis）でデータ量の影響を調査 Intra-Group: 同類型へtransfer したとき Inter-Group: 別類型へtransfer したとき時間があれば

ドメイン不⼀致による性能の影響 (RQ2) 2021/09/17 第13回最先端NLP勉強会 16 • Proxy A-distance (Glorot+, 2011)
というドメイン不⼀致の指標*を⽤いて， transfer前後のドメイン不⼀致の影響を調査 * 2つのドメイン間を判別する線形SVMモデルを訓練し，その汎化エラーを測る • 各⾔語でのデータをGoogle翻訳で英語に訳した1000⽂と（たぶん）各⾔語でのタスクデータとの間での差を測る • POS tagging • mBERT: ⼩さい負の影響 / 有意差なし (-0.07, p > 0.01) • XLM-R: 〃 (-0.07, p > 0.01) • Sentiment Analysis • mBERT: 影響なし / 有意差なし (-0.06, p > 0.01) • XLM-R: ⼩さい負の影響 / 有意差あり (-0.27, p < 0.01) 全体的に，ドメイン不⼀致による⼤きな影響は⾒られなかった (RQ2) ※ピアソン相関時間があれば

RQ1︓形態類型がどの程度SOTAモデル (mBERT, XLM-R) の性能に影響を及ぼすのか︖ • 類型→類型へのtransferにおける性能の損失（transfer loss）を測った結果，融合語同⼠のtransferと融合語 → 別類型へのtransferに⼤きな乖離があった
= 現状のモデルは（英語，ドイツ語などが属す）融合語に該当する⾔語に ﬁtしてしまっている RQ2︓類型が他変数（データの有無，ドメインの違い）より強い影響を持つのか︖ → 各変数（データの有無，類型…）からTransfer lossを予測する線形回帰モデルを学習し，重みによって調査 • 類型︓POS taggingの場合，強い影響を持つ • データの有無︓Sen\ment Analysisの場合，再学習に⽤いた⾔語が事前学習に含まれているかが強く影響する • （ドメインの違い︓⼤きな影響は⾒られない） RQ3︓構造 or 意味を捉えるタスクで影響に違いはあるか︖ → 構造を捉えるタスク (POS tagging) の⽅が，より類型に影響を受けやすいまとめ（再掲） 2021/09/17 第13回最先端NLP勉強会 17

😊 19⾔語扱って，かつ⾔語類型を考慮して分析しているのが偉い • 類型で分析しよう︕となったときに，体系的には孤⽴・膠着・融合（屈折）・抱合 or 複統合 or 少数総合的⾔語
となりそうだがあえてIntroflexiveにしているのが（逆に）偉いのかも 😊 Cross-lingual, Multilingual系で課題になりがちなデータ量，ドメインの違いにも気を使って（︖）分析している 🤔ドメイン不⼀致，無理⽮理⼊れた感は否めないが…… 🤔 低次元/⾼次元タスクに対する影響としての結論を出すには， POS taggingだけ/semantic analysisだけだと不⼗分な気も︖ • しかし，⾔語横断的に & それなりに（他⾔語話者でも）使えるよう整備されているデータがあるタスクは少ないのが現状かこの論⽂についての感想 2021/09/17 第13回最先端NLP勉強会 18

Appendix 2021/09/17 第13回最先端NLP勉強会 19

各⾔語で使⽤したデータ量 2021/09/17 第13回最先端NLP勉強会 20

データの出どころ 2021/09/17 第13回最先端NLP勉強会 21

各データのドメイン 2021/09/17 第13回最先端NLP勉強会 22

「⼦⾳で構成された語幹に⺟⾳・⼦⾳を挿⼊」とは︖ → 3⼦⾳で語幹となるその合間に⺟⾳を⼊れたり，⼦⾳を重ねたりする ← これが⽂法的な役割マルタ語Wikipedia* より︓ 「書く」を表す三つの⼦⾳ktbに，接中辞-i,
接尾辞-naを加えてktibna （私たちは書いた）を作る（アラビア語だと katabna, ヘブライ語だとkatavnu） • （妄想）Introflexive 同⼠のtransferがあまりうまく⾏かない理由 → Script問題︖ • マルタ語はラテン⽂字でも記述可能（最初の例にマルタ語が使われているのもこのため︖） • アルジェリア語はアラビア語の⽅⾔的な側⾯がある（⽅⾔も現代標準アラビア表記と異なる） • [Muller+, 2020] : アラビア語と近い⾔語に関して，Scriptが異なる時のzero-shot transfer の影響を報告（Modern Standard Arabic, MSA or ラテン⽂字） Introflexive language 2021/09/17 第13回最先端NLP勉強会 23 * hXps://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%AB%E3%82%BF%E8%AA%9E

• 「別⾔語に転移したことでaccuracyがどれくらい下がったか」の指標 • ある⾔語xからyにtransferした時のTransfer lossを以下のように定義︓ 評価指標︓Transfer loss 2021/09/17 第13回最先端NLP勉強会 24
• 「⾔語類型ごとの違い」を⾒るため，同じ類型（融合・孤⽴・膠着・introflexive）に属す⾔語全部での平均を取る • まず対象⾔語側を平均化して， • 次に源⾔語側を平均化する S: 再学習後のスコア A: ある類型に属す⾔語のセット N_A: Aに含まれる⾔語数

Seman?c Analysisでの同・別類型へのTransfer lossの違い 2021/09/17 第13回最先端NLP勉強会 25 RQ1: 形態類型がどの程度SOTAモデルの性能に影響を及ぼすのか︖ • Seman=c
Analysisは POS taggingほど同 ó 別類型で⼤きな傾きにならない = 類型の差にはあまり影響受けない (RQ2) • 基本的にの傾きになっている = 同類型より別類型へのtransferの⽅が難しい

• 融合語 (Fusional languages) • 英語，ドイツ語，スペイン語，スロバキア語，ノルウェー語，ギリシャ語 • 孤⽴語 (Isolating languages)
• 中国語 (標準中国語)，タイ語，ベトナム語，広東語，インドネシア語 • 膠着語 (Agglutinative languages) • フィンランド語，バスク語，韓国語，⽇本語，トルコ語 • Introflexive languages • アラビア語，ヘブライ語，アルジェリア語，マルタ語 • 太字の3⾔語は事前学習時に含まれていない → 「事前に⼀度でも⾒たことあるか」による性能差が⼤きい (p11, 12) ため，この3⾔語を除いて観察してみた (→ 次ページ） mBERT, XLM-Rの事前学習に含まれていない⾔語がいくつかある 2021/09/17 第13回最先端NLP勉強会 26

事前学習時に⾒たことない⾔語を除いた時の結果 2021/09/17 第13回最先端NLP勉強会 27 特に結果の傾向は変わらず事前学習に⾒たことない3⾔語含む含まない

• In-language scoreとは︖ → 論⽂内を検索しても，具体的な定義がない…︖ （おそらくin-domain score”的なノリで，cross-lingualでなく普通にその⾔語データで訓練したモデルで
の値︖） • POS taggingの結果のみ変化 • 同類型へのtransfer時の平均が（In-language scoreを揃えていない時と⽐較して）落ちている In-language Scoreを揃えた時の結果 2021/09/17 第13回最先端NLP勉強会 28

• Train: 再学習に⽤いた⾔語のデータから得られる変数 • Test : 評価対象の⾔語のデータから得られる変数線形回帰モデルへ⽤いた変数 2021/09/17 第13回最先端NLP勉強会
29 この2つはSentiment Analysisの時のみ使⽤

（最先端NLP2021）Evaluating morphological typology ...

（最先端NLP2021）Evaluating morphological typology in zero-shot cross-lingual transfer

Kaori Abe

More Decks by Kaori Abe

Other Decks in Research

Featured

Transcript

Evaluating morphological typology in zero-shot cross-lingual transfer 読み⼿: 東北⼤学乾研究室

• ⼤規模多⾔語モデルからのCross-lingual transferにより， zero-shot設定（全く⾒たことのない⾔語）でもある程度の精度が得られることがわかってきた背景: ⼤規模多⾔語モデルによるzero-shot cross-lingual transferの成功 2021/09/17

• ⼤規模多⾔語モデルからのCross-lingual transferにより， zero-shot設定（全く⾒たことのない⾔語）でもある程度の精度が得られることがわかってきた背景: zero-shot cross-lingual transferが⼀部の⾔語族に効きづらい︖ 2021/09/17

• 融合語 (Fusional languages) : 語幹に接辞を融合させる（接辞は場合によって変化する，屈折語とも呼ばれる） Buss-en kom sen-t

• 融合語 (Fusional languages) : 語幹に接辞を融合させる（接辞は場合によって変化する，屈折語とも呼ばれる） Buss-en kom sen-t

今回の研究の⽬的︓zero-shot cross-lingual transferでの類型の影響調査 2021/09/17 第13回最先端NLP勉強会 7 • 今回はこの⾔語類型4区分 (融合語，孤⽴語，膠着語，Introﬂexive)を⽤いて，各類型から各類型へzero-shot

POS taggingにおけるtransfer後のaccuracy 2021/09/17 第13回最先端NLP勉強会 8 POS taggingの場合︓ • 全体的に，最も性能が良いのは同類型へtransferした時（=対⾓線のスコアが最⾼性能になる）

Semantic analysisにおけるtransfer後のaccuracy 2021/09/17 第13回最先端NLP勉強会 9 • Semantic Analysisの場合︓ • POS

POS Tagging での同・別類型へのTransfer lossの違い 2021/09/17 第13回最先端NLP勉強会 12 RQ1: 形態類型がどの程度SOTAモデルの性能に影響を及ぼすのか︖ →

• POS tagging （構造を捉える必要があるタスク）での結果 1. 対象⾔語がが事前学習に含まれているか (25.9) 2. 同/別類型へのtransferの違い (8.6)

学習データ量の違いによるスコア（accuracy）の変化 (RQ2, RQ3) 2021/09/17 第13回最先端NLP勉強会 15 • POS taggingは同・別類型か（⻘ó 橙の⽐較）に強く影響される

ドメイン不⼀致による性能の影響 (RQ2) 2021/09/17 第13回最先端NLP勉強会 16 • Proxy A-distance (Glorot+, 2011)

RQ1︓形態類型がどの程度SOTAモデル (mBERT, XLM-R) の性能に影響を及ぼすのか︖ • 類型→類型へのtransferにおける性能の損失（transfer loss）を測った結果，融合語同⼠のtransferと融合語 → 別類型へのtransferに⼤きな乖離があった

😊 19⾔語扱って，かつ⾔語類型を考慮して分析しているのが偉い • 類型で分析しよう︕となったときに，体系的には孤⽴・膠着・融合（屈折）・抱合 or 複統合 or 少数総合的⾔語

Appendix 2021/09/17 第13回最先端NLP勉強会 19

各⾔語で使⽤したデータ量 2021/09/17 第13回最先端NLP勉強会 20

データの出どころ 2021/09/17 第13回最先端NLP勉強会 21

各データのドメイン 2021/09/17 第13回最先端NLP勉強会 22

「⼦⾳で構成された語幹に⺟⾳・⼦⾳を挿⼊」とは︖ → 3⼦⾳で語幹となるその合間に⺟⾳を⼊れたり，⼦⾳を重ねたりする ← これが⽂法的な役割マルタ語Wikipedia* より︓ 「書く」を表す三つの⼦⾳ktbに，接中辞-i,

• 「別⾔語に転移したことでaccuracyがどれくらい下がったか」の指標 • ある⾔語xからyにtransferした時のTransfer lossを以下のように定義︓ 評価指標︓Transfer loss 2021/09/17 第13回最先端NLP勉強会 24

Seman?c Analysisでの同・別類型へのTransfer lossの違い 2021/09/17 第13回最先端NLP勉強会 25 RQ1: 形態類型がどの程度SOTAモデルの性能に影響を及ぼすのか︖ • Seman=c

• 融合語 (Fusional languages) • 英語，ドイツ語，スペイン語，スロバキア語，ノルウェー語，ギリシャ語 • 孤⽴語 (Isolating languages)

事前学習時に⾒たことない⾔語を除いた時の結果 2021/09/17 第13回最先端NLP勉強会 27 特に結果の傾向は変わらず事前学習に⾒たことない3⾔語含む含まない

• In-language scoreとは︖ → 論⽂内を検索しても，具体的な定義がない…︖ （おそらくin-domain score”的なノリで，cross-lingualでなく普通にその⾔語データで訓練したモデルで

• Train: 再学習に⽤いた⾔語のデータから得られる変数 • Test : 評価対象の⾔語のデータから得られる変数線形回帰モデルへ⽤いた変数 2021/09/17 第13回最先端NLP勉強会