Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(最先端NLP2021)Evaluating morphological typology in zero-shot cross-lingual transfer

Kaori Abe
September 15, 2021

(最先端NLP2021)Evaluating morphological typology in zero-shot cross-lingual transfer

最先端NLP勉強会2021(2021/9/16-17開催)にて、発表に用いたスライドです。

・最先端NLP勉強会:https://sites.google.com/view/snlp-jp/home/2021?authuser=0

・論文情報
Title: Evaluating morphological typology in zero-shot cross-lingual transfer (ACL 2021)
Authors: Antonio Martínez-García, Toni Badia, Jeremy Barnes
paper URL (ACL anthology): https://aclanthology.org/2021.acl-long.244/

・発表者情報
東北大学 乾研究室
阿部 香央莉

Kaori Abe

September 15, 2021
Tweet

More Decks by Kaori Abe

Other Decks in Research

Transcript

  1. Evaluating morphological typology
    in zero-shot cross-lingual transfer
    読み⼿:
    東北⼤学 乾研究室
    D2 阿部 ⾹央莉 ([email protected])
    2021/09/17 第13回最先端NLP勉強会 1
    ※スライド中の図表は,特に明記がない限り元論⽂からの抜粋です.

    View full-size slide

  2. • ⼤規模多⾔語モデルからのCross-lingual transferにより,
    zero-shot設定(全く⾒たことのない⾔語)でもある程度の精度が
    得られることがわかってきた
    背景: ⼤規模多⾔語モデルによるzero-shot cross-lingual transferの成功
    2021/09/17 第13回最先端NLP勉強会 2
    ⼤規模多⾔語モデル
    (mBERT, XLMなど)
    あるタスクのEn
    データで再学習
    再学習済
    モデル
    EN
    EN
    もちろんEnデータ
    は解けるし…
    タスクのデータは
    ⾒ていないDeで
    も解ける︕
    De
    ここがzero-shot
    EN
    De
    Ja
    Ar
    Zh

    View full-size slide

  3. • ⼤規模多⾔語モデルからのCross-lingual transferにより,
    zero-shot設定(全く⾒たことのない⾔語)でもある程度の精度が
    得られることがわかってきた
    背景: zero-shot cross-lingual transferが⼀部の⾔語族に効きづらい︖
    2021/09/17 第13回最先端NLP勉強会 3
    ⼤規模多⾔語モデル
    (mBERT, XLMなど)
    • しかし,⼀部の⾔語(族)に対しては性能が出ない,という結果が
    報告されている (Artetxe+, 2020; Conneau+, 2020a)
    => が,その報告は 詳細な実証の元に報告されているわけではない
    あるタスクのEn
    データで再学習
    再学習済
    モデル
    EN
    EN
    もちろんEnデータ
    は解けるし…
    De
    ここがzero-shot
    Ja Ar
    ✔ ︖ ︖
    EN
    De
    Ja
    Ar
    Zh

    View full-size slide

  4. • 融合語 (Fusional languages) : 語幹に接辞を融合させる(接辞は場合に
    よって変化する,屈折語とも呼ばれる)
    Buss-en kom sen-t
    バス-限定 来た(完了) 遅れる-副詞
    • 孤⽴語 (Isola/ng languages) : 語が(接辞などで)変化しない
    Bus itu datang terlambat
    バス (that) 来る 遅れて
    • 膠着語 (Agglu/na/ve languages) : 語幹に接辞を連結させる
    Autobus-a berandu etorri zen
    バス-限定 遅れて 来た(分詞) (3⼈称過去-助動詞)
    • Introflexive languages : ⼦⾳で構成された語根に⺟⾳・⼦⾳を挿⼊
    Ix-xarabank waslet tard
    限定-バス 来た(完了) 遅れて
    導⼊︓⾔語族・類型とはなんぞや︖
    2021/09/17 第13回最先端NLP勉強会 4
    ノルウェー語
    インドネシア語
    バスク語
    マルタ語

    View full-size slide

  5. • 融合語 (Fusional languages) : 語幹に接辞を融合させる(接辞は場合に
    よって変化する,屈折語とも呼ばれる)
    Buss-en kom sen-t
    バス-限定 来た(完了) 遅れて-副詞
    • 孤⽴語 (Isola/ng languages) : 語幹が(接辞などで)変化しない
    Bus itu datang terlambat
    バス (that) 来る 遅れて
    • 膠着語 (Agglu/na/ve languages) : 語幹に接辞を連結させる
    Autobus-a berandu etorri zen
    バス-限定 遅れて 来た(分詞) (3⼈称過去-助動詞)
    • Introflexive languages : ⼦⾳で構成された語幹に⺟⾳・⼦⾳を挿⼊
    Ix-xarabank waslet tard
    限定-バス 来た(完了) 遅れて
    今回扱う各類型に属す⾔語(19⾔語)
    2021/09/17 第13回最先端NLP勉強会 5
    ドイツ,スペイン,ス
    ロバキア,ノルウェー,
    ギリシャ
    中国,タイ,
    ベトナム,
    広東,インド
    ネシア
    フィンランド,
    バスク,韓国,
    ⽇本,トルコ
    アラビア,ヘブライ,
    アルジェリア,マルタ
    ノルウェー語
    インドネシア語
    バスク語
    マルタ語

    View full-size slide

  6. RQ1︓形態的類型がどの程度SOTAモデル (mBERT, XLM-R) の性能に影響を及ぼすのか︖
    → 現状のモデルは(英語,ドイツ語などが属す) 融合語 に該当する⾔語に
    fitしてしまっている
    RQ2︓類型が他変数(データの有無,ドメインの違い)より強い影響を持つのか︖
    • 類型︓POS taggingの場合,特に強い影響を持つ
    • データの有無︓Sentiment Analysisの場合,再学習に⽤いた⾔語が事前学習に
    含まれているかが強く影響する
    • ドメインの違い︓⼤きな影響は⾒られない
    RQ3 ︓構造を捉えるタスクと意味を捉えるタスクで影響に違いはあるか︖
    → 構造を捉えるタスク (POS tagging) の⽅が,より類型に影響を受けやすい
    本研究の貢献︓Cross-lingual transferモデルに対する
    3つのResearch Questionの解明
    2021/09/17 第13回最先端NLP勉強会 6

    View full-size slide

  7. 今回の研究の⽬的︓zero-shot cross-lingual transferでの類型の影響調査
    2021/09/17 第13回最先端NLP勉強会 7
    • 今回はこの⾔語類型4区分 (融合語,孤⽴語,膠着語,Introflexive)を
    ⽤いて,各類型から各類型へzero-shot transferした際の性能差を⾒る
    En De Es Sk No Gr Mandarin …
    En
    De
    Es
    Sk
    No
    Gr
    Mandarin

    多⾔語モデルの訓練 (再学習) に使う⾔語
    zero-shot
    の評価に
    使う⾔語
    この部分の平均を取る
    = 融合語 → 融合語 での性能 とみる
    孤⽴語 → 融合語
    融合語 → 孤⽴語

    View full-size slide

  8. POS taggingにおけるtransfer後のaccuracy
    2021/09/17 第13回最先端NLP勉強会 8
    POS taggingの場合︓
    • 全体的に,最も性能が良いのは同類型へtransferした時
    (=対⾓線のスコアが最⾼性能になる)
    • 融合語 → 融合語が(絶対値で)最も性能良い
    • ただ Introflexive → Introflexive は50%以下の性能となる
    (Fine-tuning)
    (Zero-shot)

    View full-size slide

  9. Semantic analysisにおけるtransfer後のaccuracy
    2021/09/17 第13回最先端NLP勉強会 9
    • Semantic Analysisの場合︓
    • POS taggingの時とmBERT, XLM-R共に挙動が異なり,対⾓線 = 最も性能良くなると
    は限らない
    • mBERTだと,最も性能が良くなるのがIsolating(孤⽴語)で学習した時となる
    • XLM-Rだと,POSほどtransferした時に性能下がらない
    (= Semantic Analysisにおいては,XLM-Rの汎化⼒は⾼い︖)

    View full-size slide

  10. • Transfer後の影響をより直感的に⾒るため,Transfer lossという指標を導⼊
    • 「別⾔語に転移したことでaccuracyがどれくらい下がったか」の指標
    • ある⾔語xからyにtransferした時のTransfer lossを以下のように定義︓
    評価指標︓Transfer loss
    2021/09/17 第13回最先端NLP勉強会 10
    En De Es … Mandarin …
    En SEn→En
    SDe→En
    SEs→En
    … SMan→En

    De SEn→De
    SDe→De
    SEs→De
    … SMan→De

    Es SEn→Es
    SDe→Es
    SEs→Es
    … SMan→Es
    ...
    … … … … … … …
    Mandarin SEn→Man
    SDe→Man
    SEs→Man
    … SMan→Man

    … … … … … … …
    多⾔語モデルの訓練 (再学習) に使う⾔語
    zero-
    shot

    評価

    使う
    ⾔語
    例︓TLEn→De
    = SEn→En
    - SEn→De
    • Accuracyの時と
    同様に,
    類型→類型ごと
    の結果を得る

    View full-size slide

  11. RQ1︓形態類型がどの程度SOTAモデル (mBERT, XLM-R) の性能に影響を及ぼすのか︖
    RQ2︓類型が他変数(データ量,ドメインの違い)より強い影響を持つのか︖
    RQ3 ︓構造を捉えるタスクと意味を捉えるタスクで影響に違いはあるか︖
    • 実際やる実験
    1. 同 ó 別類型へtranferした時のtransfer lossの違い
    2. 線形回帰モデルで影響が⼤きい変数(類型,データ量など)を調査
    3. 学習データ量の違いによるスコアの変化
    4. ドメイン不⼀致による性能の影響
    Transfer lossを⽤いて,RQを定量的に検証
    2021/09/17 第13回最先端NLP勉強会 11

    View full-size slide

  12. POS Tagging での同・別類型へのTransfer lossの違い
    2021/09/17 第13回最先端NLP勉強会 12
    RQ1: 形態類型がどの程度SOTAモデルの性能に影響を及ぼすのか︖
    → 上の2点より,⼤規模多⾔語モデルは融合語にfitしている
    特にPOS Taggingでは
    融合語 (Fusional) は
    別類型にtransferすると
    ⼤きく性能が落ちる
    (SemanTc Analysisだと
    そこまで落ちない)
    融合語は同類型への
    Transfer lossが
    (他の類型と⽐較して)
    少ない
    = 別類型へのtransfer
    = 同類型へのtransfer
    上にいくほど
    Transfer lossが⼤きい
    = transfer後に性能が落ちる

    View full-size slide

  13. • POS tagging (構造を捉える必要があるタスク)での結果
    1. 対象⾔語がが事前学習に含まれているか (25.9)
    2. 同/別類型へのtransferの違い (8.6)
    3. テスト例のトークン⻑ (4.0)
    4. In-language score (3.3)
    * 括弧内はstandard coefficientの値,mBERTとXLM-Rでほぼ同じ値だったとの事
    RQ2: 形態的類型が他の変数より強い影響を持つのか︖
    → 各変数からtransfer lossを当てる線形回帰モデルを作成し,影響を測る
    線形回帰モデルで POS Tagging へ影響が⼤きい変数を調査
    2021/09/17 第13回最先端NLP勉強会 13
    ...
    POS taggingは類型の
    変化に敏感 (RQ3)
    線形回帰モデル
    テスト例のトークン⻑
    同/別類型へtransferしたか
    Pre-trainに対象⾔語を含むか否か
    Transfer loss
    訓練 / 評価
    データから
    得られる
    各変数

    View full-size slide

  14. RQ2: 形態的類型が他の変数より強い影響を持つのか︖
    → 各変数からtransfer lossを当てる線形回帰モデルを作成し,影響を測る
    • Sentiment Analysis(意味を捉える必要があるタスク)での結果
    1. 再学習に使った⾔語が事前学習に含まれているか (mBERT: -11.8, XLM-R: -18.7)
    2. 対象⾔語が事前学習に含まれているか (mBERT: -10.3, XLM-R: -16.3)
    3. In-language score (mBERT: 6.8, XLM-R: 6.5)
    4. サブワードに分割される単語の割合 (mBERT: 3.3, XLM-R: 2.7)
    5. positiveラベル付きの例の割合 (XLM-Rのみ: -2.8)
    -. Transfer type (not significant)
    線形回帰モデルで Sentiment Analysis へ影響が⼤きい変数を調査
    2021/09/17 第13回最先端NLP勉強会 14
    線形回帰モデル
    テスト例のトークン⻑
    同/別類型へtransferしたか
    Pre-trainに対象⾔語を含むか否か
    ...
    Transfer loss
    訓練 / 評価
    データから
    得られる
    各変数
    Sentiment Analysisでは類型
    の影響は⼩さい (RQ3)
    * 括弧内はstandard
    coefficientの値

    View full-size slide

  15. 学習データ量の違いによるスコア(accuracy)の変化 (RQ2, RQ3)
    2021/09/17 第13回最先端NLP勉強会 15
    • POS taggingは同・別類型か(⻘ó 橙の⽐較)に強く影響される
    • SenLment Analysisは類型の影響(⻘ ó 橙 の差)は少ない
    • 150,000例(= ⼗分数)訓練事例がある⾔語/タスクのペア(ドイツ語
    のPOS tagging, 韓国語のSentiment Analysis)でデータ量の影響を調査
    Intra-Group:
    同類型へtransfer
    したとき
    Inter-Group:
    別類型へtransfer
    したとき
    時間があれば

    View full-size slide

  16. ドメイン不⼀致による性能の影響 (RQ2)
    2021/09/17 第13回最先端NLP勉強会 16
    • Proxy A-distance (Glorot+, 2011) というドメイン不⼀致の指標*を⽤いて,
    transfer前後のドメイン不⼀致の影響を調査
    * 2つのドメイン間を判別する線形SVMモデルを訓練し,その汎化エラーを測る
    • 各⾔語でのデータをGoogle翻訳で英語に訳した1000⽂と(たぶん)各⾔語での
    タスクデータとの間での差を測る
    • POS tagging
    • mBERT: ⼩さい負の影響 / 有意差なし (-0.07, p > 0.01)
    • XLM-R: 〃 (-0.07, p > 0.01)
    • Sentiment Analysis
    • mBERT: 影響なし / 有意差なし (-0.06, p > 0.01)
    • XLM-R: ⼩さい負の影響 / 有意差あり (-0.27, p < 0.01)
    全体的に,ドメイン不⼀致による⼤きな影響は⾒られなかった (RQ2)
    ※ピアソン相関
    時間があれば

    View full-size slide

  17. RQ1︓形態類型がどの程度SOTAモデル (mBERT, XLM-R) の性能に影響を及ぼすのか︖
    • 類型→類型へのtransferにおける性能の損失(transfer loss)を測った結果,
    融合語同⼠のtransferと融合語 → 別類型へのtransferに⼤きな乖離があった
    = 現状のモデルは(英語,ドイツ語などが属す) 融合語 に該当する⾔語に
    fitしてしまっている
    RQ2︓類型が他変数(データの有無,ドメインの違い)より強い影響を持つのか︖
    → 各変数(データの有無,類型…)からTransfer lossを予測する線形回帰モデルを
    学習し,重みによって調査
    • 類型︓POS taggingの場合,強い影響を持つ
    • データの有無︓Sen\ment Analysisの場合,再学習に⽤いた⾔語が事前学習に
    含まれているかが強く影響する
    • (ドメインの違い︓⼤きな影響は⾒られない)
    RQ3︓構造 or 意味を捉えるタスクで影響に違いはあるか︖
    → 構造を捉えるタスク (POS tagging) の⽅が,より類型に影響を受けやすい
    まとめ(再掲)
    2021/09/17 第13回最先端NLP勉強会 17

    View full-size slide

  18. 😊 19⾔語扱って,かつ⾔語類型を考慮して分析している のが偉い
    • 類型で分析しよう︕となったときに,体系的には
    孤⽴・膠着・融合(屈折)・抱合 or 複統合 or 少数総合的⾔語 となりそうだが
    あえてIntroflexiveにしているのが(逆に)偉いのかも
    😊 Cross-lingual, Multilingual系で課題になりがちなデータ量,ドメインの
    違いにも気を使って(︖)分析している
    🤔ドメイン不⼀致,無理⽮理⼊れた感は否めないが……
    🤔 低次元/⾼次元タスク に対する影響としての結論を出すには,
    POS taggingだけ/semantic analysisだけだと不⼗分な気も︖
    • しかし,⾔語横断的に & それなりに(他⾔語話者でも)使えるよう
    整備されているデータがあるタスクは少ないのが現状か
    この論⽂についての感想
    2021/09/17 第13回最先端NLP勉強会 18

    View full-size slide

  19. Appendix
    2021/09/17 第13回最先端NLP勉強会 19

    View full-size slide

  20. 各⾔語で使⽤したデータ量
    2021/09/17 第13回最先端NLP勉強会 20

    View full-size slide

  21. データの出どころ
    2021/09/17 第13回最先端NLP勉強会 21

    View full-size slide

  22. 各データのドメイン
    2021/09/17 第13回最先端NLP勉強会 22

    View full-size slide

  23. 「⼦⾳で構成された語幹に⺟⾳・⼦⾳を挿⼊」 とは︖
    → 3⼦⾳で語幹となる
    その合間に⺟⾳を⼊れたり,⼦⾳を重ねたりする ← これが⽂法的な役割
    マルタ語Wikipedia* より︓
    「書く」を表す三つの⼦⾳ktbに,接中辞-i, 接尾辞-naを加えてktibna
    (私たちは書いた)を作る(アラビア語だと katabna, ヘブライ語だとkatavnu)
    • (妄想)Introflexive 同⼠のtransferがあまりうまく⾏かない理由
    → Script問題︖
    • マルタ語はラテン⽂字でも記述可能(最初の例にマルタ語が使われているのも
    このため︖)
    • アルジェリア語はアラビア語の⽅⾔的な側⾯がある(⽅⾔も現代標準アラビア表記と
    異なる)
    • [Muller+, 2020] : アラビア語と近い⾔語に関して,Scriptが異なる時のzero-shot
    transfer の影響を報告(Modern Standard Arabic, MSA or ラテン⽂字)
    Introflexive language
    2021/09/17 第13回最先端NLP勉強会 23
    * hXps://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%AB%E3%82%BF%E8%AA%9E

    View full-size slide

  24. • 「別⾔語に転移したことでaccuracyがどれくらい下がったか」の指標
    • ある⾔語xからyにtransferした時のTransfer lossを以下のように定義︓
    評価指標︓Transfer loss
    2021/09/17 第13回最先端NLP勉強会 24
    • 「⾔語類型ごとの違い」を⾒るため,同じ類型(融合・孤⽴・
    膠着・introflexive)に属す⾔語全部での平均を取る
    • まず対象⾔語側を平均化して,
    • 次に源⾔語側を平均化する
    S: 再学習後のスコア
    A: ある類型に属す⾔語のセット
    N_A: Aに含まれる⾔語数

    View full-size slide

  25. Seman?c Analysisでの同・別類型へのTransfer lossの違い
    2021/09/17 第13回最先端NLP勉強会 25
    RQ1: 形態類型がどの程度SOTAモデルの性能に影響を及ぼすのか︖
    • Seman=c Analysisは POS taggingほど 同 ó 別類型で⼤きな傾きにならない
    = 類型の差にはあまり影響受けない (RQ2)
    • 基本的に の傾きになっている = 同類型より別類型へのtransferの⽅が難しい

    View full-size slide

  26. • 融合語 (Fusional languages)
    • 英語,ドイツ語,スペイン語,スロバキア語,ノルウェー語,ギリシャ語
    • 孤⽴語 (Isolating languages)
    • 中国語 (標準中国語),タイ語,ベトナム語,広東語,インドネシア語
    • 膠着語 (Agglutinative languages)
    • フィンランド語,バスク語,韓国語,⽇本語,トルコ語
    • Introflexive languages
    • アラビア語,ヘブライ語,アルジェリア語,マルタ語
    • 太字の3⾔語は事前学習時に含まれていない → 「事前に⼀度でも⾒た
    ことあるか」による性能差が⼤きい (p11, 12) ため,この3⾔語を
    除いて観察してみた (→ 次ページ)
    mBERT, XLM-Rの事前学習に含まれていない⾔語がいくつかある
    2021/09/17 第13回最先端NLP勉強会 26

    View full-size slide

  27. 事前学習時に⾒たことない⾔語を除いた時の結果
    2021/09/17 第13回最先端NLP勉強会 27
    特に結果の傾向は変わらず
    事前学習に⾒たことない3⾔語含む 含まない

    View full-size slide

  28. • In-language scoreとは︖
    → 論⽂内を検索しても,具体的
    な定義がない…︖
    (おそらくin-domain score”的な
    ノリで,cross-lingualでなく普通に
    その⾔語データで訓練したモデルで
    の値︖)
    • POS taggingの結果のみ変化
    • 同類型へのtransfer時の
    平均が(In-language scoreを
    揃えていない時と⽐較して)
    落ちている
    In-language Scoreを揃えた時の結果
    2021/09/17 第13回最先端NLP勉強会 28

    View full-size slide

  29. • Train: 再学習に⽤いた⾔語のデータから得られる変数
    • Test : 評価対象の⾔語のデータから得られる変数
    線形回帰モデルへ⽤いた変数
    2021/09/17 第13回最先端NLP勉強会 29
    この2つはSentiment
    Analysisの時のみ使⽤

    View full-size slide