Pro Yearly is on sale from $80 to $50! »

Revisiting the Context Window for Cross-lingual Word Embeddings (最先端NLP2020)

A4699f5332d9891dc49658418937bcc6?s=47 Kaori Abe
September 26, 2020

Revisiting the Context Window for Cross-lingual Word Embeddings (最先端NLP2020)

2020年度最先端NLP勉強会(9/25-26)にて、読み手として発表予定の「Revisiting the Context Window for Cross-lingual Word Embeddings」についての発表資料です。

※発表者は東北大学所属の阿部です。

***********************
(論文の詳細)
Title: Revisiting the Context Window for Cross-lingual Word Embeddings (ACL2020)
Authors: Ryokan Ri and Yoshimasa Tsuruoka
The University of Tokyo

A4699f5332d9891dc49658418937bcc6?s=128

Kaori Abe

September 26, 2020
Tweet

Transcript

  1. Revisiting the Context Window for Cross-lingual Word Embeddings Ryokan Ri

    and Yoshimasa Tsuruoka The University of Tokyo 発表者︓東北⼤学乾研究室 D1 阿部 ⾹央莉 2020/09/26 最先端NLP勉強会 (2020) 1 ※スライド中の図表は脚注がない限り元論⽂からの抜粋です
  2. • 3パターンある [Sebastian+ 2019] 1. (Psuedo-Multilingual corpora-based methods) ※本論⽂で⾔及なし •

    (Code-switching的な)擬似bilingual corpusを作成して、 その1つのコーパスからembeddingを学習したもの 2. Mapping-based methods • 異なる2⾔語について、別々の空間上で単⾔語embeddingを 学習し、(辞書などを⽤いて)2つの空間のアライメントを とったもの 3. Joint methods • 異なる2⾔語について、同じ1つの空間上で同時にembedding を学習したもの • 今回は2のMapping-based methodsについての話 Cross-Lingual Word Embeddingsとは 2020/09/26 最先端NLP勉強会 (2020) 2
  3. • Word2Vecの窓幅を変えた時のmapping-based cross-lingual embeddingの挙動をとことん突き詰めて調べる (注︓BERT等の⾔語モデルの話は⼀切出てきません) • わかったこと 1. 原⾔語と対象⾔語の窓幅を⼤きくすれば するほど良いアライメントが取れる(特に名詞)

    窓幅⼩→ functional (syntactic) similarity 窓幅⼤→ topically similarity 2. が、良いアライメントが取れるからと⾔っても 下流タスクの精度向上につながるとは限らない • 特に、syntaxが重要であるDependency Parsingで変わった 挙動を⽰す この論⽂の貢献(ざっくり⾔うと) 2020/09/26 最先端NLP勉強会 (2020) 3 を捉えたembeddingとなる BERTの場合、さらに広いcontextを⾒た上でsyntactic的なfeatureも捉えている という研究もある [Goldberg+ 2019]が……
  4. • 分析が丁寧 • “we … carefully analyzed the implications of

    their varying performance on both intrinsic and extrinsic tasks.” • 各実験結果に対して、「これは既存研究と⼀致する、 ⼀致しない」を細かく検証 • ⼀致しない場合は「なぜ⼀致しないのか︖」 考えうる要因を詳細に議論 • 多様な実験設定(ドメイン, ⾔語対…)で検証 • 「窓幅を変えること」が、Cross-lingual設定上で 何に影響して何に影響しないのかを俯瞰できる (⾃分たちのresearch questionに忠実) この論⽂の良い点 2020/09/26 最先端NLP勉強会 (2020) 4
  5. 導⼊: 窓幅とembeddingの性質の関係 2020/09/26 最先端NLP勉強会 (2020) 5 • (単⾔語embeddingの場合) 窓幅を変えるだけで、 embeddingの持つ性質は

    かなり変化する • 窓幅が⼩さい(=1)と functional (syntactic) な類似を 捉え [Levy and Goldberg, 2014a] 、 窓幅が⼤きい(=10)と topical な類似を捉える傾向が ⾒られる → Cross-lingual embeddingの場合 どうなるのか︖ 全部 複数形 “類型学” に関する 単語
  6. • Mapping-based methodsの式は以下で表される • これは、 2つの埋め込み空間が • 構造的に類似している • isometricである(近傍グラフの構造が同型である

    (NLP2020論⽂より)) という強い仮説のもと成り⽴つ(isomorphism assumption) → でも違うドメイン・もっと違う⾔語だったら、その仮説ってどうなの︖ 導⼊: Mapping-based methodsへの懸念 2020/09/26 最先端NLP勉強会 (2020) 6 (イメージ図) https://ruder.io/unsupervis ed-cross-lingual-learning/ arg min ! ' "#$ % ∥ " − " ∥&
  7. • Word2Vecの窓幅を変えた時、mapping-based cross- lingual embeddingの性質がどのように変化するか︖ • 複数の条件で⽐較︓ 1. 対象⾔語側の窓幅固定、原⾔語側の窓幅を変える 2.

    原⾔語・対象⾔語共に窓幅を変える • 単語のPoS(Noun, Verb, Adverb, Adjective)ごとの⽐較 • 異なるドメイン(Wikipedia, News)での⽐較 • 異なる⾔語(En -> {Fr, De, Ru, Ja})での⽐較 • 単語の頻度(⾼頻度 = ⽂脈を⾒る回数多)での⽐較 3. 下流タスクを解いてみる じゃあどういう実験を⾏う︖ 2020/09/26 最先端NLP勉強会 (2020) 7
  8. • オリジナル(Cインプリ)のword2vec、pythonライブラリ Gensim のword2vec等は dynamic window mechanism* を採⽤ *1から指定された窓幅の間で⼀様にword-context pairのサンプリング

    [Mikolov et al., 2013a] → 頻出トークン除去[Levy et al., 2015] • この処理は⽂脈⻑を拡⼤する効果がある • 窓幅の影響をちゃんと調べるために、任意のword-context pairをinputとして扱うword2vecf**というツールを使った 注意事項(個⼈的に気になる点) 1 2020/09/26 最先端NLP勉強会 (2020) 8 個⼈的な感想︓実際には⼤体Gensim等を使うわけで、「⼤きい窓幅が良い」 というこの論⽂の結論が実⽤上も適切とは限らない可能性が若⼲ある︖ → が、この論⽂の⽬的は”根本的な理論に⽴ち返る(Revisiting)”ことにあるっぽいの でまあいいのか…︖ ** https://bitbucket.org/yoavgo/word2vecf/src/default/
  9. • Mapping-based methodsでアライメントを取る⽤の辞書は Google翻訳から⾃動的に取得 → 実際、⽣成された辞書は “noisy” かつ 単語翻訳の定義が 曖昧

    (“the definition of word translation is unclear”) • 具体的には、polysemyなどを考慮できないなどの問題がある • ここに関してはfuture work 注意事項(個⼈的に気になる点)2 2020/09/26 最先端NLP勉強会 (2020) 9 個⼈的な感想︓ 4⾔語(英 → 仏、独、露、⽇)で全部同じツールを使えるの は利点だが、⼀単語だけの翻訳だとミスることも多々あるのでは︖ 代替案としては綺麗に整備された辞書を使う、など︖ 結局polysemyにどう対応するのか……
  10. • タスク: Bilingual Lexicon Induction • 各⾔語2つの埋め込み空間から、原⾔語の単語に相当する対象⾔語 の翻訳を、cos類似度を⽤いたnearest neighborを使って抽出 •

    評価指標: よりinformativeな指標としてmean reciprocal rank (MRR) を 採⽤ [Glavaˇs et al. , 2019] • (⼀般的にはtop-k precisionで評価される) • データセット: Wikipedia Comparable Corpora* • 既存研究で⽤いられたfully Wikipedia articleと⽐べ、 各⾔語である程度のデータ量が確保可能 → データ量的に均等な条件で⽂脈窓の影響を調べる • 異なるドメイン設定の実験に関しては、newsドメインのコーパス (https://wortschatz.uni-leipzig.de/en/download) を使⽤ 実験設定 2020/09/26 最先端NLP勉強会 (2020) 10 (https://linguatools.org/tools/corpora/wikipedia-comparable-corpora/)
  11. 実験1: 対象⾔語窓幅を固定、 原⾔語窓幅を変更 2020/09/26 最先端NLP勉強会 (2020) 11 • 既存研究と違い、窓幅を⼤きくすればするほど精度が向上 既存研究(Fasttext,

    fully Wikipedia, En-Es)と結果が違う原因︖ (1) Fasttextがdynamic window mechanismを採⽤している (2) 既存研究より学習⽤コーパスの規模が⼩さい • ⽂字n-gramを採⽤しているfasttextは、類似している⾔語間の subword overlapをnon-trivialな量使えてしまう︖ (2)に関してはfully Wikipediaで同じように実験すれば⼀応確かめられるのでは︖
  12. 実験2: 原⾔語・対象⾔語共に 窓幅を変える (※2つは同じ窓幅) 2020/09/26 最先端NLP勉強会 (2020) 12 • どの対象⾔語においても、「窓幅⼤→精度向上」

    • トピック指向のembedding(=窓幅⼤の時)はlanguage-agnosticに意味を 捉えているため、異なる⾔語間でもアライメントを取りやすい︖ • 原⾔語(news)-対象⾔語(Wikipedia)間でドメインが変わると、 全体的に精度は⼤幅に下がる • ドメインの⼀貫性がisomorphism assumption (p6の仮説) に対して重要 という既存の知⾒ [Søgaard et al., 2018] に従う結果 • ただドメインが変わっても、窓幅⼤→精度向上の傾向は不変 (原⾔語・対象⾔語が同じドメイン) (異なるドメイン)
  13. 実験2: 原⾔語・対象⾔語共に 窓幅を変える (※2つは同じ窓幅) 2020/09/26 最先端NLP勉強会 (2020) 13 • PoS

    別にみると、NOUN(名詞)が他と⽐べて精度が良い → 他のPoSと⽐べ、名詞はトピックを反映した単語が多いから︖ • ⾔語別には、⽇本語がかなり精度悪い → ⽇本語は原⾔語の英語と類型的に離れているため、アライメントが 取りづらい︖ ADJ, ADVもまあまあ⾼いように⾒えるが、特にADVは⽐較的標準偏差が ⼤きいからか(︖)あまり⾔及はなし
  14. 実験2: 原⾔語・対象⾔語共に 窓幅を変える (※2つは同じ窓幅) 2020/09/26 最先端NLP勉強会 (2020) 14 • 原⾔語(news)-対象⾔語(Wikipedia)間でドメインが異なる場合の

    PoS 別評価 • “NOUNとADJが窓幅の⻑さとhigh correlation”との⾔及あり むしろ、VERBが窓幅⼤きい時に若⼲Fr, Deで若⼲下がっているのが少し 気になる(ADVに触れないのはやはり標準偏差のばらつきのせい︖)
  15. 実験2: 原⾔語・対象⾔語共に 窓幅を変える (※2つは同じ窓幅) 2020/09/26 最先端NLP勉強会 (2020) 15 • 単語の頻度別の評価

    • 2⾔語間のドメインが異なる場合、レア単語(bottom500)に 関しては「窓幅⼤→精度向上」にならない(精度下がっている) • 「レア単語においてmapping-based methodsの性能が悪くなる」のは 既存研究 [Braune et al., 2018; Czarnowska et al., 2019]の結果に沿っている • 頻出語の精度が顕著に良くなる理由︓⽂脈語を⾒る回数が多い → 窓幅⼤にしたときの、無関係な語によるノイズの影響が緩和される︖ (原⾔語・対象⾔語が同じドメイン) (異なるドメイン)
  16. 実験3: 下流タスクにおける挙動確認 2020/09/26 最先端NLP勉強会 (2020) 16 • Sentiment Analysis, Document

    Classificationでの評価 • Enに関しては窓幅3-5くらいがちょうど良さげ • ⼀⽅、transferした4⾔語(Fr, De, Ru, Ja)では、DCでのJaを除き 窓幅が⼤きい⽅が性能向上する • DCのJaが低いのは、英語と⽇本語の類型が違いすぎてアライメントの 精度が悪いため︖ データが ないため N/A Sentiment Analysis Document Classification
  17. 実験3: 下流タスクにおける挙動確認 2020/09/26 最先端NLP勉強会 (2020) 17 • Syntaxが重要であるDependency Parsingでは、 Enにおいて窓幅=1の時が最も性能が良いと⾔う結果に

    • “⼩さい窓幅にするとsyntax-orientなembeddingが⽣成される” という知⾒ [Levy and Goldberg, 2014a]に沿っている • が、En以外の⾔語にtransferした場合、窓幅が⼤きい⽅が良い (窓幅=1が最も悪い結果となる) • この複雑な結果は、⾔語横断的なsyntax知識のtransferが難しい ことを⽰している︖
  18. • 窓幅を⼤きくすると、原⾔語・対象⾔語両⽅の単語アラ イメントがより容易に取れるようになる(特に名詞) • Mappingしたcross-lingual embeddingを⽤いて下流タスクで の精度を⾒てみた場合、原⾔語における最⾼精度の窓幅 がtransfer先⾔語でも良いとは限らない • 原⾔語と対象⾔語のアライメントがよく取れた

    窓幅を選ぶべき • BERTの性質検証が盛んな中でWord2vec⼀本で勝負して 通ったのは純粋にすごいと思う 結論 2020/09/26 最先端NLP勉強会 (2020) 18
  19. Appendix 2020/09/26 最先端NLP勉強会 (2020) 19

  20. • Sentiment Analysis • データセット: Webis-CLS10 corpus 10 [Prettenhofer and

    Stein, 2010] • Amazonのレビュー欄 • 4⾔語対応(英・独・仏・⽇) • 1~5のレビューがついているが、今回は1-2をnegative, 4-5をpositiveと みなす2値分類タスク • Document Classification • データセット: MLDoc [Schwenk and Li, 2018)] • 8⾔語対応(今回実験している英・独・仏・⽇・露を含む) • Corporate/Industrial, Economics, Government/Social, Marketsの4値分類 • Dependency Parsing • データセット: • 学習: UD English EWT dataset 12 [Silveira et al., 2014] • テスト: PUD treebanks 13 (https://universaldependencies.org/conll17/) • モデル: deep biaffine parsers [Dozat and Manning, 2017] 下流タスクの設定 2020/09/26 最先端NLP勉強会 (2020) 20
  21. • 下流タスクのモデルの処理 1. 英語の単語embeddingを⽤いて、下流タスク (SA, DC, DP)を解くモデルを訓練 • この時、単語embeddingのパラメータは固定 2.

    (Enについて)Dev setにおけるEnの単語embedding での精度を測る 3. (Fr, De, Ru, Jaについて)各⾔語のTest setにおいて、 2と同じモデルで、Enの単語embeddingとアライメン トされた各⾔語の単語embeddingを使って予測 備考: 下流タスクのtransferとは? 2020/09/26 最先端NLP勉強会 (2020) 21