（最先端NLP2020）Revisiting the Context Window for Cross-lingual Word Embeddings

Revisiting the Context Window for Cross-lingual Word Embeddings Ryokan Ri
and Yoshimasa Tsuruoka The University of Tokyo 発表者︓東北⼤学乾研究室 D1 阿部⾹央莉 2020/09/26 最先端NLP勉強会 (2020) 1 ※スライド中の図表は脚注がない限り元論⽂からの抜粋です

• 3パターンある [Sebastian+ 2019] 1. (Psuedo-Multilingual corpora-based methods) ※本論⽂で⾔及なし •
（Code-switching的な）擬似bilingual corpusを作成して、その1つのコーパスからembeddingを学習したもの 2. Mapping-based methods • 異なる2⾔語について、別々の空間上で単⾔語embeddingを学習し、（辞書などを⽤いて）2つの空間のアライメントをとったもの 3. Joint methods • 異なる2⾔語について、同じ1つの空間上で同時にembedding を学習したもの • 今回は2のMapping-based methodsについての話 Cross-Lingual Word Embeddingsとは 2020/09/26 最先端NLP勉強会 (2020) 2

• Word2Vecの窓幅を変えた時のmapping-based cross-lingual embeddingの挙動をとことん突き詰めて調べる（注︓BERT等の⾔語モデルの話は⼀切出てきません） • わかったこと 1. 原⾔語と対象⾔語の窓幅を⼤きくすればするほど良いアライメントが取れる（特に名詞）
窓幅⼩→ functional (syntactic) similarity 窓幅⼤→ topically similarity 2. が、良いアライメントが取れるからと⾔っても下流タスクの精度向上につながるとは限らない • 特に、syntaxが重要であるDependency Parsingで変わった挙動を⽰すこの論⽂の貢献（ざっくり⾔うと） 2020/09/26 最先端NLP勉強会 (2020) 3 を捉えたembeddingとなる BERTの場合、さらに広いcontextを⾒た上でsyntactic的なfeatureも捉えているという研究もある [Goldberg+ 2019]が……

• 分析が丁寧 • “we … carefully analyzed the implications of
their varying performance on both intrinsic and extrinsic tasks.” • 各実験結果に対して、「これは既存研究と⼀致する、⼀致しない」を細かく検証 • ⼀致しない場合は「なぜ⼀致しないのか︖」考えうる要因を詳細に議論 • 多様な実験設定（ドメイン, ⾔語対…）で検証 • 「窓幅を変えること」が、Cross-lingual設定上で何に影響して何に影響しないのかを俯瞰できる（⾃分たちのresearch questionに忠実）この論⽂の良い点 2020/09/26 最先端NLP勉強会 (2020) 4

導⼊: 窓幅とembeddingの性質の関係 2020/09/26 最先端NLP勉強会 (2020) 5 • （単⾔語embeddingの場合）窓幅を変えるだけで、 embeddingの持つ性質は
かなり変化する • 窓幅が⼩さい（=1）と functional (syntactic) な類似を捉え [Levy and Goldberg, 2014a] 、窓幅が⼤きい（=10）と topical な類似を捉える傾向が⾒られる → Cross-lingual embeddingの場合どうなるのか︖ 全部複数形 “類型学” に関する単語

• Mapping-based methodsの式は以下で表される • これは、 2つの埋め込み空間が • 構造的に類似している • isometricである（近傍グラフの構造が同型である
(NLP2020論⽂より)）という強い仮説のもと成り⽴つ（isomorphism assumption） → でも違うドメイン・もっと違う⾔語だったら、その仮説ってどうなの︖ 導⼊: Mapping-based methodsへの懸念 2020/09/26 最先端NLP勉強会 (2020) 6 （イメージ図） https://ruder.io/unsupervis ed-cross-lingual-learning/ arg min ! ' "#$ % ∥ " − " ∥&

• Word2Vecの窓幅を変えた時、mapping-based cross- lingual embeddingの性質がどのように変化するか︖ • 複数の条件で⽐較︓ 1. 対象⾔語側の窓幅固定、原⾔語側の窓幅を変える 2.
原⾔語・対象⾔語共に窓幅を変える • 単語のPoS（Noun, Verb, Adverb, Adjective）ごとの⽐較 • 異なるドメイン（Wikipedia, News）での⽐較 • 異なる⾔語（En -> {Fr, De, Ru, Ja}）での⽐較 • 単語の頻度（⾼頻度 = ⽂脈を⾒る回数多）での⽐較 3. 下流タスクを解いてみるじゃあどういう実験を⾏う︖ 2020/09/26 最先端NLP勉強会 (2020) 7

• オリジナル（Cインプリ）のword2vec、pythonライブラリ Gensim のword2vec等は dynamic window mechanism* を採⽤ *1から指定された窓幅の間で⼀様にword-context pairのサンプリング
[Mikolov et al., 2013a] → 頻出トークン除去[Levy et al., 2015] • この処理は⽂脈⻑を拡⼤する効果がある • 窓幅の影響をちゃんと調べるために、任意のword-context pairをinputとして扱うword2vecf**というツールを使った注意事項（個⼈的に気になる点） 1 2020/09/26 最先端NLP勉強会 (2020) 8 個⼈的な感想︓実際には⼤体Gensim等を使うわけで、「⼤きい窓幅が良い」というこの論⽂の結論が実⽤上も適切とは限らない可能性が若⼲ある︖ → が、この論⽂の⽬的は”根本的な理論に⽴ち返る（Revisiting）”ことにあるっぽいのでまあいいのか…︖ ** https://bitbucket.org/yoavgo/word2vecf/src/default/

• Mapping-based methodsでアライメントを取る⽤の辞書は Google翻訳から⾃動的に取得 → 実際、⽣成された辞書は “noisy” かつ単語翻訳の定義が曖昧
(“the deﬁnition of word translation is unclear”) • 具体的には、polysemyなどを考慮できないなどの問題がある • ここに関してはfuture work 注意事項（個⼈的に気になる点）2 2020/09/26 最先端NLP勉強会 (2020) 9 個⼈的な感想︓ 4⾔語（英 → 仏、独、露、⽇）で全部同じツールを使えるのは利点だが、⼀単語だけの翻訳だとミスることも多々あるのでは︖ 代替案としては綺麗に整備された辞書を使う、など︖ 結局polysemyにどう対応するのか……

• タスク: Bilingual Lexicon Induction • 各⾔語2つの埋め込み空間から、原⾔語の単語に相当する対象⾔語の翻訳を、cos類似度を⽤いたnearest neighborを使って抽出 •
評価指標: よりinformativeな指標としてmean reciprocal rank (MRR) を採⽤ [Glavaˇs et al. , 2019] • （⼀般的にはtop-k precisionで評価される） • データセット: Wikipedia Comparable Corpora* • 既存研究で⽤いられたfully Wikipedia articleと⽐べ、各⾔語である程度のデータ量が確保可能 → データ量的に均等な条件で⽂脈窓の影響を調べる • 異なるドメイン設定の実験に関しては、newsドメインのコーパス (https://wortschatz.uni-leipzig.de/en/download) を使⽤実験設定 2020/09/26 最先端NLP勉強会 (2020) 10 (https://linguatools.org/tools/corpora/wikipedia-comparable-corpora/)

実験1: 対象⾔語窓幅を固定、原⾔語窓幅を変更 2020/09/26 最先端NLP勉強会 (2020) 11 • 既存研究と違い、窓幅を⼤きくすればするほど精度が向上既存研究(Fasttext,
fully Wikipedia, En-Es)と結果が違う原因︖ (1) Fasttextがdynamic window mechanismを採⽤している (2) 既存研究より学習⽤コーパスの規模が⼩さい • ⽂字n-gramを採⽤しているfasttextは、類似している⾔語間の subword overlapをnon-trivialな量使えてしまう︖ (2)に関してはfully Wikipediaで同じように実験すれば⼀応確かめられるのでは︖

実験2: 原⾔語・対象⾔語共に窓幅を変える (※2つは同じ窓幅) 2020/09/26 最先端NLP勉強会 (2020) 12 • どの対象⾔語においても、「窓幅⼤→精度向上」
• トピック指向のembedding（=窓幅⼤の時）はlanguage-agnosticに意味を捉えているため、異なる⾔語間でもアライメントを取りやすい︖ • 原⾔語(news)-対象⾔語(Wikipedia)間でドメインが変わると、全体的に精度は⼤幅に下がる • ドメインの⼀貫性がisomorphism assumption (p6の仮説) に対して重要という既存の知⾒ [Søgaard et al., 2018] に従う結果 • ただドメインが変わっても、窓幅⼤→精度向上の傾向は不変（原⾔語・対象⾔語が同じドメイン）（異なるドメイン）

実験2: 原⾔語・対象⾔語共に窓幅を変える (※2つは同じ窓幅) 2020/09/26 最先端NLP勉強会 (2020) 13 • PoS
別にみると、NOUN（名詞）が他と⽐べて精度が良い → 他のPoSと⽐べ、名詞はトピックを反映した単語が多いから︖ • ⾔語別には、⽇本語がかなり精度悪い → ⽇本語は原⾔語の英語と類型的に離れているため、アライメントが取りづらい︖ ADJ, ADVもまあまあ⾼いように⾒えるが、特にADVは⽐較的標準偏差が⼤きいからか（︖）あまり⾔及はなし

実験2: 原⾔語・対象⾔語共に窓幅を変える (※2つは同じ窓幅) 2020/09/26 最先端NLP勉強会 (2020) 14 • 原⾔語(news)-対象⾔語(Wikipedia)間でドメインが異なる場合の
PoS 別評価 • “NOUNとADJが窓幅の⻑さとhigh correlation”との⾔及ありむしろ、VERBが窓幅⼤きい時に若⼲Fr, Deで若⼲下がっているのが少し気になる（ADVに触れないのはやはり標準偏差のばらつきのせい︖）

実験2: 原⾔語・対象⾔語共に窓幅を変える (※2つは同じ窓幅) 2020/09/26 最先端NLP勉強会 (2020) 15 • 単語の頻度別の評価
• 2⾔語間のドメインが異なる場合、レア単語（bottom500）に関しては「窓幅⼤→精度向上」にならない（精度下がっている） • 「レア単語においてmapping-based methodsの性能が悪くなる」のは既存研究 [Braune et al., 2018; Czarnowska et al., 2019]の結果に沿っている • 頻出語の精度が顕著に良くなる理由︓⽂脈語を⾒る回数が多い → 窓幅⼤にしたときの、無関係な語によるノイズの影響が緩和される︖ （原⾔語・対象⾔語が同じドメイン）（異なるドメイン）

実験3: 下流タスクにおける挙動確認 2020/09/26 最先端NLP勉強会 (2020) 16 • Sentiment Analysis, Document
Classificationでの評価 • Enに関しては窓幅3-5くらいがちょうど良さげ • ⼀⽅、transferした4⾔語（Fr, De, Ru, Ja）では、DCでのJaを除き窓幅が⼤きい⽅が性能向上する • DCのJaが低いのは、英語と⽇本語の類型が違いすぎてアライメントの精度が悪いため︖ データがないため N/A Sentiment Analysis Document Classification

実験3: 下流タスクにおける挙動確認 2020/09/26 最先端NLP勉強会 (2020) 17 • Syntaxが重要であるDependency Parsingでは、 Enにおいて窓幅=1の時が最も性能が良いと⾔う結果に
• “⼩さい窓幅にするとsyntax-orientなembeddingが⽣成される” という知⾒ [Levy and Goldberg, 2014a]に沿っている • が、En以外の⾔語にtransferした場合、窓幅が⼤きい⽅が良い（窓幅=1が最も悪い結果となる） • この複雑な結果は、⾔語横断的なsyntax知識のtransferが難しいことを⽰している︖

• 窓幅を⼤きくすると、原⾔語・対象⾔語両⽅の単語アライメントがより容易に取れるようになる（特に名詞） • Mappingしたcross-lingual embeddingを⽤いて下流タスクでの精度を⾒てみた場合、原⾔語における最⾼精度の窓幅がtransfer先⾔語でも良いとは限らない • 原⾔語と対象⾔語のアライメントがよく取れた
窓幅を選ぶべき • BERTの性質検証が盛んな中でWord2vec⼀本で勝負して通ったのは純粋にすごいと思う結論 2020/09/26 最先端NLP勉強会 (2020) 18

Appendix 2020/09/26 最先端NLP勉強会 (2020) 19

• Sentiment Analysis • データセット: Webis-CLS10 corpus 10 [Prettenhofer and
Stein, 2010] • Amazonのレビュー欄 • 4⾔語対応（英・独・仏・⽇） • 1~5のレビューがついているが、今回は1-2をnegative, 4-5をpositiveとみなす2値分類タスク • Document Classification • データセット: MLDoc [Schwenk and Li, 2018)] • 8⾔語対応（今回実験している英・独・仏・⽇・露を含む） • Corporate/Industrial, Economics, Government/Social, Marketsの4値分類 • Dependency Parsing • データセット: • 学習: UD English EWT dataset 12 [Silveira et al., 2014] • テスト: PUD treebanks 13 (https://universaldependencies.org/conll17/) • モデル: deep biafﬁne parsers [Dozat and Manning, 2017] 下流タスクの設定 2020/09/26 最先端NLP勉強会 (2020) 20

• 下流タスクのモデルの処理 1. 英語の単語embeddingを⽤いて、下流タスク（SA, DC, DP）を解くモデルを訓練 • この時、単語embeddingのパラメータは固定 2.
（Enについて）Dev setにおけるEnの単語embedding での精度を測る 3. （Fr, De, Ru, Jaについて）各⾔語のTest setにおいて、 2と同じモデルで、Enの単語embeddingとアライメントされた各⾔語の単語embeddingを使って予測備考: 下流タスクのtransferとは? 2020/09/26 最先端NLP勉強会 (2020) 21

（最先端NLP2020）Revisiting the Context Window for C...

（最先端NLP2020）Revisiting the Context Window for Cross-lingual Word Embeddings

Kaori Abe

More Decks by Kaori Abe

Other Decks in Research

Featured

Transcript

Revisiting the Context Window for Cross-lingual Word Embeddings Ryokan Ri

• 3パターンある [Sebastian+ 2019] 1. (Psuedo-Multilingual corpora-based methods) ※本論⽂で⾔及なし •

• 分析が丁寧 • “we … carefully analyzed the implications of

導⼊: 窓幅とembeddingの性質の関係 2020/09/26 最先端NLP勉強会 (2020) 5 • （単⾔語embeddingの場合）窓幅を変えるだけで、 embeddingの持つ性質は

• Mapping-based methodsの式は以下で表される • これは、 2つの埋め込み空間が • 構造的に類似している • isometricである（近傍グラフの構造が同型である

• Word2Vecの窓幅を変えた時、mapping-based cross- lingual embeddingの性質がどのように変化するか︖ • 複数の条件で⽐較︓ 1. 対象⾔語側の窓幅固定、原⾔語側の窓幅を変える 2.

• オリジナル（Cインプリ）のword2vec、pythonライブラリ Gensim のword2vec等は dynamic window mechanism* を採⽤ *1から指定された窓幅の間で⼀様にword-context pairのサンプリング

• Mapping-based methodsでアライメントを取る⽤の辞書は Google翻訳から⾃動的に取得 → 実際、⽣成された辞書は “noisy” かつ単語翻訳の定義が曖昧

• タスク: Bilingual Lexicon Induction • 各⾔語2つの埋め込み空間から、原⾔語の単語に相当する対象⾔語の翻訳を、cos類似度を⽤いたnearest neighborを使って抽出 •

実験1: 対象⾔語窓幅を固定、原⾔語窓幅を変更 2020/09/26 最先端NLP勉強会 (2020) 11 • 既存研究と違い、窓幅を⼤きくすればするほど精度が向上既存研究(Fasttext,

実験2: 原⾔語・対象⾔語共に窓幅を変える (※2つは同じ窓幅) 2020/09/26 最先端NLP勉強会 (2020) 12 • どの対象⾔語においても、「窓幅⼤→精度向上」

実験2: 原⾔語・対象⾔語共に窓幅を変える (※2つは同じ窓幅) 2020/09/26 最先端NLP勉強会 (2020) 13 • PoS

実験2: 原⾔語・対象⾔語共に窓幅を変える (※2つは同じ窓幅) 2020/09/26 最先端NLP勉強会 (2020) 14 • 原⾔語(news)-対象⾔語(Wikipedia)間でドメインが異なる場合の

実験2: 原⾔語・対象⾔語共に窓幅を変える (※2つは同じ窓幅) 2020/09/26 最先端NLP勉強会 (2020) 15 • 単語の頻度別の評価

実験3: 下流タスクにおける挙動確認 2020/09/26 最先端NLP勉強会 (2020) 16 • Sentiment Analysis, Document

実験3: 下流タスクにおける挙動確認 2020/09/26 最先端NLP勉強会 (2020) 17 • Syntaxが重要であるDependency Parsingでは、 Enにおいて窓幅=1の時が最も性能が良いと⾔う結果に

Appendix 2020/09/26 最先端NLP勉強会 (2020) 19

• Sentiment Analysis • データセット: Webis-CLS10 corpus 10 [Prettenhofer and

• 下流タスクのモデルの処理 1. 英語の単語embeddingを⽤いて、下流タスク（SA, DC, DP）を解くモデルを訓練 • この時、単語embeddingのパラメータは固定 2.