Group Reading in 2019 - Empirical Linguistic Study of Sentence Embeddings

A4699f5332d9891dc49658418937bcc6?s=47 Kaori Abe
September 28, 2019

Group Reading in 2019 - Empirical Linguistic Study of Sentence Embeddings

2019/09/28 最先端NLPにて発表予定

A4699f5332d9891dc49658418937bcc6?s=128

Kaori Abe

September 28, 2019
Tweet

Transcript

  1. Empirical Linguistic Study of Sentence Embeddings (ACL2019) 発表者︓阿部 ⾹央莉 東北⼤

    乾・鈴⽊研 修⼠2年 / 理研AIP 2019/9/28 1 最先端NLP2019 ※スライド中の図表は脚注がない限り元論⽂からの抜粋です
  2. 論⽂の概要 2019/9/28 2 š Sentence Embeddings(⽂ベクトル)を獲得する ⼿法は様々に考案されている[Cer+, 2018][Pagliardini+, 2018] š例)

    ⽂を構成する単語ベクトルのmax/mean poolingなど š どの⼿法が⼀番⾔語学的性質を捉えられているか Probingタスクや下流タスクを解いて調べてみた Sentence Embeddings Probing & downstream Tasks ✖ 最先端NLP2019
  3. (個⼈的)この論⽂のキモ 2019/9/28 3 Sentence Embeddings Probing & downstream Tasks ✖

    「⾔語横断的に調べてみよう︕」と(暗に)⾔っている︖ Universal Dependencyのアノテーションに基づいたProbingタスクを提案 → Universal Dependencyにある⾔語なら全て同様に実験可能 最先端NLP2019 š Sentence Embeddings(⽂ベクトル)を獲得する ⼿法は様々に考案されている[Cer+, 2018][Pagliardini+, 2018] š例) ⽂を構成する単語ベクトルのmax/mean poolingなど š どの⼿法が⼀番⾔語学的性質を捉えられているか Probingタスクや下流タスクを解いて調べてみた
  4. š 例えば︓英語 (English) vs. ポーランド語 (Polish) šEnglish︓語順の制限が⾮常に厳しい šPolish︓⽇本語と同様、語順の制限が緩い š[仮説] 同じ⼿法で⽂ベクトルを作成しても、

    ⾔語学的類型 (linguistic typology) が異なる⾔語 では、その⼿法が有効でない可能性がある︖ š 仮に英語で有効な⼿法でも… š男⼥名詞がある⾔語において、男⼥名詞の違いを捉えているか︖ š語順そのものが異なる場合は︖(VS語順の⾔語もある) šアルファベットではない⽂字セットを使う⾔語では︖etc… なぜ⾔語横断的に調べる必要が︖ 2019/9/28 4 最先端NLP2019
  5. 実験で扱う⽂ベクトル⼿法たち FastText BERT COMBO [Rybak and Wróblewska, 2018] Sent2Vec (NS)

    Sent2Vec (ORIG) LASER[Artet xe and Schwenk, 2018] USE [Cer+, 2018] ベクトル 次元数 300? 768? 164? 100(単語)+64(⽂字) 700? 700 1024 512 機構 CBOW 12層 Transf ormer 2層 Bi-LSTM CBOWの 拡張 CBOWの 拡張 5層 Bi-LSTM Transform er コーパス 規模 English: 16k trees Polish: 22k trees 3M 70M 223M Much Pre- trained ✔ ✔ ✔ (UDで依存関係 を学習) Paralera で学習 ✔ ✔ ✔ その他 依存関係情報が ⼊った?ベクトル (著者らの実装) [Pagliardin i+, 2018] 同左 多⾔語情 報を利⽤ 2019/9/28 5 単語ベクトルの Max/Mean Pooling (In-domain) ⼩規模 コーパス⽂ベクトル ⼤規模コーパス ⽂ベクトル Sentence Embeddings Probing & downstream Tasks ✖ 最先端NLP2019 ※発表者作
  6. Probingタスク š[Conneau+, 2018]らのProbing Taskを、 UD treebankのスキーマに準じて改変 & データ作成 šデータはParalera(En, Poのパラレル)コーパスを使⽤[Pęzik,

    2016] š実際のデータも公開済 šタスクは全部で9種類 (太字が [Conneau+, 2018] からのmodified or 新規追加) šSentLen(⽂の⻑さ), WC(特定の単語が含まれているか), TreeDepth(依存構造の深さ), TopDeps(⽂構造上不可⽋な部分 の品詞リスト) Passsive, Tense(⽂法的過去形), SubjNum(Subj が加算か), ObjNum šSentType︓[平叙⽂, 命令⽂, その他] の3分類(新規追加) 2019/9/28 6 Sentence Embeddings Probing & downstream Tasks ✖ 最先端NLP2019 ※ ⾃動的にProbing データを作成してくれるスクリプトとかはない → ⽇本語でやりたい場合、論⽂のprocedureに従って⽇本語UDに合わせて作る︖ (http://git.nlp.ipipan.waw.pl/groups/Scwad)
  7. 2つの下流タスク š [懸念] Probingタスクだけでは、⽂ベクトル全体 のパフォーマンスを評価することができない → 下流タスクの精度も測ろう︕ š Relatedness &

    Entailment Task š 上記タスクのデータは以下2つを使⽤ šEnglish︓The SICK corpus [Bentivogli+, 2014] š10k pairs, 10⼈のannotator šPolish︓CDSCorpus [Wróblewska and Krasnowska-Kieraś, 2017] š10k pairs, 6⼈のannotator 2019/9/28 7 Sentence Embeddings Probing & downstream Tasks ✖ 最先端NLP2019 ※ 10kという規模は同じだが、 そもそも元は違うコーパスである (後で伏線回収) そうなの︖
  8. 実験結果 2019/9/28 8 Sentence Embeddings Probing & downstream Tasks downstream

    Probing 網羅的な分析っぽい表 (Po⽳抜けは英語単⾔語 pre-trained ベクトル) 分類器は全て同⼀の機構を使⽤ (SentEval’s Multilayer Perceptron classifier)
  9. š 先の表をまとめると 1. COMBO(依存関係考慮, max/mean-pooling)が1番 (網掛けが、全モデル中最も精度の良いもの) 2. 実験設定上有利なのでCOMBOを抜くと、 LASER(多⾔語⼤規模コーパスベース)が良い (太字が、COMBOを抜いたモデル中最も精度の良いもの)

    š しかし、⼤きなベクトル次元数・⼤規模かつ多⾔語データ が必要と⾔う点からコスト⼤ 3. 単語ベクトルのPoolingによるモデルは、 max < meanの傾向あり 実験結果(要約) 2019/9/28 9 最先端NLP2019
  10. 個⼈的にきになる šWC, SentLenなど⼈間には簡単なタスクにおいて 精度が圧倒的に低い⼿法がいくつか….. š例) FastText(max-pooling)×SentLen, COMBO×WCなど šTreeDepthはどの⼿法も軒並み低い (でも⼈間にも少し難しい気がする) 2019/9/28

    最先端NLP2019 10 ←低すぎ では…︖
  11. 個⼈的にきになる2 2019/9/28 最先端NLP2019 11 š USEにはPolishを含む多⾔語USEもある (https://tfhub.dev/google/universal-sentence-encoder-multilingual/1) (論⽂で採⽤したのは英語の単⾔語USE) š多⾔語USEが公開された のは2019/07だから

    仕⽅ないかも šただ、LASERの⽅が high-dimentional & 学習した⾔語も多い ( 16 <<< 93⾔語) ので、仮に多⾔語USEを ⼊れてもLASERが勝ちそう? (偏⾒)(わかりません)
  12. 2⾔語間 (En, Po) のProbingの相関 2019/9/28 12 Pearson Spearman 左︓モデル別の相関 右︓タスク別の相関

    最先端NLP2019 「[仮説] 類型の異なる⾔語で各⽂ベクトル⼿法の性能は違う、を確かめたかった図︖ モデル別相関 → ⾼い = 性能の違いなし(LASERだけ⽐較的低い︖) タスク別相関 → SentTypeは(同データ・別⾔語で)相関が低い = 違いあり (下流タスクの2つは、EnとPoの間で使っているデータがそもそも違うので、 相関の低さが⼿法だけでなくデータに依存している可能性もあり)
  13. まとめ š提案されている⽂ベクトル⼿法をまとめ、どれが良いか 網羅的に調べた š結果の考察はもう少しほしかった š 「様々な類型の⾔語で良くなる」を⽬的にしたら、 LASER(多⾔語⼤規模コーパスベース)が COMBOを抜くと⼀番精度が良いことを報告 šLASERを使っていくなら、より低コストにしていく必要がある š

    UDスキーマというデファクトに従って Probingタスクを設計した š「いろんな⾔語でProbingすべき」という気持ちはあっても、 結局、⾃分の⺟語以外の評価はしづらいという懸念がある šならせめて他の⾔語でも実験しやすい状況(タスク設定・ データ資源)を作り上げるべき(という知⾒を勝⼿に得ました) 2019/9/28 13 最先端NLP2019
  14. 追記 šhttps://github.com/Separius/awesome-sentence- embedding š実際どれくらい網羅性あるのかな…と調べようとしたら すごい単語ベクトルと⽂ベクトルまとめが出てきた šUSEのリリース時期︖の情報はここを⾒て気づきました š↑によると、Sentence-BERTというものが出たらしい (https://arxiv.org/abs/1908.10084) š実装も公開済(https://github.com/UKPLab/sentence- transformers),

    pipでinstall可能 šもし今追加で増やすなら多⾔語USEとこれも⽐較したい かも︖ 2019/9/28 最先端NLP2019 14
  15. References [Cer+, 2018] Universal Sentence Encoder for English. In Proceedings

    of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 169–174. Association for Computational Linguistics. [Pagliardini+, 2018] Unsupervised Learning of Sentence Embed- dings Using Compositional n-Gram Features. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 528–540. Association for Computational Linguistics. [Rybak and Wróblewska, 2018] Semi-Supervised Neural System for Tagging, Parsing and Lematization. In Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 45–54. Association for Computional Linguistics. [Artetxe and Schwenk, 2018] Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond. CoRR, abs/1812.10464. [Conneau+, 2018] What you can cram into a single ¥$&!#* vector: Probing sentence embeddings for linguistic properties. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2126–2136. Association for Computational Linguistics. [Pęzik, 2016] Exploring Phraseological Equivalence with Paralela. In Polish-Language Parallel Corpora, page 67–81. Instytut Lingwistyki Stosowanej UW, Warsaw [Bentivogli+, 2014] SICK through the SemEval Glasses. Lesson learned from the evaluation of compositional distributional semantic models on full sentences through semantic relatedness and textual entailment. Journal ofLanguage Resources and Evaluation, 50:95–124. [Wróblewska and Krasnowska-Kieraś, 2017] Polish evaluation dataset for compositional distributional semantics models. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 784–792. Association for Computational Linguistics. 2019/9/28 最先端NLP2019 15