Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(最先端NLP2019)Empirical Linguistic Study of Sente...

Avatar for Kaori Abe Kaori Abe
September 28, 2019

(最先端NLP2019)Empirical Linguistic Study of Sentence Embeddings

最先端NLP2019(2019/09/27-28開催)勉強会にて,発表に用いたスライドです.

・最先端NLP勉強会:https://sites.google.com/view/snlp-jp/home/2019?authuser=0

・論文情報
Title: Empirical Linguistic Study of Sentence Embeddings (ACL2019)
Authors: Katarzyna Krasnowska-Kieraś, Alina Wróblewska
paper URL (ACL anthology): https://aclanthology.org/P19-1573/

・発表者情報
東北大学 乾研究室
阿部 香央莉

Avatar for Kaori Abe

Kaori Abe

September 28, 2019
Tweet

More Decks by Kaori Abe

Other Decks in Research

Transcript

  1. Empirical Linguistic Study of Sentence Embeddings (ACL2019) 発表者︓阿部 ⾹央莉 東北⼤

    乾・鈴⽊研 修⼠2年 / 理研AIP 2019/9/28 1 最先端NLP2019 ※スライド中の図表は脚注がない限り元論⽂からの抜粋です
  2. 論⽂の概要 2019/9/28 2 š Sentence Embeddings(⽂ベクトル)を獲得する ⼿法は様々に考案されている[Cer+, 2018][Pagliardini+, 2018] š例)

    ⽂を構成する単語ベクトルのmax/mean poolingなど š どの⼿法が⼀番⾔語学的性質を捉えられているか Probingタスクや下流タスクを解いて調べてみた Sentence Embeddings Probing & downstream Tasks ✖ 最先端NLP2019
  3. (個⼈的)この論⽂のキモ 2019/9/28 3 Sentence Embeddings Probing & downstream Tasks ✖

    「⾔語横断的に調べてみよう︕」と(暗に)⾔っている︖ Universal Dependencyのアノテーションに基づいたProbingタスクを提案 → Universal Dependencyにある⾔語なら全て同様に実験可能 最先端NLP2019 š Sentence Embeddings(⽂ベクトル)を獲得する ⼿法は様々に考案されている[Cer+, 2018][Pagliardini+, 2018] š例) ⽂を構成する単語ベクトルのmax/mean poolingなど š どの⼿法が⼀番⾔語学的性質を捉えられているか Probingタスクや下流タスクを解いて調べてみた
  4. š 例えば︓英語 (English) vs. ポーランド語 (Polish) šEnglish︓語順の制限が⾮常に厳しい šPolish︓⽇本語と同様、語順の制限が緩い š[仮説] 同じ⼿法で⽂ベクトルを作成しても、

    ⾔語学的類型 (linguistic typology) が異なる⾔語 では、その⼿法が有効でない可能性がある︖ š 仮に英語で有効な⼿法でも… š男⼥名詞がある⾔語において、男⼥名詞の違いを捉えているか︖ š語順そのものが異なる場合は︖(VS語順の⾔語もある) šアルファベットではない⽂字セットを使う⾔語では︖etc… なぜ⾔語横断的に調べる必要が︖ 2019/9/28 4 最先端NLP2019
  5. 実験で扱う⽂ベクトル⼿法たち FastText BERT COMBO [Rybak and Wróblewska, 2018] Sent2Vec (NS)

    Sent2Vec (ORIG) LASER[Artet xe and Schwenk, 2018] USE [Cer+, 2018] ベクトル 次元数 300? 768? 164? 100(単語)+64(⽂字) 700? 700 1024 512 機構 CBOW 12層 Transf ormer 2層 Bi-LSTM CBOWの 拡張 CBOWの 拡張 5層 Bi-LSTM Transform er コーパス 規模 English: 16k trees Polish: 22k trees 3M 70M 223M Much Pre- trained ✔ ✔ ✔ (UDで依存関係 を学習) Paralera で学習 ✔ ✔ ✔ その他 依存関係情報が ⼊った?ベクトル (著者らの実装) [Pagliardin i+, 2018] 同左 多⾔語情 報を利⽤ 2019/9/28 5 単語ベクトルの Max/Mean Pooling (In-domain) ⼩規模 コーパス⽂ベクトル ⼤規模コーパス ⽂ベクトル Sentence Embeddings Probing & downstream Tasks ✖ 最先端NLP2019 ※発表者作
  6. Probingタスク š[Conneau+, 2018]らのProbing Taskを、 UD treebankのスキーマに準じて改変 & データ作成 šデータはParalera(En, Poのパラレル)コーパスを使⽤[Pęzik,

    2016] š実際のデータも公開済 šタスクは全部で9種類 (太字が [Conneau+, 2018] からのmodified or 新規追加) šSentLen(⽂の⻑さ), WC(特定の単語が含まれているか), TreeDepth(依存構造の深さ), TopDeps(⽂構造上不可⽋な部分 の品詞リスト) Passsive, Tense(⽂法的過去形), SubjNum(Subj が加算か), ObjNum šSentType︓[平叙⽂, 命令⽂, その他] の3分類(新規追加) 2019/9/28 6 Sentence Embeddings Probing & downstream Tasks ✖ 最先端NLP2019 ※ ⾃動的にProbing データを作成してくれるスクリプトとかはない → ⽇本語でやりたい場合、論⽂のprocedureに従って⽇本語UDに合わせて作る︖ (http://git.nlp.ipipan.waw.pl/groups/Scwad)
  7. 2つの下流タスク š [懸念] Probingタスクだけでは、⽂ベクトル全体 のパフォーマンスを評価することができない → 下流タスクの精度も測ろう︕ š Relatedness &

    Entailment Task š 上記タスクのデータは以下2つを使⽤ šEnglish︓The SICK corpus [Bentivogli+, 2014] š10k pairs, 10⼈のannotator šPolish︓CDSCorpus [Wróblewska and Krasnowska-Kieraś, 2017] š10k pairs, 6⼈のannotator 2019/9/28 7 Sentence Embeddings Probing & downstream Tasks ✖ 最先端NLP2019 ※ 10kという規模は同じだが、 そもそも元は違うコーパスである (後で伏線回収) そうなの︖
  8. 実験結果 2019/9/28 8 Sentence Embeddings Probing & downstream Tasks downstream

    Probing 網羅的な分析っぽい表 (Po⽳抜けは英語単⾔語 pre-trained ベクトル) 分類器は全て同⼀の機構を使⽤ (SentEval’s Multilayer Perceptron classifier)
  9. š 先の表をまとめると 1. COMBO(依存関係考慮, max/mean-pooling)が1番 (網掛けが、全モデル中最も精度の良いもの) 2. 実験設定上有利なのでCOMBOを抜くと、 LASER(多⾔語⼤規模コーパスベース)が良い (太字が、COMBOを抜いたモデル中最も精度の良いもの)

    š しかし、⼤きなベクトル次元数・⼤規模かつ多⾔語データ が必要と⾔う点からコスト⼤ 3. 単語ベクトルのPoolingによるモデルは、 max < meanの傾向あり 実験結果(要約) 2019/9/28 9 最先端NLP2019
  10. 個⼈的にきになる2 2019/9/28 最先端NLP2019 11 š USEにはPolishを含む多⾔語USEもある (https://tfhub.dev/google/universal-sentence-encoder-multilingual/1) (論⽂で採⽤したのは英語の単⾔語USE) š多⾔語USEが公開された のは2019/07だから

    仕⽅ないかも šただ、LASERの⽅が high-dimentional & 学習した⾔語も多い ( 16 <<< 93⾔語) ので、仮に多⾔語USEを ⼊れてもLASERが勝ちそう? (偏⾒)(わかりません)
  11. 2⾔語間 (En, Po) のProbingの相関 2019/9/28 12 Pearson Spearman 左︓モデル別の相関 右︓タスク別の相関

    最先端NLP2019 「[仮説] 類型の異なる⾔語で各⽂ベクトル⼿法の性能は違う、を確かめたかった図︖ モデル別相関 → ⾼い = 性能の違いなし(LASERだけ⽐較的低い︖) タスク別相関 → SentTypeは(同データ・別⾔語で)相関が低い = 違いあり (下流タスクの2つは、EnとPoの間で使っているデータがそもそも違うので、 相関の低さが⼿法だけでなくデータに依存している可能性もあり)
  12. まとめ š提案されている⽂ベクトル⼿法をまとめ、どれが良いか 網羅的に調べた š結果の考察はもう少しほしかった š 「様々な類型の⾔語で良くなる」を⽬的にしたら、 LASER(多⾔語⼤規模コーパスベース)が COMBOを抜くと⼀番精度が良いことを報告 šLASERを使っていくなら、より低コストにしていく必要がある š

    UDスキーマというデファクトに従って Probingタスクを設計した š「いろんな⾔語でProbingすべき」という気持ちはあっても、 結局、⾃分の⺟語以外の評価はしづらいという懸念がある šならせめて他の⾔語でも実験しやすい状況(タスク設定・ データ資源)を作り上げるべき(という知⾒を勝⼿に得ました) 2019/9/28 13 最先端NLP2019
  13. References [Cer+, 2018] Universal Sentence Encoder for English. In Proceedings

    of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 169–174. Association for Computational Linguistics. [Pagliardini+, 2018] Unsupervised Learning of Sentence Embed- dings Using Compositional n-Gram Features. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 528–540. Association for Computational Linguistics. [Rybak and Wróblewska, 2018] Semi-Supervised Neural System for Tagging, Parsing and Lematization. In Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 45–54. Association for Computional Linguistics. [Artetxe and Schwenk, 2018] Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond. CoRR, abs/1812.10464. [Conneau+, 2018] What you can cram into a single ¥$&!#* vector: Probing sentence embeddings for linguistic properties. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2126–2136. Association for Computational Linguistics. [Pęzik, 2016] Exploring Phraseological Equivalence with Paralela. In Polish-Language Parallel Corpora, page 67–81. Instytut Lingwistyki Stosowanej UW, Warsaw [Bentivogli+, 2014] SICK through the SemEval Glasses. Lesson learned from the evaluation of compositional distributional semantic models on full sentences through semantic relatedness and textual entailment. Journal ofLanguage Resources and Evaluation, 50:95–124. [Wróblewska and Krasnowska-Kieraś, 2017] Polish evaluation dataset for compositional distributional semantics models. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 784–792. Association for Computational Linguistics. 2019/9/28 最先端NLP2019 15