Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(最先端NLP2019)Empirical Linguistic Study of Sentence Embeddings

Kaori Abe
September 28, 2019

(最先端NLP2019)Empirical Linguistic Study of Sentence Embeddings

最先端NLP2019(2019/09/27-28開催)勉強会にて,発表に用いたスライドです.

・最先端NLP勉強会:https://sites.google.com/view/snlp-jp/home/2019?authuser=0

・論文情報
Title: Empirical Linguistic Study of Sentence Embeddings (ACL2019)
Authors: Katarzyna Krasnowska-Kieraś, Alina Wróblewska
paper URL (ACL anthology): https://aclanthology.org/P19-1573/

・発表者情報
東北大学 乾研究室
阿部 香央莉

Kaori Abe

September 28, 2019
Tweet

More Decks by Kaori Abe

Other Decks in Research

Transcript

  1. Empirical Linguistic Study of
    Sentence Embeddings (ACL2019)
    発表者︓阿部 ⾹央莉
    東北⼤ 乾・鈴⽊研 修⼠2年 / 理研AIP
    2019/9/28
    1
    最先端NLP2019
    ※スライド中の図表は脚注がない限り元論⽂からの抜粋です

    View full-size slide

  2. 論⽂の概要
    2019/9/28 2
    š Sentence Embeddings(⽂ベクトル)を獲得する
    ⼿法は様々に考案されている[Cer+, 2018][Pagliardini+, 2018]
    š例) ⽂を構成する単語ベクトルのmax/mean poolingなど
    š どの⼿法が⼀番⾔語学的性質を捉えられているか
    Probingタスクや下流タスクを解いて調べてみた
    Sentence Embeddings Probing & downstream Tasks

    最先端NLP2019

    View full-size slide

  3. (個⼈的)この論⽂のキモ
    2019/9/28 3
    Sentence Embeddings Probing & downstream Tasks

    「⾔語横断的に調べてみよう︕」と(暗に)⾔っている︖
    Universal Dependencyのアノテーションに基づいたProbingタスクを提案
    → Universal Dependencyにある⾔語なら全て同様に実験可能
    最先端NLP2019
    š Sentence Embeddings(⽂ベクトル)を獲得する
    ⼿法は様々に考案されている[Cer+, 2018][Pagliardini+, 2018]
    š例) ⽂を構成する単語ベクトルのmax/mean poolingなど
    š どの⼿法が⼀番⾔語学的性質を捉えられているか
    Probingタスクや下流タスクを解いて調べてみた

    View full-size slide

  4. š 例えば︓英語 (English) vs. ポーランド語 (Polish)
    šEnglish︓語順の制限が⾮常に厳しい
    šPolish︓⽇本語と同様、語順の制限が緩い
    š[仮説] 同じ⼿法で⽂ベクトルを作成しても、
    ⾔語学的類型 (linguistic typology) が異なる⾔語
    では、その⼿法が有効でない可能性がある︖
    š 仮に英語で有効な⼿法でも…
    š男⼥名詞がある⾔語において、男⼥名詞の違いを捉えているか︖
    š語順そのものが異なる場合は︖(VS語順の⾔語もある)
    šアルファベットではない⽂字セットを使う⾔語では︖etc…
    なぜ⾔語横断的に調べる必要が︖
    2019/9/28 4
    最先端NLP2019

    View full-size slide

  5. 実験で扱う⽂ベクトル⼿法たち
    FastText BERT COMBO [Rybak and
    Wróblewska, 2018]
    Sent2Vec
    (NS)
    Sent2Vec
    (ORIG)
    LASER[Artet
    xe and Schwenk,
    2018]
    USE
    [Cer+, 2018]
    ベクトル
    次元数
    300? 768? 164?
    100(単語)+64(⽂字)
    700? 700 1024 512
    機構 CBOW 12層
    Transf
    ormer
    2層
    Bi-LSTM
    CBOWの
    拡張
    CBOWの
    拡張
    5層
    Bi-LSTM
    Transform
    er
    コーパス
    規模
    English: 16k trees
    Polish: 22k trees
    3M 70M 223M Much
    Pre-
    trained
    ✔ ✔ ✔ (UDで依存関係
    を学習)
    Paralera
    で学習
    ✔ ✔ ✔
    その他 依存関係情報が
    ⼊った?ベクトル
    (著者らの実装)
    [Pagliardin
    i+, 2018]
    同左 多⾔語情
    報を利⽤
    2019/9/28 5
    単語ベクトルの
    Max/Mean Pooling
    (In-domain) ⼩規模
    コーパス⽂ベクトル
    ⼤規模コーパス
    ⽂ベクトル
    Sentence Embeddings Probing & downstream Tasks

    最先端NLP2019
    ※発表者作

    View full-size slide

  6. Probingタスク
    š[Conneau+, 2018]らのProbing Taskを、
    UD treebankのスキーマに準じて改変 & データ作成
    šデータはParalera(En, Poのパラレル)コーパスを使⽤[Pęzik, 2016]
    š実際のデータも公開済
    šタスクは全部で9種類
    (太字が [Conneau+, 2018] からのmodified or 新規追加)
    šSentLen(⽂の⻑さ), WC(特定の単語が含まれているか),
    TreeDepth(依存構造の深さ), TopDeps(⽂構造上不可⽋な部分
    の品詞リスト) Passsive, Tense(⽂法的過去形), SubjNum(Subj
    が加算か), ObjNum
    šSentType︓[平叙⽂, 命令⽂, その他] の3分類(新規追加)
    2019/9/28 6
    Sentence Embeddings Probing & downstream Tasks

    最先端NLP2019
    ※ ⾃動的にProbing データを作成してくれるスクリプトとかはない
    → ⽇本語でやりたい場合、論⽂のprocedureに従って⽇本語UDに合わせて作る︖
    (http://git.nlp.ipipan.waw.pl/groups/Scwad)

    View full-size slide

  7. 2つの下流タスク
    š [懸念] Probingタスクだけでは、⽂ベクトル全体
    のパフォーマンスを評価することができない
    → 下流タスクの精度も測ろう︕
    š Relatedness & Entailment Task
    š 上記タスクのデータは以下2つを使⽤
    šEnglish︓The SICK corpus [Bentivogli+, 2014]
    š10k pairs, 10⼈のannotator
    šPolish︓CDSCorpus [Wróblewska and Krasnowska-Kieraś, 2017]
    š10k pairs, 6⼈のannotator
    2019/9/28 7
    Sentence Embeddings Probing & downstream Tasks

    最先端NLP2019
    ※ 10kという規模は同じだが、
    そもそも元は違うコーパスである
    (後で伏線回収)
    そうなの︖

    View full-size slide

  8. 実験結果
    2019/9/28 8
    Sentence Embeddings
    Probing & downstream Tasks
    downstream Probing
    網羅的な分析っぽい表
    (Po⽳抜けは英語単⾔語
    pre-trained ベクトル)
    分類器は全て同⼀の機構を使⽤ (SentEval’s Multilayer Perceptron classifier)

    View full-size slide

  9. š 先の表をまとめると
    1. COMBO(依存関係考慮, max/mean-pooling)が1番
    (網掛けが、全モデル中最も精度の良いもの)
    2. 実験設定上有利なのでCOMBOを抜くと、
    LASER(多⾔語⼤規模コーパスベース)が良い
    (太字が、COMBOを抜いたモデル中最も精度の良いもの)
    š しかし、⼤きなベクトル次元数・⼤規模かつ多⾔語データ
    が必要と⾔う点からコスト⼤
    3. 単語ベクトルのPoolingによるモデルは、
    max < meanの傾向あり
    実験結果(要約)
    2019/9/28 9
    最先端NLP2019

    View full-size slide

  10. 個⼈的にきになる
    šWC, SentLenなど⼈間には簡単なタスクにおいて
    精度が圧倒的に低い⼿法がいくつか…..
    š例) FastText(max-pooling)×SentLen, COMBO×WCなど
    šTreeDepthはどの⼿法も軒並み低い (でも⼈間にも少し難しい気がする)
    2019/9/28 最先端NLP2019 10
    ←低すぎ
    では…︖

    View full-size slide

  11. 個⼈的にきになる2
    2019/9/28 最先端NLP2019 11
    š USEにはPolishを含む多⾔語USEもある
    (https://tfhub.dev/google/universal-sentence-encoder-multilingual/1)
    (論⽂で採⽤したのは英語の単⾔語USE)
    š多⾔語USEが公開された
    のは2019/07だから
    仕⽅ないかも
    šただ、LASERの⽅が
    high-dimentional &
    学習した⾔語も多い
    ( 16 <<< 93⾔語)
    ので、仮に多⾔語USEを
    ⼊れてもLASERが勝ちそう?
    (偏⾒)(わかりません)

    View full-size slide

  12. 2⾔語間 (En, Po) のProbingの相関
    2019/9/28 12
    Pearson
    Spearman
    左︓モデル別の相関 右︓タスク別の相関
    最先端NLP2019
    「[仮説] 類型の異なる⾔語で各⽂ベクトル⼿法の性能は違う、を確かめたかった図︖
    モデル別相関 → ⾼い = 性能の違いなし(LASERだけ⽐較的低い︖)
    タスク別相関 → SentTypeは(同データ・別⾔語で)相関が低い = 違いあり
    (下流タスクの2つは、EnとPoの間で使っているデータがそもそも違うので、
    相関の低さが⼿法だけでなくデータに依存している可能性もあり)

    View full-size slide

  13. まとめ
    š提案されている⽂ベクトル⼿法をまとめ、どれが良いか
    網羅的に調べた
    š結果の考察はもう少しほしかった
    š 「様々な類型の⾔語で良くなる」を⽬的にしたら、
    LASER(多⾔語⼤規模コーパスベース)が
    COMBOを抜くと⼀番精度が良いことを報告
    šLASERを使っていくなら、より低コストにしていく必要がある
    š UDスキーマというデファクトに従って
    Probingタスクを設計した
    š「いろんな⾔語でProbingすべき」という気持ちはあっても、
    結局、⾃分の⺟語以外の評価はしづらいという懸念がある
    šならせめて他の⾔語でも実験しやすい状況(タスク設定・
    データ資源)を作り上げるべき(という知⾒を勝⼿に得ました)
    2019/9/28 13
    最先端NLP2019

    View full-size slide

  14. 追記
    šhttps://github.com/Separius/awesome-sentence-
    embedding
    š実際どれくらい網羅性あるのかな…と調べようとしたら
    すごい単語ベクトルと⽂ベクトルまとめが出てきた
    šUSEのリリース時期︖の情報はここを⾒て気づきました
    š↑によると、Sentence-BERTというものが出たらしい
    (https://arxiv.org/abs/1908.10084)
    š実装も公開済(https://github.com/UKPLab/sentence-
    transformers), pipでinstall可能
    šもし今追加で増やすなら多⾔語USEとこれも⽐較したい
    かも︖
    2019/9/28 最先端NLP2019 14

    View full-size slide

  15. References
    [Cer+, 2018] Universal Sentence Encoder for English. In Proceedings of the 2018 Conference on Empirical Methods in
    Natural Language Processing: System Demonstrations, pages 169–174. Association for Computational Linguistics.
    [Pagliardini+, 2018] Unsupervised Learning of Sentence Embed- dings Using Compositional n-Gram Features. In
    Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:
    Human Language Technologies, Volume 1 (Long Papers), pages 528–540. Association for Computational Linguistics.
    [Rybak and Wróblewska, 2018] Semi-Supervised Neural System for Tagging, Parsing and Lematization. In Proceedings
    of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 45–54.
    Association for Computional Linguistics.
    [Artetxe and Schwenk, 2018] Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and
    Beyond. CoRR, abs/1812.10464.
    [Conneau+, 2018] What you can cram into a single ¥$&!#* vector: Probing sentence embeddings for linguistic
    properties. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:
    Long Papers), pages 2126–2136. Association for Computational Linguistics.
    [Pęzik, 2016] Exploring Phraseological Equivalence with Paralela. In Polish-Language Parallel Corpora, page 67–81.
    Instytut Lingwistyki Stosowanej UW, Warsaw
    [Bentivogli+, 2014] SICK through the SemEval Glasses. Lesson learned from the evaluation of compositional
    distributional semantic models on full sentences through semantic relatedness and textual entailment. Journal
    ofLanguage Resources and Evaluation, 50:95–124.
    [Wróblewska and Krasnowska-Kieraś, 2017] Polish evaluation dataset for compositional distributional semantics
    models. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long
    Papers), pages 784–792. Association for Computational Linguistics.
    2019/9/28 最先端NLP2019 15

    View full-size slide