Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning

【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning

研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。

Kaito Sugimoto

July 04, 2022
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. Toward Interpretable Semantic Textual Similarity
    via Optimal Transport-based Contrastive Sentence
    Learning
    Lee et al., ACL 2022
    Kaito Sugimoto
    Aizawa Lab. M2
    2022/07/04
    1/23

    View Slide

  2. ACL 2022
    紹介する論文
    * 韓国のAIスタートアップ Scatterlab (スキャターラボ) でのインターンシップの成果らしい。Big Tech ではないス
    タートアップでのインターン成果を ACL に通すのはすごい 2/23

    View Slide

  3. 解釈可能な文類似度の計算手法を提案
    ニューラルベースでありながら、意味的に近いトークンのペアを明示的に得
    ることができる
    最適輸送 (Optimal Transport) 問題による文の距離の計算を
    contextualized embeddings に導入するのがポイント
    Semantic Textual Similarity (STS) benchmark において、最近の
    SOTA手法である SimCSE を上回るスコアを出し、Interpretable STS
    task(後述)においても高い性能を出している
    概要
    3/23

    View Slide

  4. 概要
    4/23

    View Slide

  5. 意味の近さを反映するように文章をベクトルに変換する基本的なタスク
    STS benchmark による評価が確立されている
    https://speakerdeck.com/hpprc/lun-jiang-zi-liao-simcse-simple-
    contrastive-learning-of-sentence-embeddings-823255cd-bd1f-
    40ec-a65c-0eced7a9191d が詳しい
    背景: 文埋め込みと STS benchmark
    5/23

    View Slide

  6. 2つの文が類似しているという結果について、どことどこが類似してい
    るのかという alignment が得られると、エンドユーザーにとっても嬉
    しい
    古典的な手法では、各単語の tf-idf などの特徴量などを見て、明示的に
    分析を行うことができた
    しかし最近の STS benchmark でパフォーマンスを出しているニューラ
    ルベースの手法においては、2つの文ベクトルが類似している時に文と
    文のどこが類似度に寄与しているのかを得るのが難しい
    この研究は、ニューラルベースでありながら alignment も得られる手
    法を提案しているので新しい
    背景: 文埋め込みの解釈性
    6/23

    View Slide

  7. 2つの(確率)分布を比較するツール
    KLダイバージェンスにはない特長として、分布の対応関係を得ること
    ができる
    以下の資料が詳しい
    https://www.slideshare.net/joisino/ss-251328369
    https://speakerdeck.com/eumesy/optimal-transport-for-natural-
    language-processing
    背景: 最適輸送
    7/23

    View Slide

  8. 既に Word2Vec (= non-contextualized embeddings) の時代に Word
    Mover's Distance という手法が提案されている
    文 1 の各単語に対応する Word2Vec の埋め込みたちをどのように移動
    したら文 2 になるか、その移動距離が小さいほど2文が類似している
    背景: 最適輸送と文埋め込み
    1
    1: Kusner et al., From Word Embeddings To Document Distances (ICML 2015) 8/23

    View Slide

  9. 文1が 個のサブワードからなる文とし、各サブワードの
    contextualized embeddings を とする(文2も同様)
    このとき、文の距離は、コスト行列 のもとで状態
    から に移動する輸送距離とみなせる。
    ただし、コスト行列は を満たす。(つまり、サ
    ブワード埋め込みが遠いほどコストが大きい)
    輸送距離とは、 をみたすような に対し
    て で与えられるもの。これが最小となるとき最適輸送距
    離 (earth mover's distance)と呼ばれる
    をうまく決められるとうれしい
    手法: 最適輸送と contextualized な文埋め込み
    L

    1
    x

    i
    1
    M ∈
    CMD RL

    ×L

    1 2
    d =
    1

    L

    1
    1 1 d =
    2

    L

    2
    1 1
    M

    =
    i,j
    CMD 1 − cos(x

    , x

    )
    i
    1
    j
    2
    T =
    ⊤1 d , T =
    2 1 d1 T ∈ R

    ≥0
    L

    ×L

    1 2

    T

    M

    i,j i,j i,j
    CMD
    2
    T
    2: 2ページ前に紹介したスライド資料の数値例を見ると理解しやすいと思います 9/23

    View Slide

  10. ベースライン的手法としてよくある「言語モデルのサブワードの平均を
    とって文埋め込みとする」手法は、最適輸送問題として見ると が
    rank-1 の制約を受けた上での解であり、輸送問題の解として最適でな
    い と言える
    の各 要素がサブワードのノルムの積 の形で書けてしま
    うので、行列の階数が必ず1になるということ

    「サブワードの平均をとって文埋め込み」は経験的にうまくいかないことは
    知られていたが、このように理論的に説明できるのは面白い
    手法: 最適輸送と contextualized な文埋め込み
    T
    T (i, j) ∥x

    ∥∥x


    i
    1
    j
    2
    10/23

    View Slide

  11. 最適輸送の厳密解を求めるのは計算量的に難しい
    non-contextualized 時代の Word Mover's Distance 手法と同様に、制
    約を緩和した最適輸送問題を解く
    手法: RCMD (relaxed contextualized token mover's distance)
    11/23

    View Slide

  12. 具体的には、
    の1つ目の制約 を取っ払った上で、以下を の解とし、その
    もとで距離を考える。
    この式は何を意味している?
    i 番目から j 番目に輸送するとき、最もコストの少ない j のみへ輸送する。

    →最も距離の小さいサブワード同士のみ対応づける(解釈に役立つ)
    手法: RCMD (relaxed contextualized token mover's distance)
    T T =
    ⊤1 d2 T
    12/23

    View Slide

  13. 同様に、 の2つ目の制約をとった場合の輸送距離も考えられる。
    最終的な文類似度 RCMD は、1 - (1つ目の輸送距離) と 1 - (2つ目の輸送
    距離) の平均になる
    筆者の主張によると、「サブワードの平均をとって文埋め込み」と違い
    が rank-1 制約を受けていないので、より複雑なサブワード間の意味
    的関連を表現できるとしている
    手法: RCMD (relaxed contextualized token mover's distance)
    T
    T
    13/23

    View Slide

  14. contrastive learning for RCMD
    先ほどの RCMD を、positive samples (意味が近いとされる2文) で小
    さくなるように、negative samples (意味が遠いとされる2文) で大き
    くなるように対照学習する(教師あり)文埋め込み手法
    対照学習の損失関数は SimCSE と同じ(いわゆる NT-Xent Loss とか
    InfoNCE とかとも呼ばれているやつ )
    手法: CLRCMD
    3
    3: https://kevinmusgrave.github.io/pytorch-metric-learning/losses/#ntxentloss 14/23

    View Slide

  15. 実験: STS benchmark
    15/23

    View Slide

  16. CLRCMD は SimCSE を若干上回っている
    (ここからは個人の感想)
    SBERT に対する SimCSE の性能向上に比べると、SimCSE に対する
    CLRCMD の性能向上は控えめで、ハイパラを上手く設定できればこのくら
    いの向上はできてしまいそう
    SimCSE と CLRCMD は同じ教師データ、同じ損失関数での Contrastive
    Learning をやっており、これがパフォーマンスの大きなウェイトを占めて
    いるように思える。

    CLRCMD 自体の売りである「トークンごとの類似度の学習」がパフォーマ
    ンスにどの程度寄与しているのかは不明。

    (Contrastive Learning ではない損失関数で学習するなどの ablation をや
    ってみると面白かったと思う)
    実験: STS benchmark
    16/23

    View Slide

  17. SemEval 2016 Task2
    このような2文の alignment 関係を予測できるか評価する
    実験: interpretable STS (iSTS) tasks
    4
    4: 論文には shared task の評価スクリプトを使って alignment F1 score を計算したとしか書かれておらず、詳細
    がよくわからなかった 17/23

    View Slide

  18. 注目ポイントとして、教師あり学習 (Contrastive Learning) をしない場
    合でも既にスコアが高い。RCMD が自然にアラインメントにもとづいて文
    埋め込みを得る手法になっていると言える
    実験: interpretable STS (iSTS) tasks
    18/23

    View Slide

  19. 最適輸送問題として文距離を考えると、文1の 番目のトークンと文2
    の 番目のトークンに対してそれぞれ を可視化すれば
    OK
    既存の 「サブワードの平均をとって文埋め込み」の手法だと が 10 ペ
    ージのような式で表され、結果として 4 ページ下段のようなヒートマップと
    して美しくない図になる
    一方で、提案手法の RCMD だと、12ページに書かれている通り はアラ
    イン関係のある の組以外は 0 になるような式なので、結果として 4 ペ
    ージ上段のようなヒートマップとして美しい図になる
    実験: heatmap visualization
    i
    j T

    (1 −
    i,j M

    )
    i,j
    T , M
    T

    i,j
    i, j
    19/23

    View Slide

  20. realize と comprehend のような synonym 関係も align されている
    実験: heatmap visualization
    20/23

    View Slide

  21. 25 August と 19 July のような異なる日付には align が弱くなっている
    実験: heatmap visualization
    21/23

    View Slide

  22. 理論的には、コスト行列 と各輸送を表す行列 を求め、要素
    ごとに掛ける計算が発生するため、メモリ消費量・計算コストが従来手
    法より多そうだが...
    がゼロでない要素だけ保持するようにすれば、バッチサイズが128とそ
    れなりに大きくても V100 に乗る
    また、推論時間も、既存の手法と比べてほとんど変わらない(STS
    benchmark dataset のサンプルの文章長が十分短く、GPUのメリットの方
    が支配的であるという点がある)
    実験: 計算量の分析
    M

    i,j T

    i,j
    T

    i,j
    22/23

    View Slide

  23. interpretable STS というタスクの存在を初めて知ったので面白かった
    自分の研究にも活用できるかも...?
    alignment の考え方は重要である一方で、能動態と受動態の入れ替え
    や not の意味反転など、単純なトークン対応だけでは表せない文の意
    味関係も色々ある。そういうものに対しても何か interpretable な図示
    方法があればいいなと思う
    感想
    23/23

    View Slide