Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning

【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning

研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。

Kaito Sugimoto

July 04, 2022
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence

    Learning Lee et al., ACL 2022 Kaito Sugimoto Aizawa Lab. M2 2022/07/04 1/23
  2. 解釈可能な文類似度の計算手法を提案 ニューラルベースでありながら、意味的に近いトークンのペアを明示的に得 ることができる 最適輸送 (Optimal Transport) 問題による文の距離の計算を contextualized embeddings に導入するのがポイント

    Semantic Textual Similarity (STS) benchmark において、最近の SOTA手法である SimCSE を上回るスコアを出し、Interpretable STS task(後述)においても高い性能を出している 概要 3/23
  3. 2つの文が類似しているという結果について、どことどこが類似してい るのかという alignment が得られると、エンドユーザーにとっても嬉 しい 古典的な手法では、各単語の tf-idf などの特徴量などを見て、明示的に 分析を行うことができた しかし最近の

    STS benchmark でパフォーマンスを出しているニューラ ルベースの手法においては、2つの文ベクトルが類似している時に文と 文のどこが類似度に寄与しているのかを得るのが難しい この研究は、ニューラルベースでありながら alignment も得られる手 法を提案しているので新しい 背景: 文埋め込みの解釈性 6/23
  4. 既に Word2Vec (= non-contextualized embeddings) の時代に Word Mover's Distance という手法が提案されている

    文 1 の各単語に対応する Word2Vec の埋め込みたちをどのように移動 したら文 2 になるか、その移動距離が小さいほど2文が類似している 背景: 最適輸送と文埋め込み 1 1: Kusner et al., From Word Embeddings To Document Distances (ICML 2015) 8/23
  5. 文1が 個のサブワードからなる文とし、各サブワードの contextualized embeddings を とする(文2も同様) このとき、文の距離は、コスト行列 のもとで状態 から に移動する輸送距離とみなせる。

    ただし、コスト行列は を満たす。(つまり、サ ブワード埋め込みが遠いほどコストが大きい) 輸送距離とは、 をみたすような に対し て で与えられるもの。これが最小となるとき最適輸送距 離 (earth mover's distance)と呼ばれる をうまく決められるとうれしい 手法: 最適輸送と contextualized な文埋め込み L ​ 1 x ​ i 1 M ∈ CMD RL ​ ×L ​ 1 2 d = 1 ​ L ​ 1 1 1 d = 2 ​ L ​ 2 1 1 M ​ = i,j CMD 1 − cos(x ​ , x ​ ) i 1 j 2 T = ⊤1 d , T = 2 1 d1 T ∈ R ​ ≥0 L ​ ×L ​ 1 2 ​ T ​ M ∑ i,j i,j i,j CMD 2 T 2: 2ページ前に紹介したスライド資料の数値例を見ると理解しやすいと思います 9/23
  6. ベースライン的手法としてよくある「言語モデルのサブワードの平均を とって文埋め込みとする」手法は、最適輸送問題として見ると が rank-1 の制約を受けた上での解であり、輸送問題の解として最適でな い と言える の各 要素がサブワードのノルムの積 の形で書けてしま

    うので、行列の階数が必ず1になるということ 「サブワードの平均をとって文埋め込み」は経験的にうまくいかないことは 知られていたが、このように理論的に説明できるのは面白い 手法: 最適輸送と contextualized な文埋め込み T T (i, j) ∥x ​ ∥∥x ​ ∥ i 1 j 2 10/23
  7. 具体的には、 の1つ目の制約 を取っ払った上で、以下を の解とし、その もとで距離を考える。 この式は何を意味している? i 番目から j 番目に輸送するとき、最もコストの少ない

    j のみへ輸送する。 →最も距離の小さいサブワード同士のみ対応づける(解釈に役立つ) 手法: RCMD (relaxed contextualized token mover's distance) T T = ⊤1 d2 T 12/23
  8. 同様に、 の2つ目の制約をとった場合の輸送距離も考えられる。 最終的な文類似度 RCMD は、1 - (1つ目の輸送距離) と 1 -

    (2つ目の輸送 距離) の平均になる 筆者の主張によると、「サブワードの平均をとって文埋め込み」と違い が rank-1 制約を受けていないので、より複雑なサブワード間の意味 的関連を表現できるとしている 手法: RCMD (relaxed contextualized token mover's distance) T T 13/23
  9. contrastive learning for RCMD 先ほどの RCMD を、positive samples (意味が近いとされる2文) で小

    さくなるように、negative samples (意味が遠いとされる2文) で大き くなるように対照学習する(教師あり)文埋め込み手法 対照学習の損失関数は SimCSE と同じ(いわゆる NT-Xent Loss とか InfoNCE とかとも呼ばれているやつ ) 手法: CLRCMD 3 3: https://kevinmusgrave.github.io/pytorch-metric-learning/losses/#ntxentloss 14/23
  10. CLRCMD は SimCSE を若干上回っている (ここからは個人の感想) SBERT に対する SimCSE の性能向上に比べると、SimCSE に対する

    CLRCMD の性能向上は控えめで、ハイパラを上手く設定できればこのくら いの向上はできてしまいそう SimCSE と CLRCMD は同じ教師データ、同じ損失関数での Contrastive Learning をやっており、これがパフォーマンスの大きなウェイトを占めて いるように思える。 CLRCMD 自体の売りである「トークンごとの類似度の学習」がパフォーマ ンスにどの程度寄与しているのかは不明。 (Contrastive Learning ではない損失関数で学習するなどの ablation をや ってみると面白かったと思う) 実験: STS benchmark 16/23
  11. SemEval 2016 Task2 このような2文の alignment 関係を予測できるか評価する 実験: interpretable STS (iSTS)

    tasks 4 4: 論文には shared task の評価スクリプトを使って alignment F1 score を計算したとしか書かれておらず、詳細 がよくわからなかった 17/23
  12. 最適輸送問題として文距離を考えると、文1の 番目のトークンと文2 の 番目のトークンに対してそれぞれ を可視化すれば OK 既存の 「サブワードの平均をとって文埋め込み」の手法だと が 10

    ペ ージのような式で表され、結果として 4 ページ下段のようなヒートマップと して美しくない図になる 一方で、提案手法の RCMD だと、12ページに書かれている通り はアラ イン関係のある の組以外は 0 になるような式なので、結果として 4 ペ ージ上段のようなヒートマップとして美しい図になる 実験: heatmap visualization i j T ​ (1 − i,j M ​ ) i,j T , M T ​ i,j i, j 19/23