Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning

【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning

研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。

750d4d1ae846b2d342d99fced070db39?s=128

Kaito Sugimoto

July 04, 2022
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence

    Learning Lee et al., ACL 2022 Kaito Sugimoto Aizawa Lab. M2 2022/07/04 1/23
  2. ACL 2022 紹介する論文 * 韓国のAIスタートアップ Scatterlab (スキャターラボ) でのインターンシップの成果らしい。Big Tech ではないス

    タートアップでのインターン成果を ACL に通すのはすごい 2/23
  3. 解釈可能な文類似度の計算手法を提案 ニューラルベースでありながら、意味的に近いトークンのペアを明示的に得 ることができる 最適輸送 (Optimal Transport) 問題による文の距離の計算を contextualized embeddings に導入するのがポイント

    Semantic Textual Similarity (STS) benchmark において、最近の SOTA手法である SimCSE を上回るスコアを出し、Interpretable STS task(後述)においても高い性能を出している 概要 3/23
  4. 概要 4/23

  5. 意味の近さを反映するように文章をベクトルに変換する基本的なタスク STS benchmark による評価が確立されている https://speakerdeck.com/hpprc/lun-jiang-zi-liao-simcse-simple- contrastive-learning-of-sentence-embeddings-823255cd-bd1f- 40ec-a65c-0eced7a9191d が詳しい 背景: 文埋め込みと

    STS benchmark 5/23
  6. 2つの文が類似しているという結果について、どことどこが類似してい るのかという alignment が得られると、エンドユーザーにとっても嬉 しい 古典的な手法では、各単語の tf-idf などの特徴量などを見て、明示的に 分析を行うことができた しかし最近の

    STS benchmark でパフォーマンスを出しているニューラ ルベースの手法においては、2つの文ベクトルが類似している時に文と 文のどこが類似度に寄与しているのかを得るのが難しい この研究は、ニューラルベースでありながら alignment も得られる手 法を提案しているので新しい 背景: 文埋め込みの解釈性 6/23
  7. 2つの(確率)分布を比較するツール KLダイバージェンスにはない特長として、分布の対応関係を得ること ができる 以下の資料が詳しい https://www.slideshare.net/joisino/ss-251328369 https://speakerdeck.com/eumesy/optimal-transport-for-natural- language-processing 背景: 最適輸送 7/23

  8. 既に Word2Vec (= non-contextualized embeddings) の時代に Word Mover's Distance という手法が提案されている

    文 1 の各単語に対応する Word2Vec の埋め込みたちをどのように移動 したら文 2 になるか、その移動距離が小さいほど2文が類似している 背景: 最適輸送と文埋め込み 1 1: Kusner et al., From Word Embeddings To Document Distances (ICML 2015) 8/23
  9. 文1が 個のサブワードからなる文とし、各サブワードの contextualized embeddings を とする(文2も同様) このとき、文の距離は、コスト行列 のもとで状態 から に移動する輸送距離とみなせる。

    ただし、コスト行列は を満たす。(つまり、サ ブワード埋め込みが遠いほどコストが大きい) 輸送距離とは、 をみたすような に対し て で与えられるもの。これが最小となるとき最適輸送距 離 (earth mover's distance)と呼ばれる をうまく決められるとうれしい 手法: 最適輸送と contextualized な文埋め込み L ​ 1 x ​ i 1 M ∈ CMD RL ​ ×L ​ 1 2 d = 1 ​ L ​ 1 1 1 d = 2 ​ L ​ 2 1 1 M ​ = i,j CMD 1 − cos(x ​ , x ​ ) i 1 j 2 T = ⊤1 d , T = 2 1 d1 T ∈ R ​ ≥0 L ​ ×L ​ 1 2 ​ T ​ M ∑ i,j i,j i,j CMD 2 T 2: 2ページ前に紹介したスライド資料の数値例を見ると理解しやすいと思います 9/23
  10. ベースライン的手法としてよくある「言語モデルのサブワードの平均を とって文埋め込みとする」手法は、最適輸送問題として見ると が rank-1 の制約を受けた上での解であり、輸送問題の解として最適でな い と言える の各 要素がサブワードのノルムの積 の形で書けてしま

    うので、行列の階数が必ず1になるということ 「サブワードの平均をとって文埋め込み」は経験的にうまくいかないことは 知られていたが、このように理論的に説明できるのは面白い 手法: 最適輸送と contextualized な文埋め込み T T (i, j) ∥x ​ ∥∥x ​ ∥ i 1 j 2 10/23
  11. 最適輸送の厳密解を求めるのは計算量的に難しい non-contextualized 時代の Word Mover's Distance 手法と同様に、制 約を緩和した最適輸送問題を解く 手法: RCMD

    (relaxed contextualized token mover's distance) 11/23
  12. 具体的には、 の1つ目の制約 を取っ払った上で、以下を の解とし、その もとで距離を考える。 この式は何を意味している? i 番目から j 番目に輸送するとき、最もコストの少ない

    j のみへ輸送する。 →最も距離の小さいサブワード同士のみ対応づける(解釈に役立つ) 手法: RCMD (relaxed contextualized token mover's distance) T T = ⊤1 d2 T 12/23
  13. 同様に、 の2つ目の制約をとった場合の輸送距離も考えられる。 最終的な文類似度 RCMD は、1 - (1つ目の輸送距離) と 1 -

    (2つ目の輸送 距離) の平均になる 筆者の主張によると、「サブワードの平均をとって文埋め込み」と違い が rank-1 制約を受けていないので、より複雑なサブワード間の意味 的関連を表現できるとしている 手法: RCMD (relaxed contextualized token mover's distance) T T 13/23
  14. contrastive learning for RCMD 先ほどの RCMD を、positive samples (意味が近いとされる2文) で小

    さくなるように、negative samples (意味が遠いとされる2文) で大き くなるように対照学習する(教師あり)文埋め込み手法 対照学習の損失関数は SimCSE と同じ(いわゆる NT-Xent Loss とか InfoNCE とかとも呼ばれているやつ ) 手法: CLRCMD 3 3: https://kevinmusgrave.github.io/pytorch-metric-learning/losses/#ntxentloss 14/23
  15. 実験: STS benchmark 15/23

  16. CLRCMD は SimCSE を若干上回っている (ここからは個人の感想) SBERT に対する SimCSE の性能向上に比べると、SimCSE に対する

    CLRCMD の性能向上は控えめで、ハイパラを上手く設定できればこのくら いの向上はできてしまいそう SimCSE と CLRCMD は同じ教師データ、同じ損失関数での Contrastive Learning をやっており、これがパフォーマンスの大きなウェイトを占めて いるように思える。 CLRCMD 自体の売りである「トークンごとの類似度の学習」がパフォーマ ンスにどの程度寄与しているのかは不明。 (Contrastive Learning ではない損失関数で学習するなどの ablation をや ってみると面白かったと思う) 実験: STS benchmark 16/23
  17. SemEval 2016 Task2 このような2文の alignment 関係を予測できるか評価する 実験: interpretable STS (iSTS)

    tasks 4 4: 論文には shared task の評価スクリプトを使って alignment F1 score を計算したとしか書かれておらず、詳細 がよくわからなかった 17/23
  18. 注目ポイントとして、教師あり学習 (Contrastive Learning) をしない場 合でも既にスコアが高い。RCMD が自然にアラインメントにもとづいて文 埋め込みを得る手法になっていると言える 実験: interpretable STS

    (iSTS) tasks 18/23
  19. 最適輸送問題として文距離を考えると、文1の 番目のトークンと文2 の 番目のトークンに対してそれぞれ を可視化すれば OK 既存の 「サブワードの平均をとって文埋め込み」の手法だと が 10

    ペ ージのような式で表され、結果として 4 ページ下段のようなヒートマップと して美しくない図になる 一方で、提案手法の RCMD だと、12ページに書かれている通り はアラ イン関係のある の組以外は 0 になるような式なので、結果として 4 ペ ージ上段のようなヒートマップとして美しい図になる 実験: heatmap visualization i j T ​ (1 − i,j M ​ ) i,j T , M T ​ i,j i, j 19/23
  20. realize と comprehend のような synonym 関係も align されている 実験: heatmap

    visualization 20/23
  21. 25 August と 19 July のような異なる日付には align が弱くなっている 実験: heatmap

    visualization 21/23
  22. 理論的には、コスト行列 と各輸送を表す行列 を求め、要素 ごとに掛ける計算が発生するため、メモリ消費量・計算コストが従来手 法より多そうだが... がゼロでない要素だけ保持するようにすれば、バッチサイズが128とそ れなりに大きくても V100 に乗る また、推論時間も、既存の手法と比べてほとんど変わらない(STS

    benchmark dataset のサンプルの文章長が十分短く、GPUのメリットの方 が支配的であるという点がある) 実験: 計算量の分析 M ​ i,j T ​ i,j T ​ i,j 22/23
  23. interpretable STS というタスクの存在を初めて知ったので面白かった 自分の研究にも活用できるかも...? alignment の考え方は重要である一方で、能動態と受動態の入れ替え や not の意味反転など、単純なトークン対応だけでは表せない文の意 味関係も色々ある。そういうものに対しても何か

    interpretable な図示 方法があればいいなと思う 感想 23/23