【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning

Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence
Learning Lee et al., ACL 2022 Kaito Sugimoto Aizawa Lab. M2 2022/07/04 1/23

ACL 2022 紹介する論文 * 韓国のAIスタートアップ Scatterlab (スキャターラボ) でのインターンシップの成果らしい。Big Tech ではないス
タートアップでのインターン成果を ACL に通すのはすごい 2/23

解釈可能な文類似度の計算手法を提案ニューラルベースでありながら、意味的に近いトークンのペアを明示的に得ることができる最適輸送 (Optimal Transport) 問題による文の距離の計算を contextualized embeddings に導入するのがポイント
Semantic Textual Similarity (STS) benchmark において、最近の SOTA手法である SimCSE を上回るスコアを出し、Interpretable STS task（後述）においても高い性能を出している概要 3/23

概要 4/23

意味の近さを反映するように文章をベクトルに変換する基本的なタスク STS benchmark による評価が確立されている https://speakerdeck.com/hpprc/lun-jiang-zi-liao-simcse-simple- contrastive-learning-of-sentence-embeddings-823255cd-bd1f- 40ec-a65c-0eced7a9191d が詳しい背景: 文埋め込みと
STS benchmark 5/23

2つの文が類似しているという結果について、どことどこが類似しているのかという alignment が得られると、エンドユーザーにとっても嬉しい古典的な手法では、各単語の tf-idf などの特徴量などを見て、明示的に分析を行うことができたしかし最近の
STS benchmark でパフォーマンスを出しているニューラルベースの手法においては、2つの文ベクトルが類似している時に文と文のどこが類似度に寄与しているのかを得るのが難しいこの研究は、ニューラルベースでありながら alignment も得られる手法を提案しているので新しい背景: 文埋め込みの解釈性 6/23

2つの（確率）分布を比較するツール KLダイバージェンスにはない特長として、分布の対応関係を得ることができる以下の資料が詳しい https://www.slideshare.net/joisino/ss-251328369 https://speakerdeck.com/eumesy/optimal-transport-for-natural- language-processing 背景: 最適輸送 7/23

既に Word2Vec (= non-contextualized embeddings) の時代に Word Mover's Distance という手法が提案されている
文 1 の各単語に対応する Word2Vec の埋め込みたちをどのように移動したら文 2 になるか、その移動距離が小さいほど2文が類似している背景: 最適輸送と文埋め込み 1 1: Kusner et al., From Word Embeddings To Document Distances (ICML 2015) 8/23

文1が個のサブワードからなる文とし、各サブワードの contextualized embeddings をとする（文2も同様）このとき、文の距離は、コスト行列のもとで状態からに移動する輸送距離とみなせる。
ただし、コスト行列はを満たす。（つまり、サブワード埋め込みが遠いほどコストが大きい）輸送距離とは、をみたすようなに対してで与えられるもの。これが最小となるとき最適輸送距離 (earth mover's distance)と呼ばれるをうまく決められるとうれしい手法: 最適輸送と contextualized な文埋め込み L 1 x i 1 M ∈ CMD RL ×L 1 2 d = 1 L 1 1 1 d = 2 L 2 1 1 M = i,j CMD 1 − cos(x , x ) i 1 j 2 T = ⊤1 d , T = 2 1 d1 T ∈ R ≥0 L ×L 1 2 T M ∑ i,j i,j i,j CMD 2 T 2: 2ページ前に紹介したスライド資料の数値例を見ると理解しやすいと思います 9/23

ベースライン的手法としてよくある「言語モデルのサブワードの平均をとって文埋め込みとする」手法は、最適輸送問題として見るとが rank-1 の制約を受けた上での解であり、輸送問題の解として最適でないと言えるの各要素がサブワードのノルムの積の形で書けてしま
うので、行列の階数が必ず1になるということ「サブワードの平均をとって文埋め込み」は経験的にうまくいかないことは知られていたが、このように理論的に説明できるのは面白い手法: 最適輸送と contextualized な文埋め込み T T (i, j) ∥x ∥∥x ∥ i 1 j 2 10/23

最適輸送の厳密解を求めるのは計算量的に難しい non-contextualized 時代の Word Mover's Distance 手法と同様に、制約を緩和した最適輸送問題を解く手法: RCMD
(relaxed contextualized token mover's distance) 11/23

具体的には、の1つ目の制約を取っ払った上で、以下をの解とし、そのもとで距離を考える。この式は何を意味している？ i 番目から j 番目に輸送するとき、最もコストの少ない
j のみへ輸送する。 →最も距離の小さいサブワード同士のみ対応づける（解釈に役立つ）手法: RCMD (relaxed contextualized token mover's distance) T T = ⊤1 d2 T 12/23

同様に、の2つ目の制約をとった場合の輸送距離も考えられる。最終的な文類似度 RCMD は、1 - (1つ目の輸送距離) と 1 -
(2つ目の輸送距離) の平均になる筆者の主張によると、「サブワードの平均をとって文埋め込み」と違いが rank-1 制約を受けていないので、より複雑なサブワード間の意味的関連を表現できるとしている手法: RCMD (relaxed contextualized token mover's distance) T T 13/23

contrastive learning for RCMD 先ほどの RCMD を、positive samples (意味が近いとされる2文) で小
さくなるように、negative samples (意味が遠いとされる2文) で大きくなるように対照学習する（教師あり）文埋め込み手法対照学習の損失関数は SimCSE と同じ（いわゆる NT-Xent Loss とか InfoNCE とかとも呼ばれているやつ）手法: CLRCMD 3 3: https://kevinmusgrave.github.io/pytorch-metric-learning/losses/#ntxentloss 14/23

実験: STS benchmark 15/23

CLRCMD は SimCSE を若干上回っている（ここからは個人の感想） SBERT に対する SimCSE の性能向上に比べると、SimCSE に対する
CLRCMD の性能向上は控えめで、ハイパラを上手く設定できればこのくらいの向上はできてしまいそう SimCSE と CLRCMD は同じ教師データ、同じ損失関数での Contrastive Learning をやっており、これがパフォーマンスの大きなウェイトを占めているように思える。 CLRCMD 自体の売りである「トークンごとの類似度の学習」がパフォーマンスにどの程度寄与しているのかは不明。（Contrastive Learning ではない損失関数で学習するなどの ablation をやってみると面白かったと思う）実験: STS benchmark 16/23

SemEval 2016 Task2 このような2文の alignment 関係を予測できるか評価する実験: interpretable STS (iSTS)
tasks 4 4: 論文には shared task の評価スクリプトを使って alignment F1 score を計算したとしか書かれておらず、詳細がよくわからなかった 17/23

注目ポイントとして、教師あり学習 (Contrastive Learning) をしない場合でも既にスコアが高い。RCMD が自然にアラインメントにもとづいて文埋め込みを得る手法になっていると言える実験: interpretable STS
(iSTS) tasks 18/23

最適輸送問題として文距離を考えると、文1の番目のトークンと文2 の番目のトークンに対してそれぞれを可視化すれば OK 既存の「サブワードの平均をとって文埋め込み」の手法だとが 10
ページのような式で表され、結果として 4 ページ下段のようなヒートマップとして美しくない図になる一方で、提案手法の RCMD だと、12ページに書かれている通りはアライン関係のあるの組以外は 0 になるような式なので、結果として 4 ページ上段のようなヒートマップとして美しい図になる実験: heatmap visualization i j T (1 − i,j M ) i,j T , M T i,j i, j 19/23

realize と comprehend のような synonym 関係も align されている実験: heatmap
visualization 20/23

25 August と 19 July のような異なる日付には align が弱くなっている実験: heatmap
visualization 21/23

理論的には、コスト行列と各輸送を表す行列を求め、要素ごとに掛ける計算が発生するため、メモリ消費量・計算コストが従来手法より多そうだが... がゼロでない要素だけ保持するようにすれば、バッチサイズが128とそれなりに大きくても V100 に乗るまた、推論時間も、既存の手法と比べてほとんど変わらない（STS
benchmark dataset のサンプルの文章長が十分短く、GPUのメリットの方が支配的であるという点がある）実験: 計算量の分析 M i,j T i,j T i,j 22/23

interpretable STS というタスクの存在を初めて知ったので面白かった自分の研究にも活用できるかも...？ alignment の考え方は重要である一方で、能動態と受動態の入れ替えや not の意味反転など、単純なトークン対応だけでは表せない文の意味関係も色々ある。そういうものに対しても何か
interpretable な図示方法があればいいなと思う感想 23/23

【論文紹介】Toward Interpretable Semantic Textual Sim...

【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning

Kaito Sugimoto

More Decks by Kaito Sugimoto

Other Decks in Research

Featured

Transcript

Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence

ACL 2022 紹介する論文 * 韓国のAIスタートアップ Scatterlab (スキャターラボ) でのインターンシップの成果らしい。Big Tech ではないス

概要 4/23

既に Word2Vec (= non-contextualized embeddings) の時代に Word Mover's Distance という手法が提案されている

文1が個のサブワードからなる文とし、各サブワードの contextualized embeddings をとする（文2も同様）このとき、文の距離は、コスト行列のもとで状態からに移動する輸送距離とみなせる。

最適輸送の厳密解を求めるのは計算量的に難しい non-contextualized 時代の Word Mover's Distance 手法と同様に、制約を緩和した最適輸送問題を解く手法: RCMD

具体的には、の1つ目の制約を取っ払った上で、以下をの解とし、そのもとで距離を考える。この式は何を意味している？ i 番目から j 番目に輸送するとき、最もコストの少ない

同様に、の2つ目の制約をとった場合の輸送距離も考えられる。最終的な文類似度 RCMD は、1 - (1つ目の輸送距離) と 1 -

contrastive learning for RCMD 先ほどの RCMD を、positive samples (意味が近いとされる2文) で小

実験: STS benchmark 15/23

CLRCMD は SimCSE を若干上回っている（ここからは個人の感想） SBERT に対する SimCSE の性能向上に比べると、SimCSE に対する

SemEval 2016 Task2 このような2文の alignment 関係を予測できるか評価する実験: interpretable STS (iSTS)

注目ポイントとして、教師あり学習 (Contrastive Learning) をしない場合でも既にスコアが高い。RCMD が自然にアラインメントにもとづいて文埋め込みを得る手法になっていると言える実験: interpretable STS

最適輸送問題として文距離を考えると、文1の番目のトークンと文2 の番目のトークンに対してそれぞれを可視化すれば OK 既存の「サブワードの平均をとって文埋め込み」の手法だとが 10

realize と comprehend のような synonym 関係も align されている実験: heatmap

25 August と 19 July のような異なる日付には align が弱くなっている実験: heatmap