Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Toward Interpretable Semantic Textual Sim...
Search
Kaito Sugimoto
July 04, 2022
Research
0
240
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
July 04, 2022
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
99
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
210
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
430
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
200
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
130
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
390
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
870
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
230
【論文紹介】Assessing Phrasal Representation and Composition in Transformers
hellorusk
0
73
Other Decks in Research
See All in Research
移動ビッグデータに基づく地理情報の埋め込みベクトル化
tam1110
0
210
20241115都市交通決起集会 趣旨説明・熊本事例紹介
trafficbrain
0
870
KDD論文読み会2024: False Positive in A/B Tests
ryotoitoi
0
260
医療支援AI開発における臨床と情報学の連携を円滑に進めるために
moda0
0
140
Weekly AI Agents News! 12月号 論文のアーカイブ
masatoto
0
120
クロスセクター効果研究会 熊本都市交通リノベーション~「車1割削減、渋滞半減、公共交通2倍」の実現へ~
trafficbrain
0
340
한국어 오픈소스 거대 언어 모델의 가능성: 새로운 시대의 언어 이해와 생성
inureyes
PRO
0
140
20240918 交通くまもとーく 未来の鉄道網編(太田恒平)
trafficbrain
0
440
[ECCV2024読み会] 衛星画像からの地上画像生成
elith
1
990
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
420
ダイナミックプライシング とその実例
skmr2348
3
530
精度を無視しない推薦多様化の評価指標
kuri8ive
1
340
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
Agile that works and the tools we love
rasmusluckow
328
21k
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
jQuery: Nuts, Bolts and Bling
dougneiner
62
7.6k
4 Signs Your Business is Dying
shpigford
182
22k
Product Roadmaps are Hard
iamctodd
PRO
50
11k
Optimizing for Happiness
mojombo
376
70k
Become a Pro
speakerdeck
PRO
26
5.1k
What's in a price? How to price your products and services
michaelherold
244
12k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
A designer walks into a library…
pauljervisheath
205
24k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Transcript
Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence
Learning Lee et al., ACL 2022 Kaito Sugimoto Aizawa Lab. M2 2022/07/04 1/23
ACL 2022 紹介する論文 * 韓国のAIスタートアップ Scatterlab (スキャターラボ) でのインターンシップの成果らしい。Big Tech ではないス
タートアップでのインターン成果を ACL に通すのはすごい 2/23
解釈可能な文類似度の計算手法を提案 ニューラルベースでありながら、意味的に近いトークンのペアを明示的に得 ることができる 最適輸送 (Optimal Transport) 問題による文の距離の計算を contextualized embeddings に導入するのがポイント
Semantic Textual Similarity (STS) benchmark において、最近の SOTA手法である SimCSE を上回るスコアを出し、Interpretable STS task(後述)においても高い性能を出している 概要 3/23
概要 4/23
意味の近さを反映するように文章をベクトルに変換する基本的なタスク STS benchmark による評価が確立されている https://speakerdeck.com/hpprc/lun-jiang-zi-liao-simcse-simple- contrastive-learning-of-sentence-embeddings-823255cd-bd1f- 40ec-a65c-0eced7a9191d が詳しい 背景: 文埋め込みと
STS benchmark 5/23
2つの文が類似しているという結果について、どことどこが類似してい るのかという alignment が得られると、エンドユーザーにとっても嬉 しい 古典的な手法では、各単語の tf-idf などの特徴量などを見て、明示的に 分析を行うことができた しかし最近の
STS benchmark でパフォーマンスを出しているニューラ ルベースの手法においては、2つの文ベクトルが類似している時に文と 文のどこが類似度に寄与しているのかを得るのが難しい この研究は、ニューラルベースでありながら alignment も得られる手 法を提案しているので新しい 背景: 文埋め込みの解釈性 6/23
2つの(確率)分布を比較するツール KLダイバージェンスにはない特長として、分布の対応関係を得ること ができる 以下の資料が詳しい https://www.slideshare.net/joisino/ss-251328369 https://speakerdeck.com/eumesy/optimal-transport-for-natural- language-processing 背景: 最適輸送 7/23
既に Word2Vec (= non-contextualized embeddings) の時代に Word Mover's Distance という手法が提案されている
文 1 の各単語に対応する Word2Vec の埋め込みたちをどのように移動 したら文 2 になるか、その移動距離が小さいほど2文が類似している 背景: 最適輸送と文埋め込み 1 1: Kusner et al., From Word Embeddings To Document Distances (ICML 2015) 8/23
文1が 個のサブワードからなる文とし、各サブワードの contextualized embeddings を とする(文2も同様) このとき、文の距離は、コスト行列 のもとで状態 から に移動する輸送距離とみなせる。
ただし、コスト行列は を満たす。(つまり、サ ブワード埋め込みが遠いほどコストが大きい) 輸送距離とは、 をみたすような に対し て で与えられるもの。これが最小となるとき最適輸送距 離 (earth mover's distance)と呼ばれる をうまく決められるとうれしい 手法: 最適輸送と contextualized な文埋め込み L 1 x i 1 M ∈ CMD RL ×L 1 2 d = 1 L 1 1 1 d = 2 L 2 1 1 M = i,j CMD 1 − cos(x , x ) i 1 j 2 T = ⊤1 d , T = 2 1 d1 T ∈ R ≥0 L ×L 1 2 T M ∑ i,j i,j i,j CMD 2 T 2: 2ページ前に紹介したスライド資料の数値例を見ると理解しやすいと思います 9/23
ベースライン的手法としてよくある「言語モデルのサブワードの平均を とって文埋め込みとする」手法は、最適輸送問題として見ると が rank-1 の制約を受けた上での解であり、輸送問題の解として最適でな い と言える の各 要素がサブワードのノルムの積 の形で書けてしま
うので、行列の階数が必ず1になるということ 「サブワードの平均をとって文埋め込み」は経験的にうまくいかないことは 知られていたが、このように理論的に説明できるのは面白い 手法: 最適輸送と contextualized な文埋め込み T T (i, j) ∥x ∥∥x ∥ i 1 j 2 10/23
最適輸送の厳密解を求めるのは計算量的に難しい non-contextualized 時代の Word Mover's Distance 手法と同様に、制 約を緩和した最適輸送問題を解く 手法: RCMD
(relaxed contextualized token mover's distance) 11/23
具体的には、 の1つ目の制約 を取っ払った上で、以下を の解とし、その もとで距離を考える。 この式は何を意味している? i 番目から j 番目に輸送するとき、最もコストの少ない
j のみへ輸送する。 →最も距離の小さいサブワード同士のみ対応づける(解釈に役立つ) 手法: RCMD (relaxed contextualized token mover's distance) T T = ⊤1 d2 T 12/23
同様に、 の2つ目の制約をとった場合の輸送距離も考えられる。 最終的な文類似度 RCMD は、1 - (1つ目の輸送距離) と 1 -
(2つ目の輸送 距離) の平均になる 筆者の主張によると、「サブワードの平均をとって文埋め込み」と違い が rank-1 制約を受けていないので、より複雑なサブワード間の意味 的関連を表現できるとしている 手法: RCMD (relaxed contextualized token mover's distance) T T 13/23
contrastive learning for RCMD 先ほどの RCMD を、positive samples (意味が近いとされる2文) で小
さくなるように、negative samples (意味が遠いとされる2文) で大き くなるように対照学習する(教師あり)文埋め込み手法 対照学習の損失関数は SimCSE と同じ(いわゆる NT-Xent Loss とか InfoNCE とかとも呼ばれているやつ ) 手法: CLRCMD 3 3: https://kevinmusgrave.github.io/pytorch-metric-learning/losses/#ntxentloss 14/23
実験: STS benchmark 15/23
CLRCMD は SimCSE を若干上回っている (ここからは個人の感想) SBERT に対する SimCSE の性能向上に比べると、SimCSE に対する
CLRCMD の性能向上は控えめで、ハイパラを上手く設定できればこのくら いの向上はできてしまいそう SimCSE と CLRCMD は同じ教師データ、同じ損失関数での Contrastive Learning をやっており、これがパフォーマンスの大きなウェイトを占めて いるように思える。 CLRCMD 自体の売りである「トークンごとの類似度の学習」がパフォーマ ンスにどの程度寄与しているのかは不明。 (Contrastive Learning ではない損失関数で学習するなどの ablation をや ってみると面白かったと思う) 実験: STS benchmark 16/23
SemEval 2016 Task2 このような2文の alignment 関係を予測できるか評価する 実験: interpretable STS (iSTS)
tasks 4 4: 論文には shared task の評価スクリプトを使って alignment F1 score を計算したとしか書かれておらず、詳細 がよくわからなかった 17/23
注目ポイントとして、教師あり学習 (Contrastive Learning) をしない場 合でも既にスコアが高い。RCMD が自然にアラインメントにもとづいて文 埋め込みを得る手法になっていると言える 実験: interpretable STS
(iSTS) tasks 18/23
最適輸送問題として文距離を考えると、文1の 番目のトークンと文2 の 番目のトークンに対してそれぞれ を可視化すれば OK 既存の 「サブワードの平均をとって文埋め込み」の手法だと が 10
ペ ージのような式で表され、結果として 4 ページ下段のようなヒートマップと して美しくない図になる 一方で、提案手法の RCMD だと、12ページに書かれている通り はアラ イン関係のある の組以外は 0 になるような式なので、結果として 4 ペ ージ上段のようなヒートマップとして美しい図になる 実験: heatmap visualization i j T (1 − i,j M ) i,j T , M T i,j i, j 19/23
realize と comprehend のような synonym 関係も align されている 実験: heatmap
visualization 20/23
25 August と 19 July のような異なる日付には align が弱くなっている 実験: heatmap
visualization 21/23
理論的には、コスト行列 と各輸送を表す行列 を求め、要素 ごとに掛ける計算が発生するため、メモリ消費量・計算コストが従来手 法より多そうだが... がゼロでない要素だけ保持するようにすれば、バッチサイズが128とそ れなりに大きくても V100 に乗る また、推論時間も、既存の手法と比べてほとんど変わらない(STS
benchmark dataset のサンプルの文章長が十分短く、GPUのメリットの方 が支配的であるという点がある) 実験: 計算量の分析 M i,j T i,j T i,j 22/23
interpretable STS というタスクの存在を初めて知ったので面白かった 自分の研究にも活用できるかも...? alignment の考え方は重要である一方で、能動態と受動態の入れ替え や not の意味反転など、単純なトークン対応だけでは表せない文の意 味関係も色々ある。そういうものに対しても何か
interpretable な図示 方法があればいいなと思う 感想 23/23