Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations

Slide 1

Slide 1 text

木山朔 M1 論文紹介 EMNLP2023 1/24 1 ※図表は論文からの引用です。EMNLP2023 Outstanding paper. Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations James Y. Huang†, Wenlin Yao‡, Kaiqiang Song‡, Hongming Zhang‡ , Muhao Chen† and Dong Yu‡ †University of Southern California; ‡Tencent AI Lab, Seattle

Slide 2

Slide 2 text

Abstract ● 文埋め込み：文同士の意味的な類似度を捉える ● 文の意味は compositional operation で解釈できる ○ 文同士の融合、差異、圧縮 /要約など ● 埋め込み空間上での compositional operation は直接反映できるか不明 ● compositional な特性を文埋め込みに取り入れた手法 InterSent を提案 ● 連続的な埋め込みと離散的なテキスト空間を効率的に変換 ● STSタスクでの性能は維持しつつ、解釈可能性が向上した 2

Slide 3

Slide 3 text

Related work ● Sentence Embedding ○ 分布仮説 [Harris, 1954] ○ 教師なし文埋め込み [Kiros+, 2015][Hill+, 2016][Logeswaran and Lee, 2018] ○ 教師あり文埋め込み [Conneau+, 2017][Cer+, 2018][Reimers and Gurevych, 2019] ○ 対照学習 [Giorgi+, 2021][Yan+, 2021][Gao+, 2021][Chuang+, 2022] ● Representation Interpretability ○ 埋め込みの構成性に関する研究 ■ 単語埋め込み [Pennington+, 2014][Arora+, 2016][Ethayarajh+, 2019] ■ 文埋め込み [Zhu and de Melo, 2020] ■ 事前学習済みモデルの単語 /フレーズ埋め込み [Yu and Ettinger, 2020][Hupkes+, 2020] [Dankers+, 2022][Liu and Neubig, 2022] ○ 文埋め込みからの言語生成 [Giorgi+, 2021][Wang+, 2021][Huang+, 2021][Wu and Zhao, 2022] 3

Slide 4

Slide 4 text

SimCSE [Gao+, 2021] ● 対照学習 ○ 正例を近づけて，負例を遠ざける手法 ○ どのように正例のペアを見つけるかが重要 ○ SimCSEでは教師なし，教師ありの手法を提案 4 注：この数式と図は[Gao+, 2021]より引用

Slide 5

Slide 5 text

Method 5

Slide 6

Slide 6 text

Compositional Operation 1. sentence fusion a. 文1と文2があったときに両方の情報を持つ文がある 2. sentence difference a. 文1と文2の情報を持つ文から文 2を引いたときに文1が出てくる b. sentence fusion の逆演算に限り今回は定義 3. sentence compression a. 文/文章を圧縮/要約した文 4. sentence reconstruction a. Encoderに通したベクトル表現を、 Decoderに通した際に元の文に戻る 6

Slide 7

Slide 7 text

Sentence Operator ● 数学的に Compositional operation を定義する ● fusion, difference, compression, reconstrcutionの4つを順に定義 7

Slide 8

Slide 8 text

Bottleneck Model ● Transformer-based な Encoder と Decoder を使用 ● Encoder は入力文に対して、1つのベクトルを出力 ○ 先行研究より Encoder の埋め込みは [CLS] を用いる [Gao+, 2021][Chuang+, 2022] ● Decoder は文埋め込みから元の文を出すように学習 ○ 埋め込みしか与えられていない状態で、元の文の生成を行う ● 情報の bottleneck を用意することで、文の再構築ができるようになる ● MLP で複数の Operation を学習する 8 ここでのモデルはどうなっているのか？ Encoder に通すと文からベクトルに変換 Decoder に通すとベクトルから文に変換符号理論におけるEncoder-Decoderに近い？（自分の理解が怪しいです ...）

Slide 9

Slide 9 text

Training Objective 1. 対照学習によりOperationを学習 2. 言語生成部分を学習 3. ロスの重みつけ 9

Slide 10

Slide 10 text

Method 10

Slide 11

Slide 11 text

Dataset ● Operation に対応するデータセットを使って（弱）教師あり学習 ○ それぞれのデータセットは自動で構築されている ○ sentence fusion : DiscopFuse [Geva+, 2019] ■ 文1と文2を合成した文3を持つデータセット ○ sentence difference : WikiSplit [Botha+, 2018] ■ フレーズを分割するデータセット ○ sentence compression : Google [Filippova and Altun, 2013], Gigaword [Napoles+, 2012] ■ 要約のデータセットを利用 ○ sentence reconstruction : ParaNMT [Wieting and Gimpel, 2019] ■ back translation による言い換え表現のペアを生成 ■ ParaNMT の性能次第でここの操作の性能は変化しそう 11

Slide 12

Slide 12 text

InterSent Implemention ● 適切なモデルで Encoder と Decoder を初期化 ○ Encoder：RoBERTa [Liu+, 2019] ○ Decoder : BART [Lewis, 2020] ● 他の手法でも試したがこれが一番良い ○ RoBERTa + BART よりも性能が若干低い ○ T5 の方がバランスが良い方に見えるが ... ○ BERT + BERTの初期化はどういうこと ? ○ Decoder を BERT で初期化するとは 12

Slide 13

Slide 13 text

Baselines ● 従来のモデル ○ RoBERTa-cls：RoBERTa で [CLS] を文埋め込みとして扱う ○ RoBERTa-avg：RoBERTa で average を文埋め込みとして扱う ○ SRoBERTa：Sentence RoBERTa [Reimers and guruvych, 2019] ○ DeCLUTR：生のテキストから正負ペアをサンプルし、教師なし対照学習 [Giorgi+, 2021] ○ SimCSE：データ拡張として、異なる dropout mask を使用 [Gao+, 2021] ○ DiffCSE：SimCSE + 追加の置換トークンの検出タスク [Chuang+, 2022] ● 今回のデータセットで Encoder を学習 ○ Unsup. Contr. : SimCSE の教師なし ○ Sup. Contr. : SimCSE の教師あり ○ InterSent : 提案手法 13

Slide 14

Slide 14 text

Interpretability Setup ● 文書生成タスクにおける埋め込み空間の解釈可能性を比較 ○ どれだけ元の文を復元できるか、というタスク ● Encoder-only model に対して operator network と Decoder を無理やり追加 ○ 訓練中にこの部分を最適化される ○ Encoder を freeze して学習する ○ 提案手法は全部同時に学習 ● 評価：ROUGE-1/2/L score ○ 評価設定はこれだけで十分？ ○ もっと細かい設定とかある気がするが 14

Slide 15

Slide 15 text

Interpretability 15 ● 文埋め込みからの文復元タスクでは InterSent が一番良い ○ 実験設定的に有利な気もする ...（Enc-Decと比較するのが公平では？ by reviewer） ● Operator Network があることで解釈性の向上を確認

Slide 16

Slide 16 text

Semantic Textual Similarity ● DiffCSE ほどではないが InterSent は高い意味的類似度を獲得 ○ 論文からの引用値という点が気になる ... ● 解釈性を保持したまま、意味的類似度が高くなる ○ STSタスクの性能はさちっていそう？ 16

Slide 17

Slide 17 text

Sentence Retrieval ● 文抽出タスク ○ Dataset：QQP ○ BEIR [Thakur+, 2021] でデータ分割 ● InterSent が一番性能が良い ● 解釈可能な特性が入ると嬉しい ○ 向上幅がそんなに大きくない？ ○ 自分がタスクを知らないだけかも 17

Slide 18

Slide 18 text

Passage Retrieval ● パッセージ抽出 ○ クエリ文が与えられたときに意味的に関連のあるパッセージを抽出 ○ パッセージは文章が一般 ○ クエリとパッセージが異なる粒度を持つのが特徴 ○ 従来の文埋め込みでは対応ができない ● Dataset ○ NaturalQuestions [Kwiatkowski+, 2019] ○ MSMARCO [Nguyen+, 2016] ● InterSent が良い性能 ○ Operator の学習により、長い文に対応可能 ○ 圧縮の学習が効いていそう？ 18

Slide 19

Slide 19 text

Ablation Study loss ● loss のアブレーション ● 単独の方が対応するタスクの性能が上がる ○ constractive-only で Interpert タスクの性能がないのは、 Decode できないから ● 両方あることで、解釈性と意味的類似度がどちらも高くなる 19

Slide 20

Slide 20 text

Ablation Study Operator ● Operator の計算方法 ○ Arithmetic：純粋にベクトルの足し算や引き算での性能 ○ MLP：2層の MLP を用意して学習 ● MLP を使った方が性能が上がる ○ MLP の分析が欲しかった気がする ○ 複数の Operator を学習しているため、ここの ablation も気になった ■ fusion だけとか、Difference だけとかの傾向が気になる ○ word2vec では加法性があったけど、 Transformer では現れないように見えるのはなぜ？ 20

Slide 21

Slide 21 text

Case Study 21

Slide 22

Slide 22 text

Conclusion ● InterSent と呼ばれるフレームワークを提案 ● 意味的類似度タスクで、性能は若干下がるが同等の性能 ● 埋め込みから元の文を抽出する解釈可能性タスクで最高性能 22

Slide 23

Slide 23 text

個人的な感想 ● 解釈性をあげる = 埋め込みから元の文を取り出せるというのが面白い ○ これがかなり性能が上がったことから Outstanding paper に選ばれた？ ○ 埋め込みから元の単語が出てくるのは嬉しいけど、どのように応用していくか？ ■ 要約の獲得や、入力文に関連する情報検索で応用できる（ by Rebuttal） ● 一方で、Interpretability の実験設定が気になる ○ Enc-only モデルに無理やり operator network と decoder をつけて学習 ○ Encoder を freeze して operator network と decoder の部分を学習している ○ それなら Encoder-Decoder モデルと比較するのがフェアな気もする ■ 実験の公平さというところは reviewer も気になっていた ■ モデルの初期化においても T5 の性能が高かったこともあるので気になる ● STS タスクは飽和しているのか？ ○ 対照学習で意味的類似度は既に十分で、それ以外の要素を上げていく方針になる？ ○ 今回の手法だと、意味的類似度 + 解釈可能性みたいなところを狙っている ○ データセット内で難しさみたいなのを見てみる必要があるかも ○ STS以外の文埋め込みの評価みたいなものも気になる 23

Slide 24

Slide 24 text

個人的な感想 ● 埋め込み空間はどのように変化しているのか？ ○ PromptBERT とか WhitenCSE だと埋め込み空間の分析があった ○ Operator Network の導入により偏りが生じるのか？ ○ 異方性と構成性の関係みたいなのがわかると面白そうだなと思った ■ 偏りがあった方が構成性を持つので嬉しいとか ○ 埋め込み空間の良さってどう測るのだろうか？ ● Fusion の性能が著しく上がるのはなぜ？ ○ Operator Network だと20ポイントも上がる ○ word2vec だと学習できていそうだけど Transformer ではできないのはなぜ？ ○ 意味的な類似度が学習できていても、意味の足し合わせは苦手？ ○ 埋め込み空間的に意味を表す軸が歪んでいる？ 24