[読み会] Words are All You Need? Language as an Approximation for Human Similality Judgements

Slide 1

Slide 1 text

Words are All You Need? Language as an Approximation for Human Similality Judgements 楊明哲 2023/11/15@読み会

Slide 2

Slide 2 text

論文情報（ICLR 2023） • 選んだ理由 • 人間の思う類似度と機械が捉える類似度が違うところに興味を持った

Slide 3

Slide 3 text

この論文のキーメッセージ 1. 人間による類似度評価はとても有用 2. 人間と機械の感じる類似度に差がある 3. 人間のテキスト情報から類似度を予測

Slide 4

Slide 4 text

人間による類似度評価は有用研究背景 • 人間の類似度評価は、human representationsを研究する上で重要 • 近年のMLでは、モデル学習に類似度評価が重要な役割を持つ • 対比学習、情報検索、NLP...

Slide 5

Slide 5 text

人間による大規模データセット作成は大変研究背景 • 計算量がO(N^2) であり、類似度評価によるML手法は人間がボトルネック • 現在利用可能なデータセットはたかだか数千サンプルのみこの二つの画像は似ていますか？

Slide 6

Slide 6 text

人間を使わないで類似度評価を取得したい研究背景 • 事前学習済みのDNNの隠れ表現層での埋め込みから人間の類似度を近似 • 少量の人間の評価を使いfine-tuningする方法もある • この結果、人間の判断数を N(1) ぐらいまで大幅減少

Slide 7

Slide 7 text

ニッチな領域だと学習済みモデルがない研究背景 • 医療データセットやニッチなモダリティでは、そもそも事前学習済みモデルがない • また違う領域・目的で学習されたモデルの埋め込み表現は、人間と類似評価の一致しない • さらに異なるモダリティ間の類似度を調査した研究はとても少ないこの二つは似ている?

Slide 8

Slide 8 text

本研究の貢献研究背景 • 人間の類似度評価を大規模データセットに適用が困難 • 新しいデータ収集方法とその活用を提案 • 複数モダリティの類似性について大規模に評価 • 新たに作成した類似度評価データセットを公開

Slide 9

Slide 9 text

画像・音声・動画のマルチモダリティ準備 • 画像： • 動物や家具、野菜などの画像 7,140枚 • 音声： • 会話の音声1つに3つの感情。4950文 • 映像： • 200の行動ラベルが存在。5000本使う

Slide 10

Slide 10 text

まずは人間の計算量を抑える提案手法：データ収集 • 人間の一対比較がボトルネックで解消したい → テキストによる評価を人間に問い合わせる！ • 言語情報は人間の感覚を伝達するのに有用 • 一つのサンプルに対して言語情報を付与するから計算量も O(N)となり削減される • CaptionsとTagsの2種類のテキスト情報を収集する Tags: dogs, fried chickens, cute Captions: There are many cats.

Slide 11

Slide 11 text

Captionをつけてもらう提案手法：データ収集 • 映像と音声のデータセットに対して、自由記述のキャプションを収集 • 画像については過去に収集されているものがあるから流用

Slide 12

Slide 12 text

Tagをつけるパイプラインを新たに提案提案手法 • タグは人間がつけやすい一方で、品質が低下が問題 • データ収集と評価を同時に行うパイプライン（STEP-Tag）を提案 • 対抗手法と比較して品質と多様性で上回るこれはなに？ …

Slide 13

Slide 13 text

モデルの埋め込みで類似度を評価提案手法：モデル • 類似度を評価するために、機械学習モデルを用いる 1. DNNの埋め込み（既存研究） 2. CaptionとTagsを使ってLLMとWFAで類似度計算 3. 1,2の埋め込みを結合して類似度計算

Slide 14

Slide 14 text

既存の事前学習済みモデルで類似度を評価既存手法：DNNモデル • 利用可能な事前学習済みモデル（合計611モデル）に対して、その内部表現を獲得し類似度評価に用いる。 • 画像ではtimmから569モデル • 音声ではtorch audioから36モデル • 動画ではPytorchVideoから36モデル

Slide 15

Slide 15 text

大規模言語モデルから埋め込みを獲得提案手法：LLMモデル Tag: • ConceptNet NumberBatchという単語埋め込みモデルを使用 Captions: • HuggingFaceのdebertaやSimCSE, BERTScoreを利用 • 埋め込みは後ろから二番目の埋め込みを利用画像： • （画像→キャプションモデルを利用したがいまいち）

Slide 16

Slide 16 text

事前学習済みモデルがないときは？提案手法: Word frequency analsis • ニッチな領域やリソースが不足している領域では事前学習モデルを用いて潜在表現の獲得ができない • TF-IDFのような文章だけで獲得できる中間表現を用いて、埋め込み表現を獲得

Slide 17

Slide 17 text

LLMとDNNを組み合わせていく提案手法：Stacking • 各モダリティの最良LLM１つと最良DNN5つの埋め込みを連結して１つの埋め込みベクトルにする。

Slide 18

Slide 18 text

評価指標実験 • 作成したデータセットの全てのペアに対して算出した類似度評価と人間が作成した正答との相関係数で評価 • 正答分割して求めた相関係数を性能のおおよその上限値とする

Slide 19

Slide 19 text

Stackした結果が最良実験結果画像音声動画

Slide 20

Slide 20 text

人間の類似度評価作成のガイドライン実験結果

Slide 21

Slide 21 text

まとめ • 人間にテキストを問い合わせるアプローチによって O(N) まで計算量を削減 • タグをつけるために、評価と生成を逐次的に行うパイプラインを提案 • 大量のDNN, LLMモデルに対して人間の類似評価の学習ができるかを調査。 • 所感 • 類似している＝正解ラベルが同じとは違うのか？と思った