Slide 1

Slide 1 text

Words are All You Need? Language as an Approximation for Human Similality Judgements 楊明哲 2023/11/15@読み会

Slide 2

Slide 2 text

論文情報 (ICLR 2023) • 選んだ理由 • 人間の思う類似度と機械が捉える類似度が違うところ に興味を持った

Slide 3

Slide 3 text

この論文のキーメッセージ 1. 人間による類似度評価はとても有用 2. 人間と機械の感じる類似度に差がある 3. 人間のテキスト情報から類似度を予測

Slide 4

Slide 4 text

人間による類似度評価は有用 研究背景 • 人間の類似度評価は、human representationsを研究する上 で重要 • 近年のMLでは、モデル学習に類似度 評価が重要な役割を持つ • 対比学習、情報検索、NLP...

Slide 5

Slide 5 text

人間による大規模データセット作成は大変 研究背景 • 計算量がO(N^2) であり、類似度評価によるML手法は人間 がボトルネック • 現在利用可能なデータセットは たかだか数千サンプルのみ この二つの画像は似ていますか?

Slide 6

Slide 6 text

人間を使わないで類似度評価を取得したい 研究背景 • 事前学習済みのDNNの隠れ表現層での埋め込みから 人間の類似度を近似 • 少量の人間の評価を使いfine-tuningする方法もある • この結果、人間の判断数を N(1) ぐらいまで大幅減少

Slide 7

Slide 7 text

ニッチな領域だと学習済みモデルがない 研究背景 • 医療データセットやニッチなモダリティでは、そもそも事 前学習済みモデルがない • また違う領域・目的で学習されたモデルの埋め込み表現 は、人間と類似評価の一致しない • さらに異なるモダリティ間の類似度を調査した研究は とても少ない この二つは似ている?

Slide 8

Slide 8 text

本研究の貢献 研究背景 • 人間の類似度評価を大規模データセットに適用が困難 • 新しいデータ収集方法とその活用を提案 • 複数モダリティの類似性について大規模に評価 • 新たに作成した類似度評価データセットを公開

Slide 9

Slide 9 text

画像・音声・動画のマルチモダリティ 準備 • 画像: • 動物や家具、野菜などの画像 7,140枚 • 音声: • 会話の音声1つに3つの感情。4950文 • 映像: • 200の行動ラベルが存在。5000本使う

Slide 10

Slide 10 text

まずは人間の計算量を抑える 提案手法:データ収集 • 人間の一対比較がボトルネックで解消したい → テキストによる評価を人間に問い合わせる! • 言語情報は人間の感覚を伝達するのに有用 • 一つのサンプルに対して言語情報を付与するから計算量も O(N)となり削減される • CaptionsとTagsの2種類のテキスト情報を収集する Tags: dogs, fried chickens, cute Captions: There are many cats.

Slide 11

Slide 11 text

Captionをつけてもらう 提案手法:データ収集 • 映像と音声のデータセットに対して、 自由記述のキャプションを収集 • 画像については過去に収集されているものがあるから流用

Slide 12

Slide 12 text

Tagをつけるパイプラインを新たに提案 提案手法 • タグは人間がつけやすい一方で、品質が低下が問題 • データ収集と評価を同時に行う パイプライン(STEP-Tag)を提案 • 対抗手法と比較して品質と多様性で上回る これはなに? …

Slide 13

Slide 13 text

モデルの埋め込みで類似度を評価 提案手法:モデル • 類似度を評価するために、機械学習モデルを用いる 1. DNNの埋め込み(既存研究) 2. CaptionとTagsを使ってLLMとWFAで類似度計算 3. 1,2の埋め込みを結合して類似度計算

Slide 14

Slide 14 text

既存の事前学習済みモデルで類似度を評価 既存手法:DNNモデル • 利用可能な事前学習済みモデル(合計611モデル)に 対して、その内部表現を獲得し類似度評価に用いる。 • 画像ではtimmから569モデル • 音声ではtorch audioから36モデル • 動画ではPytorchVideoから36モデル

Slide 15

Slide 15 text

大規模言語モデルから埋め込みを獲得 提案手法:LLMモデル Tag: • ConceptNet NumberBatchという単語埋め込みモデルを 使用 Captions: • HuggingFaceのdebertaやSimCSE, BERTScoreを利用 • 埋め込みは後ろから二番目の埋め込みを利用 画像: • (画像→キャプションモデルを利用したがいまいち)

Slide 16

Slide 16 text

事前学習済みモデルがないときは? 提案手法: Word frequency analsis • ニッチな領域やリソースが不足している領域では事前学習 モデルを用いて潜在表現の獲得ができない • TF-IDFのような文章だけで獲得できる中間表現を用いて、 埋め込み表現を獲得

Slide 17

Slide 17 text

LLMとDNNを組み合わせていく 提案手法:Stacking • 各モダリティの最良LLM1つと最良DNN5つの埋め込みを 連結して1つの埋め込みベクトルにする。

Slide 18

Slide 18 text

評価指標 実験 • 作成したデータセットの全てのペアに対して算出した類似 度評価と人間が作成した正答との相関係数で評価 • 正答分割して求めた相関係数を性能の おおよその上限値とする

Slide 19

Slide 19 text

Stackした結果が最良 実験結果 画像 音声 動画

Slide 20

Slide 20 text

人間の類似度評価作成のガイドライン 実験結果

Slide 21

Slide 21 text

まとめ • 人間にテキストを問い合わせるアプローチによって O(N) まで計算量を削減 • タグをつけるために、評価と生成を逐次的に行うパイプラインを提案 • 大量のDNN, LLMモデルに対して人間の類似評価の 学習ができるかを調査。 • 所感 • 類似している=正解ラベルが同じとは違うのか?と思った