Slide 1

Slide 1 text

Copyright 2022 NTT CORPORATION Copyright 2023 NTT CORPORATION 紹介者: ⽥中涼太 NTT⼈間情報研究所 / 東北⼤学 2023 8/28 最先端NLP勉強会2023 ICLR2023 notable top (採択論⽂中 上位) 5% 採択

Slide 2

Slide 2 text

Copyright 2022 NTT CORPORATION 1 Copyright 2023 NTT CORPORATION 概要 n LLMが⽣成するカテゴリに関する記述⼦を基に,画像分類タスクを⾏うフレーム ワーク (Classification by Description) の提案 n 分類結果の根拠として,ヒトが解釈しやすい⾃然⾔語で説明可能 n 従来⼿法 (CLIP) に対して,様々なzero-shot画像分類ベンチマークで越える性能

Slide 3

Slide 3 text

Copyright 2022 NTT CORPORATION 2 Copyright 2023 NTT CORPORATION 背景: CLIP [Radford+, ‘21] n ⼤量の画像-説明⽂ペアを⽤いて,バッチ内の正例ペアの類似度を⾼くし,負例ペ アの類似度を低くする対照学習を⽤いた事前学習を実施 事前学習: 対照学習 推論 (zero-shot画像分類)

Slide 4

Slide 4 text

Copyright 2022 NTT CORPORATION 3 Copyright 2023 NTT CORPORATION 背景: CLIPの課題 n 解釈性が低い l 予測結果について,Grad-CAM (勾配の値を可視化) を⽤いても,出⼒されたヒートマップを どのように解釈するかは,解釈するヒトに依存する n 事前学習データに含まれない,新規カテゴリの認識・分類が難しい l OpenAIのCLIPは,2021年2⽉までの概念やカテゴリを学習している n バイアスを多く含んでいる l OpenAIのCLIPは,⻄洋圏の画像を多く学習データに含んでいるので,⻄洋⽂化に強くバイアスがある ⽻があることが特徴的なの? 斑模様が特徴的なの?

Slide 5

Slide 5 text

Copyright 2022 NTT CORPORATION 4 Copyright 2023 NTT CORPORATION 提案⼿法: Classification by Description n 分類対象となるカテゴリに対して,LLMを⽤いてカテゴリを説明する記述⼦を⽣成 し,その⽣成結果を基に,画像の分類を⾏う 画像埋め込み テキスト (カテゴリ/記述⼦) 埋め込み 従来のV+Lモデル (CLIP) 提案⼿法

Slide 6

Slide 6 text

Copyright 2022 NTT CORPORATION 5 Copyright 2023 NTT CORPORATION LLMによる記述⼦の⽣成 n LLM (GPT-3)に対して,カテゴリに関する識別に有⽤な視覚的特徴を聞き出す ⽣成例: プロンプト: - 弦楽器 - 4本弦 - ⽊のボディ - チューニングのペグ - Fホール ・ ・ ・ バイオリンの特徴

Slide 7

Slide 7 text

Copyright 2022 NTT CORPORATION 6 Copyright 2023 NTT CORPORATION 記述⼦の変換 n ⽣成された記述⼦をカテゴリに結びつけるための,テンプレートを⽤意する テンプレート: n Violin which is a stringed instrument n Violin which typically has four strings n Violin which has a wooden body n Violin which has a neck and fingerboard n Violin which has tuning pegs n Violin which has a bridge n Violin which has a soundpost n Violin which has a f-holes n Violin which has a bow テンプレートに代⼊

Slide 8

Slide 8 text

Copyright 2022 NTT CORPORATION 7 Copyright 2023 NTT CORPORATION 記述⼦を⽤いた推論 n 変換された記述⼦と画像の類似度を計算し,各カテゴリの類似度を決定 n Violin which is a stringed instrument n Violin which has a neck and fingerboard n Violin which has a bow Violin Cheeseburger ・ ・ ・ n Cheeseburger which has a cheese n Cheeseburger which has a tomato n Cheeseburger which has a lettuce https://www.istockphoto.com/ 出展元: 0.8 0.6 0.7 0.1 0.1 0.1 1 / 3 (0.8 + 0.6 + 0.7) = 0.7 1 / 3 (0.1 + 0.1 + 0.1) = 0.1 記述⼦𝒅と画像𝒙の cos類似度 記述⼦の数 全カテゴリ 類似度を計算 カテゴリ𝒄と画像𝒙 の類似度 最もスコアの⾼い Violinに決定

Slide 9

Slide 9 text

8 Copyright 2023 NTT CORPORATION 実験

Slide 10

Slide 10 text

Copyright 2022 NTT CORPORATION 9 Copyright 2023 NTT CORPORATION 実験設定 n ベースモデル: CLIP l 提案⼿法は,CLIPの推論時のみに適⽤ n データセット (画像分類タスク) l ImageNet: シーン画像 l ImageNetV2: シーン画像 l CUB: ⿃の画像 l EuroSAT: 衛星画像 l Places365: シーン画像 l Food101: ⾷べ物の画像 l Oxford Pets: 動物の画像 l Describable Textures: テクスチャの画像

Slide 11

Slide 11 text

Copyright 2022 NTT CORPORATION 10 Copyright 2023 NTT CORPORATION CLIPと⽐べて性能はどうか︖ n ベースモデル (CLIP) に対して,全データセットで性能を上回る l ⽇常的な物体 (ImageNetなど) だけではなく,衛星画像 (EuroSAT) や テクスチャ (Describable Textures) などのニッチなドメインに対する分類で強⼒に効く n ViTの⼤きさ,パッチサイズ,画像サイズを変更しても,提案⼿法の有効性が確認 できる

Slide 12

Slide 12 text

Copyright 2022 NTT CORPORATION 11 Copyright 2023 NTT CORPORATION 解釈性はどうか︖ 提案⼿法で算出した スコア CLIPの予測に対して, 提案⼿法で (無理⽮理) スコアを算出した結果

Slide 13

Slide 13 text

Copyright 2022 NTT CORPORATION 12 Copyright 2023 NTT CORPORATION 新規カテゴリに関する性能はどうか︖ n CLIPの事前学習データに含まれない,2021年2⽉以降に登場したカテゴリに ついて分類を⾏う.(ただし,LLMは2021年2⽉以降の知識を持っている) 2021年3⽉にスエズ運河をふさいだ船「Ever Given」と、2022年1⽉に流⾏したオンライン単語ゲーム 「Wordle game」 に関する画像について,正しくカテゴリを予測できている

Slide 14

Slide 14 text

Copyright 2022 NTT CORPORATION 13 Copyright 2023 NTT CORPORATION バイアスはどうか︖ n CLIPの事前学習データは,⻄洋圏中⼼のデータが多く占めるため,⻄洋⽂化のバ イアスがかかっている.(LLMも同様) l ⼈⼿でwedding (バイアスに影響が受けやすい) に関する記述⼦を付与したデータセットを作成 ⻄洋圏以外の画像に関する 識別精度が低い ヒトが介⼊することで,バイアスの解消を実現できる

Slide 15

Slide 15 text

Copyright 2022 NTT CORPORATION 14 Copyright 2023 NTT CORPORATION Limitations 1. 視覚情報以外の記述⼦を⽣成してしまう 2. 曖昧なカテゴリに関して誤って⽣成してしまう 3. 同じ記述⼦繰り返し⽣成してしまう 匂いや味に関する記述⼦ を⽣成している 1. 2. 3. 同じ記述⼦を⽣成 Vespaは⼆つの意味を持つ (ススメバチとスクーター)

Slide 16

Slide 16 text

Copyright 2022 NTT CORPORATION 15 Copyright 2023 NTT CORPORATION まとめ n 概要 l LLMが⽣成するカテゴリに関する記述⼦を基に,画像分類タスクを⾏うフレームワー ク (Classification by Description) の提案 l 分類結果を,⾃然⾔語で解釈することが可能 l 従来⼿法 (CLIP) に対して,様々なzero-shot画像分類ベンチマークで越える性能 n 所感 l 素⼈発想,⽞⼈実⾏の論⽂として素晴らしい︕ l Limitationsに関する分析も徹底しており,査読コメントの芽を摘むのが上⼿い l 画像分類タスク以外への活⽤が進みそう

Slide 17

Slide 17 text

16 Copyright 2023 NTT CORPORATION Appendix

Slide 18

Slide 18 text

Copyright 2022 NTT CORPORATION 17 Copyright 2023 NTT CORPORATION ChatGPTにテナガザルの視覚的特徴を聞いてみた https://www.istockphoto.com/ 出展元: GPT-3よりも⻑⽂を出⼒する傾向にあるが,特徴を捉えた有⽤な回答を返答できる

Slide 19

Slide 19 text

Copyright 2022 NTT CORPORATION 18 Copyright 2023 NTT CORPORATION その他分析: LLMのサイズ n LLMが⼩さい場合,本⼿法の有効性は確認できなかった l モデルサイズが⼩さいと,学習の過程で視覚的な知識を獲得するのが難しい︖

Slide 20

Slide 20 text

Copyright 2022 NTT CORPORATION 19 Copyright 2023 NTT CORPORATION Limitations (記述⼦の誤認識) 1. 複数のカテゴリにマッチする記述⼦による誤認識 2. 曖昧な意味を持つ単語を含む記述⼦による誤認識 ライオンの特徴がチャウチャウ (⽝) の特徴と⼀致している Stockyには,「ズングリした」と 「普遍的な」という意味を持っている 1. 2. ズングリ感がない︖