Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介/Visual Classification via Description from...

Ryota Tanaka
August 27, 2023
900

論文紹介/Visual Classification via Description from Large Language Models

Ryota Tanaka

August 27, 2023
Tweet

Transcript

  1. Copyright 2022 NTT CORPORATION Copyright 2023 NTT CORPORATION 紹介者: ⽥中涼太

    NTT⼈間情報研究所 / 東北⼤学 2023 8/28 最先端NLP勉強会2023 ICLR2023 notable top (採択論⽂中 上位) 5% 採択
  2. Copyright 2022 NTT CORPORATION 1 Copyright 2023 NTT CORPORATION 概要

    n LLMが⽣成するカテゴリに関する記述⼦を基に,画像分類タスクを⾏うフレーム ワーク (Classification by Description) の提案 n 分類結果の根拠として,ヒトが解釈しやすい⾃然⾔語で説明可能 n 従来⼿法 (CLIP) に対して,様々なzero-shot画像分類ベンチマークで越える性能
  3. Copyright 2022 NTT CORPORATION 2 Copyright 2023 NTT CORPORATION 背景:

    CLIP [Radford+, ‘21] n ⼤量の画像-説明⽂ペアを⽤いて,バッチ内の正例ペアの類似度を⾼くし,負例ペ アの類似度を低くする対照学習を⽤いた事前学習を実施 事前学習: 対照学習 推論 (zero-shot画像分類)
  4. Copyright 2022 NTT CORPORATION 3 Copyright 2023 NTT CORPORATION 背景:

    CLIPの課題 n 解釈性が低い l 予測結果について,Grad-CAM (勾配の値を可視化) を⽤いても,出⼒されたヒートマップを どのように解釈するかは,解釈するヒトに依存する n 事前学習データに含まれない,新規カテゴリの認識・分類が難しい l OpenAIのCLIPは,2021年2⽉までの概念やカテゴリを学習している n バイアスを多く含んでいる l OpenAIのCLIPは,⻄洋圏の画像を多く学習データに含んでいるので,⻄洋⽂化に強くバイアスがある ⽻があることが特徴的なの? 斑模様が特徴的なの?
  5. Copyright 2022 NTT CORPORATION 4 Copyright 2023 NTT CORPORATION 提案⼿法:

    Classification by Description n 分類対象となるカテゴリに対して,LLMを⽤いてカテゴリを説明する記述⼦を⽣成 し,その⽣成結果を基に,画像の分類を⾏う 画像埋め込み テキスト (カテゴリ/記述⼦) 埋め込み 従来のV+Lモデル (CLIP) 提案⼿法
  6. Copyright 2022 NTT CORPORATION 5 Copyright 2023 NTT CORPORATION LLMによる記述⼦の⽣成

    n LLM (GPT-3)に対して,カテゴリに関する識別に有⽤な視覚的特徴を聞き出す ⽣成例: プロンプト: - 弦楽器 - 4本弦 - ⽊のボディ - チューニングのペグ - Fホール ・ ・ ・ バイオリンの特徴
  7. Copyright 2022 NTT CORPORATION 6 Copyright 2023 NTT CORPORATION 記述⼦の変換

    n ⽣成された記述⼦をカテゴリに結びつけるための,テンプレートを⽤意する テンプレート: n Violin which is a stringed instrument n Violin which typically has four strings n Violin which has a wooden body n Violin which has a neck and fingerboard n Violin which has tuning pegs n Violin which has a bridge n Violin which has a soundpost n Violin which has a f-holes n Violin which has a bow テンプレートに代⼊
  8. Copyright 2022 NTT CORPORATION 7 Copyright 2023 NTT CORPORATION 記述⼦を⽤いた推論

    n 変換された記述⼦と画像の類似度を計算し,各カテゴリの類似度を決定 n Violin which is a stringed instrument n Violin which has a neck and fingerboard n Violin which has a bow Violin Cheeseburger ・ ・ ・ n Cheeseburger which has a cheese n Cheeseburger which has a tomato n Cheeseburger which has a lettuce https://www.istockphoto.com/ 出展元: 0.8 0.6 0.7 0.1 0.1 0.1 1 / 3 (0.8 + 0.6 + 0.7) = 0.7 1 / 3 (0.1 + 0.1 + 0.1) = 0.1 記述⼦𝒅と画像𝒙の cos類似度 記述⼦の数 全カテゴリ 類似度を計算 カテゴリ𝒄と画像𝒙 の類似度 最もスコアの⾼い Violinに決定
  9. Copyright 2022 NTT CORPORATION 9 Copyright 2023 NTT CORPORATION 実験設定

    n ベースモデル: CLIP l 提案⼿法は,CLIPの推論時のみに適⽤ n データセット (画像分類タスク) l ImageNet: シーン画像 l ImageNetV2: シーン画像 l CUB: ⿃の画像 l EuroSAT: 衛星画像 l Places365: シーン画像 l Food101: ⾷べ物の画像 l Oxford Pets: 動物の画像 l Describable Textures: テクスチャの画像
  10. Copyright 2022 NTT CORPORATION 10 Copyright 2023 NTT CORPORATION CLIPと⽐べて性能はどうか︖

    n ベースモデル (CLIP) に対して,全データセットで性能を上回る l ⽇常的な物体 (ImageNetなど) だけではなく,衛星画像 (EuroSAT) や テクスチャ (Describable Textures) などのニッチなドメインに対する分類で強⼒に効く n ViTの⼤きさ,パッチサイズ,画像サイズを変更しても,提案⼿法の有効性が確認 できる
  11. Copyright 2022 NTT CORPORATION 11 Copyright 2023 NTT CORPORATION 解釈性はどうか︖

    提案⼿法で算出した スコア CLIPの予測に対して, 提案⼿法で (無理⽮理) スコアを算出した結果
  12. Copyright 2022 NTT CORPORATION 12 Copyright 2023 NTT CORPORATION 新規カテゴリに関する性能はどうか︖

    n CLIPの事前学習データに含まれない,2021年2⽉以降に登場したカテゴリに ついて分類を⾏う.(ただし,LLMは2021年2⽉以降の知識を持っている) 2021年3⽉にスエズ運河をふさいだ船「Ever Given」と、2022年1⽉に流⾏したオンライン単語ゲーム 「Wordle game」 に関する画像について,正しくカテゴリを予測できている
  13. Copyright 2022 NTT CORPORATION 13 Copyright 2023 NTT CORPORATION バイアスはどうか︖

    n CLIPの事前学習データは,⻄洋圏中⼼のデータが多く占めるため,⻄洋⽂化のバ イアスがかかっている.(LLMも同様) l ⼈⼿でwedding (バイアスに影響が受けやすい) に関する記述⼦を付与したデータセットを作成 ⻄洋圏以外の画像に関する 識別精度が低い ヒトが介⼊することで,バイアスの解消を実現できる
  14. Copyright 2022 NTT CORPORATION 14 Copyright 2023 NTT CORPORATION Limitations

    1. 視覚情報以外の記述⼦を⽣成してしまう 2. 曖昧なカテゴリに関して誤って⽣成してしまう 3. 同じ記述⼦繰り返し⽣成してしまう 匂いや味に関する記述⼦ を⽣成している 1. 2. 3. 同じ記述⼦を⽣成 Vespaは⼆つの意味を持つ (ススメバチとスクーター)
  15. Copyright 2022 NTT CORPORATION 15 Copyright 2023 NTT CORPORATION まとめ

    n 概要 l LLMが⽣成するカテゴリに関する記述⼦を基に,画像分類タスクを⾏うフレームワー ク (Classification by Description) の提案 l 分類結果を,⾃然⾔語で解釈することが可能 l 従来⼿法 (CLIP) に対して,様々なzero-shot画像分類ベンチマークで越える性能 n 所感 l 素⼈発想,⽞⼈実⾏の論⽂として素晴らしい︕ l Limitationsに関する分析も徹底しており,査読コメントの芽を摘むのが上⼿い l 画像分類タスク以外への活⽤が進みそう
  16. Copyright 2022 NTT CORPORATION 17 Copyright 2023 NTT CORPORATION ChatGPTにテナガザルの視覚的特徴を聞いてみた

    https://www.istockphoto.com/ 出展元: GPT-3よりも⻑⽂を出⼒する傾向にあるが,特徴を捉えた有⽤な回答を返答できる
  17. Copyright 2022 NTT CORPORATION 18 Copyright 2023 NTT CORPORATION その他分析:

    LLMのサイズ n LLMが⼩さい場合,本⼿法の有効性は確認できなかった l モデルサイズが⼩さいと,学習の過程で視覚的な知識を獲得するのが難しい︖
  18. Copyright 2022 NTT CORPORATION 19 Copyright 2023 NTT CORPORATION Limitations

    (記述⼦の誤認識) 1. 複数のカテゴリにマッチする記述⼦による誤認識 2. 曖昧な意味を持つ単語を含む記述⼦による誤認識 ライオンの特徴がチャウチャウ (⽝) の特徴と⼀致している Stockyには,「ズングリした」と 「普遍的な」という意味を持っている 1. 2. ズングリ感がない︖