SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程

Slide 1

Slide 1 text

SSII2024  大規模言語モデルと基盤モデルの射程  2024.6.13  大谷まゆ（サイバーエージェント）

Slide 2

Slide 2 text

2 GPT-4Vで画像認識は終わるのか SSII2024 サイバーエージェント　 AI Lab 大谷まゆ ● コンピュータビジョン研究のための評価方法に興味 ● デザイン制作支援、画像生成 ● 経歴 ○ 2018 – 現職 ○ 2014 – 2018 修士・博士課程@NAIST

Slide 3

Slide 3 text

3 GPT-4Vで画像認識は終わるのか SSII2024 コンピュータビジョンの一般的な研究スタイル手法開発性能比較論文が出版されたりプロダクトに採用されたり

Slide 4

Slide 4 text

4 GPT-4Vで画像認識は終わるのか SSII2024 評価方法はちゃんと役割を果たしている？性能比較

Slide 5

Slide 5 text

5 GPT-4Vで画像認識は終わるのか SSII2024 映像要約のベンチマーク調査(CVPR’18) 要約の品質に関係なく評価値が決まることを確認ベンチマーク調査ランダム化した要約参照要約

Slide 6

Slide 6 text

6 GPT-4Vで画像認識は終わるのか SSII2024 シーン検索のベンチマーク調査 (BMVC’20) データセットに潜む偏りが評価結果に及ぼす影響を調査ベンチマーク調査学習&推論時に映像を使わず SOTAに迫るスコアが出ることを確認

Slide 7

Slide 7 text

7 GPT-4Vで画像認識は終わるのか SSII2024 現状技術の限界（の感覚）と評価結果のギャップベンチマークの違和感はどこに生じるかデータの限界手法の限界ドメインシフト、データ量、クラス偏り...etc. 使える教師信号、扱える特徴...etc. 性能の概算：扱えそうな問題はベンチマークの△△ %ぐらい？成功率◯◯%

Slide 8

Slide 8 text

8 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか？ Vision Encoder LLM Connection Model 『コンピュータを使う猫』

Slide 9

Slide 9 text

9 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか？ Vision Encoder LLM Connection Model 膨大なデータを学習することで強力な特徴空間を獲得言語モデルが多様な問題に有効 ● 要約 ● 翻訳 ● 推論を伴う質問応答 ● 雑談 ● プログラミング ● etc. 『a photo of siberian husky』 CLIPのzero-shot classifier https://openai.com/index/clip/

Slide 10

Slide 10 text

10 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか？ Vision Encoder LLM Connection Model 膨大なデータを学習することで強力な特徴空間を獲得『a photo of siberian husky』 CLIPのzero-shot classifier GPT4 Technical Report 強力な特徴空間の上での様々な操作ができる可能性特徴空間が獲得できれば多様な CV課題が視覚言語モデルの射程に入る？

Slide 11

Slide 11 text

11 GPT-4Vで画像認識は終わるのか SSII2024 CVに残された課題は？データを集めにくい領域は扱えない→集めれば解決？様々なモダリティへの対応→同様のアプローチが有効？ ImageBind: One Embedding Space To Bind Them All (CVPR’23)

Slide 12

Slide 12 text

12 GPT-4Vで画像認識は終わるのか SSII2024 ● 多くの画像認識課題がGPT-4V的アプローチの射程圏に入る ● 従来のCV問題の本質が「工学的な手法の探索」から「実用的リソース配分」になる ● 多くの課題がCVを卒業し、政治、思想、芸術の領域へ接続してゆく GPT-4Vで画像認識は終わるのか？