Slide 1

Slide 1 text

SSII2024
 大規模言語モデルと基盤モデルの射程
 2024.6.13
 大谷 まゆ(サイバーエージェント)

Slide 2

Slide 2 text

2 GPT-4Vで画像認識は終わるのか SSII2024 サイバーエージェント  AI Lab 大谷まゆ ● コンピュータビジョン研究のための評価方法に興味 ● デザイン制作支援、画像生成 ● 経歴 ○ 2018 – 現職 ○ 2014 – 2018 修士・博士課程@NAIST

Slide 3

Slide 3 text

3 GPT-4Vで画像認識は終わるのか SSII2024 コンピュータビジョンの一般的な研究スタイル 手法開発 性能比較 論文が出版されたり プロダクトに採用されたり

Slide 4

Slide 4 text

4 GPT-4Vで画像認識は終わるのか SSII2024 評価方法はちゃんと役割を果たしている? 性能比較

Slide 5

Slide 5 text

5 GPT-4Vで画像認識は終わるのか SSII2024 映像要約のベンチマーク調査(CVPR’18) 要約の品質に関係なく評価値が決まるこ とを確認 ベンチマーク調査 ランダム化した要約 参照要約

Slide 6

Slide 6 text

6 GPT-4Vで画像認識は終わるのか SSII2024 シーン検索のベンチマーク調査 (BMVC’20) データセットに潜む偏りが評価結果に及ぼす 影響を調査 ベンチマーク調査 学習&推論時に映像を使わず SOTAに迫る スコアが出ることを確認

Slide 7

Slide 7 text

7 GPT-4Vで画像認識は終わるのか SSII2024 現状技術の限界(の感覚)と評価結果のギャップ ベンチマークの違和感はどこに生じるか データの限界 手法の限界 ドメインシフト、データ量、クラス偏り...etc. 使える教師信号、扱える特徴...etc. 性能の概算: 扱えそうな問題はベンチマークの△△ %ぐらい? 成功率◯◯%

Slide 8

Slide 8 text

8 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 『コンピュータを使 う猫』

Slide 9

Slide 9 text

9 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 膨大なデータを学習することで強 力な特徴空間を獲得 言語モデルが多様な問題に有効 ● 要約 ● 翻訳 ● 推論を伴う質問応答 ● 雑談 ● プログラミング ● etc. 『a photo of siberian husky』 CLIPのzero-shot classifier https://openai.com/index/clip/

Slide 10

Slide 10 text

10 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 膨大なデータを学習することで強 力な特徴空間を獲得 『a photo of siberian husky』 CLIPのzero-shot classifier GPT4 Technical Report 強力な特徴空間の上での様々な操作がで きる可能性 特徴空間が獲得できれば多様な CV課題 が視覚言語モデルの射程に入る?

Slide 11

Slide 11 text

11 GPT-4Vで画像認識は終わるのか SSII2024 CVに残された課題は? データを集めにくい領域は扱えない→集めれば解決? 様々なモダリティへの対応→同様のアプローチが有効? ImageBind: One Embedding Space To Bind Them All (CVPR’23)

Slide 12

Slide 12 text

12 GPT-4Vで画像認識は終わるのか SSII2024 ● 多くの画像認識課題がGPT-4V的アプローチの射程圏に入る ● 従来のCV問題の本質が「工学的な手法の探索」から「実用的リソース配分」に なる ● 多くの課題がCVを卒業し、政治、思想、芸術の領域へ接続してゆく GPT-4Vで画像認識は終わるのか?