Slide 9
Slide 9 text
9
GPT-4Vで画像認識は終わるのか
SSII2024
視覚言語モデルの限界はどのあたりにあるのか?
Vision Encoder LLM
Connection Model
膨大なデータを学習することで強
力な特徴空間を獲得
言語モデルが多様な問題に有効
● 要約
● 翻訳
● 推論を伴う質問応答
● 雑談
● プログラミング
● etc.
『a photo of
siberian husky』
CLIPのzero-shot classifier
https://openai.com/index/clip/