Slide 2
Slide 2 text
2
画像認識における基盤モデル(VL-Model)とは
• 入力画像に対し言語で様々な入出力を表現できるモデル
– 言語モデルの発展
– 様々なタスクを言語タスクで表現可能
segmentation
dog
(x0
=250, y0
=320),
(x1
=251, y1
=320),
.
.
dog
(xmin
,ymin
) = (240, 280),
(xmax
,ymax
)= (300, 350),
object detection
image classification
dog
image captioning
A dog running on a grass
VQA
Q. What is the dog doing?
A. running