Slide 9
Slide 9 text
基盤モデルが可能なタスク
9
言語
• 言語言語
ChatGPT, LLaMA
• 言語潜在空間
Sentence BERT
視覚
• 視覚/言語潜在空間
CLIP, GLIP
• 視覚/言語言語
BLIP2, OFA, Flamingo
• 言語視覚
Stable Diffusion, DALL-E
• 視覚/言語 認識
Detic, OWL-ViT, LSeg
聴覚 点群・深度
その他のモダリティ
• 音声/視覚/言語潜在空間
CLAP, AudioCLIP
• 音声言語
Whisper
• 視覚/言語/音声音声
MusicLM, AudioLDM, VALL-E
• 点群/視覚/言語潜在空間
ULIP, CLIP-goes-3D
• 視覚/言語点群・深度
OmniObject3D, Point-E
• 点群/視覚/言語言語/認識
3D-LLM, OpenScene
• ヒートマップ
• IMU
• 動作/骨格情報
• ジェスチャー
など
ImageBind, MetaTransformer
• 視覚潜在空間
R3M, VC-1
• 視覚認識
Segment Anything
VLM
LLM
ALM