©2023 SenseTime Japan Ltd. All Rights Reserved. 14
Uni-Perceiver v2
1. 画像を「領域提案」(BBox, Seg)としてエンコード
→ ローカリゼーションの情報を明示的に与える
位置推定が正確になる
リッチな特徴を獲得できる
2. マルチタスク学習を安定化するオプティマイザ=MT-AdamW
1イテレーションにおいて1つのGPUに対して1つのタスクのみサンプリング
時刻tのタスクkの損失
AdamW MT-AdamW
重み減衰&バイアス項は割愛
タスクkの損失重み
タスク データセット
Classification ImageNet-1K
Detection, Instance Segmentation COCO
Image Captioning/ Image-Text Retrieval SBU Captions, Visual Genome, COCO Caption, CC3M, CC12M, YFCC
Language Modeling BookCorpus, English Wikipedia
学習データ
各提案に対して3つの表現
RPN=MaskDINOの𝑓𝑔分類のみ版
28x28
28x28
𝐹𝐿
BPE
tokenizer
RoBERTa
ローカリゼーションタスクで利用。
各提案埋め込みと正解ラベル
の埋め込みで比較して分類
ResNet50 (IM1K)
Swin-Base (IM-21k)
Swin-Large (IM-21→Object365)
Attribute-Level MoE
下線のあるタスクを検証
(計算リソースのため画像生成はやってない)
追加
ローカリゼーションタスク&非ローカリゼーションタスクを一緒に学習可能
Li+, “Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks”, CVPR, 2023
Li+, “Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks”, CVPR, 2023
Li+, “Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks”, CVPR, 2023