Slide 15
Slide 15 text
Model
SAT [Xu+, ICML15]
ORT [Herdade+, NeurIPS19]
ℳ'-Transformer [Cornia+, CVPR20]
DLCT [Luo+, AAAI21]
ER-SAN [Li+, IJCAI22]
ClipCapmlp [Mokady+, 21]
ClipCaptrm [Mokady+, 21]
Transformer𝐿 ∈ {3,6,12}
実験: 10個のモデル,2種類のデータセットで評価
- 15 -
⼤規模⽇本語キャプション
データセット
・画像数 : 164,062
・キャプション数 : 820,310
STAIR Captions
o 10個の標準的なモデルを訓練
ロボットシステムにおける
指⽰⽂データセット
・画像数 : 1,080
・指⽰⽂数 : 77,409
PFN-PIC