Slide 44
Slide 44 text
評価に使⽤したモデル
Appendix: JaSPICEの評価に使⽤したモデル
23
Transformer𝐋 ∈ {𝟑, 𝟔, 𝟏𝟐}
Bottom-up Feature [Anderson,ECCV16] を
⼊⼒に⽤いた 𝐿 層からなるTransformer
ClipCapmlp
Mapping Network を MLPとしたClipCap
ClipCaptrm
Mapping Network を Transformerとした
ClipCap
Model
SAT [Xu+, ICML15]
ORT [Herdade+, NeurIPS19]
ℳ!-Transformer [Cornia+, CVPR20]
DLCT [Luo+, AAAI21]
ER-SAN [Li+, IJCAI22]
ClipCapmlp [Mokady+, 21]
ClipCaptrm [Mokady+, 21]
Transformer𝐿 ∈ {3,6,12}