Slide 13
Slide 13 text
ベースのアーキテクチャとして GIT[Wang et al., 2022]
を採用しました。
まず画像中の文字を予測する Captioning で事前学習モデルを作ります。
その後、視覚質問応答タスクで Fine-Tuning する構成です。
Viola のアーキテクチャ
Wang, J., Yang, Z., Hu, X., Li, L., Lin, K., Gan, Z., Liu, Z., Liu, C., and Wang, L. Git: A generative imageto
-text transformer for vision and language. ArXiv, abs/2205.14100, 2022c
13