Jiaoyan Chen3, Yuxia Geng1,2, Jeff Z. Pan4, Zonggang Yuan5, and Huajun Chen1,2 • 1College of Computer Science and Hangzhou Innovation Center, Zhejiang University, Hangzhou, China, 2AZFT Joint Lab for Knowledge Engine, Hangzhou, China. 3Department of Computer Science, University of Oxford, Oxford, UK. 4School of Informatics, The University of Edinburgh, Edinburgh, UK. 5NAIE CTO Office, Huawei Technologies Co., Ltd., Shenzhen, China • ⼀⾔でいうと • ナレッジグラフとマスクベースの学習機構を⽤いたZero-ShotのVQAアルゴリズムの提案 • 動機 • 現在、VQAは答えが直接的に画像に含まれていないシーンの理解に関しては外部知識に依存している。外部知 識を組み込む既存⼿法はパイプラインのアプローチを採⽤しているが、このようなアプローチは⼀部がうまく 機能しないときに全体のパフォーマンスの低下につながる。 • また、既存のアプローチの⼤半は、実世界応⽤における答えのバイアス問題を考慮していない。 • ⼿法 • ナレッジグラフ(KG)とマスクベースの学習機構を ⽤いたZS-VQAアルゴリズムの提案 • Unseenな答えに対してZS-VQAを評価する Zero-shot Fact VQA datasetの提案 • 結果 • 実験の結果SOTAを達成し、さらに通常のF-VQAタスクで 既存のend-to-endモデルを劇的に強化できることを裏付けた。 Research Track Session 2A: Visual Models