𝑤"}を⽤いて,embeddings 𝐸#"$ = {𝑒%&', 𝑒!, … , 𝑒", 𝑒'()}を得る • Image representation • 画像 𝑣*"+ ∈ ℝ,×.!×/!から CNN を通して spatial feature 𝑓*"+ ∈ ℝ%×.×/(𝐶 = 2048, 𝐻 = "! #$ , 𝑊 = %! #$ ) を得る. • それに 1×1 の畳み込みをしてチャンネル数を減らし,系列にするため次元を縮⼩し て,最終的な画像表現 𝑍*"+ = {𝑜!, … , 𝑜./} ∈ ℝ./×0を得る. • Encoder への⼊⼒はテキストと画像表現を結合したの {𝑒!"#, 𝑒$, … , 𝑒%, 𝑒#&', 𝑜$, … , 𝑜()} を⽤いる (single-stream) • テキストだけでなく,画像のサイズによって系列⻑が変わる 3