:ResNet50 [He+, CVPR2016] より抽出した領域の特徴量 – 𝒙imgloc , 𝒙landloc :領域の位置情報ベクトル集合 Image Embedder:画像の埋め込み処理を行う 14 𝑓𝐹𝐶 :全結合層 𝑓𝐿𝑁 :Layer Normalization ② 𝒉land = 𝑓𝐿𝑁 (𝑓𝐹𝐶 (𝒙land ), 𝑓𝐹𝐶 (𝒙landloc )) ① 𝒉img = 𝑓𝐿𝑁 (𝑓𝐹𝐶 (𝒙img ), 𝑓𝐹𝐶 (𝒙imgloc )) ③ 𝒉imgemb = {𝒉img , 𝒉land }