, 𝐹𝑣3 , 𝐹𝑣4 , 𝐹 𝑠 ▸ 出力: 視覚特徴量 𝐹 𝑣 = 𝐶𝑜𝑛𝑣([𝐹 𝑚 , 𝐹𝑐𝑜𝑜𝑟𝑑 ]) ∈ ℝ 𝐻 16 ×𝑊 16 ×𝐶 ▹ 𝐹𝑐𝑜𝑜𝑟𝑑 : 𝐹 𝑚 に位置情報を埋め込んだ特徴量 ▹ 𝐹 𝑚 = 𝐶𝑜𝑛𝑣([𝐹𝑚2 , 𝐹𝑚3 , 𝐹𝑚4 ] ▹ 𝐹𝑚4 = 𝑈𝑝(𝜎(𝐹𝑣4 𝑊𝑣4 ) ∙ 𝜎(𝐹 𝑠 𝑊 𝑠 )) ▹ 𝐹𝑚3 = 𝜎 𝐹𝑚4 𝑊𝑚4 ∙ 𝜎 𝐹𝑣3 𝑊𝑣3 ▹ 𝐹𝑚2 = 𝜎 𝐹𝑚3 𝑊𝑚3 ∙ 𝜎 𝐴𝑣𝑔(𝐹𝑣2 )𝑊𝑣2 10 Cross-modal Neck 𝐹𝑣 = 𝐶𝑜𝑛𝑣([𝐹𝑚 , 𝐹𝑐𝑜𝑜𝑟𝑑 ])