Slide 10
Slide 10 text
Image Embedder︓画像の埋め込み処理を実⾏
• 𝑥!"#$
, 𝑥$%&
︓Faster R-CNN [Ren+, PAMI16]より抽出した領域の特徴量
• 特徴量はbackboneの ResNet101[He+, CVPR16] のfc7層の出⼒から抽出
• 𝑥!"#$'(!
, 𝑥$%&'(!
︓領域の位置に関する特徴量
𝑓)*
︓全結合層
𝑓+,
︓Layer Normalization
① 𝒉-
!"#$ = 𝑓+,(𝑓)*(𝑥!"#$), 𝑓)*(𝑥!"#$'(!))
② 𝒉-
$%& = 𝑓+,(𝑓)*(𝑥$%&), 𝑓)*(𝑥$%&'(!))
③ 𝒉-
./0%/1 = {𝒉-
!"#$, 𝒉-
$%&}
10