: 参照画像, 修正指示文による512次元の画像言語特徴量 𝑣", 候補画像の画像特徴量 𝑣# n Image Encoder (Source Image Encoder, Candidate Image Encoder) : ResNet50[He+, 16]で構成 n Text Encoder : BERT [Devlin+, 18]に複数の修正指示文を<SEP>トークンで結合して入力 n Transformer Encoder:画像特徴量と修正指示文の各単語の関係性をTransformer[Vaswani+, 17]で学習