= Visual Semantic Embedding: text と image を意味が近いと距離が近くなるよう embed - Sim: SiameseNetで、同じcategoryどうしのtext/imageを近くにembed - compatibility - Type-Specific Embed - Sim の embedded space から category pair-wise な space に projectionして、 - compatible な image どうしを近づけて embed