Skip to main content
  1. PaperReading/
  2. Others/

MKVSE: Multimodal Knowledge Enhanced Visual-semantic Embedding for Image-text Retrieval

TOMM 2023

代码🔗:https://github.com/PKU-ICST-MIPL/MKVSE-TOMM2023

做了什么?
#

img

定义了跨模态检索任务:将根据文本提供的几何拓扑关系,并检索变换后的图像

提出了一个数据集,用于该任务

数据集
#

img

怎么做?
#

img

对比学习

效果
#

img