↓Skip to main content

MKVSE: Multimodal Knowledge Enhanced Visual-semantic Embedding for Image-text Retrieval

TOMM 2023

代码🔗：https://github.com/PKU-ICST-MIPL/MKVSE-TOMM2023

做了什么？
#

定义了跨模态检索任务：将根据文本提供的几何拓扑关系，并检索变换后的图像

提出了一个数据集，用于该任务

数据集
#

怎么做？
#

对比学习

效果
#