Xu Zhang's Blog/ PaperReading/ Others/ MKVSE: Multimodal Knowledge Enhanced Visual-semantic Embedding for Image-text Retrieval/ MKVSE: Multimodal Knowledge Enhanced Visual-semantic Embedding for Image-text Retrieval TOMM 2023 代码🔗:https://github.com/PKU-ICST-MIPL/MKVSE-TOMM2023 做了什么? # 定义了跨模态检索任务:将根据文本提供的几何拓扑关系,并检索变换后的图像 提出了一个数据集,用于该任务 数据集 # 怎么做? # 对比学习 效果 #