Skip to main content
  1. PaperReading/
  2. NIPS/

GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph

NIPS KG 2023

image-20240707140828254

当预训练VLM迁移到新数据集时,首先对这个数据集中所有类别的文本和图像建立子图,然后基于这些子图来训练GCN进行进一步的微调,使VLM能适应新数据集上的新类别和新任务。

image-20240709221213438

通过调节模型在新数据集上的残差系数,模型可以更好的拟合新数据集,与此同时,在其他数据集上的泛化性会变得更差。

image-20240709221317131

本文方法是通过GCN和KG增强预训练VLM的文本特征,因此消融实验尝试了增强图像、同时增强图像和文本。

image-20240709221434197

通过调节图像和文本的融合比例、增强特征和原始特征的融合比例,可以取得更好的效果;Learnable不如手工调整;

image-20240709221534051

参数量和计算量处于合理水平

OpenReveiw主要质疑的是复杂度、规模扩展性和细粒度、开放世界问题。