↓Skip to main content

Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting

NIPS 2023

112d2ba8-ee45-4a48-9a8c-fa6fe193b4c8

主任务：视觉知识抽取，分解为目标检测和文本生成

目标检测：Relation-centric（bbox改成subject和object联合区域，分类器目标改成关系类别
文本生成：改Loss，惩罚相似的生成
数据增强：使用KG、LLM扩充知识（从常识库中补充更多的关系，将主语替换为同义词）；丢弃频繁知识（魔改TF-IDF）；

并不是凭空抽取知识，训练依赖细粒度的标注（BBox，知识），数据集Visual Geonome

下游任务：文本检索图像，图像识别文本，VQA

模型：检测：ResNet+FPN，多模态生成：VIT-B-16+BLIP/CLIP（依赖大规模预训练）