Skip to main content
  1. PaperReading/
  2. NIPS/

Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting

NIPS 2023

112d2ba8-ee45-4a48-9a8c-fa6fe193b4c8

主任务:视觉知识抽取,分解为目标检测和文本生成

  • 目标检测:Relation-centric(bbox改成subject和object联合区域,分类器目标改成关系类别
  • 文本生成:改Loss,惩罚相似的生成
  • 数据增强:使用KG、LLM扩充知识(从常识库中补充更多的关系,将主语替换为同义词);丢弃频繁知识(魔改TF-IDF);

并不是凭空抽取知识,训练依赖细粒度的标注(BBox,知识),数据集Visual Geonome

下游任务:文本检索图像,图像识别文本,VQA

模型:检测:ResNet+FPN,多模态生成:VIT-B-16+BLIP/CLIP(依赖大规模预训练)