Skip to main content
  1. PaperReading/
  2. CVPR/

Mukea: Multimodal knowledge extraction and accumulation for knowledge-based visual question answering

CVPR 2022

代码🔗

如何做VQA?
#

dac0ab01-dafe-4189-95ec-19d92a30c26c

本质:图谱补全(头+关系==预测==>尾)

基于神经网络来建模头节点和关系向量

如何训练?
#

基于TransE算法来实现逻辑推理关系,同时设计不同尺度的损失函数

  • 靠近正确答案,远离错误答案

$$ L_{transE}=\sum_{t^+\in A^+}\sum_{t^-\in A_-}[\gamma+d(h+r,t^+)-d(h+r,t^-)] $$

  • 靠近正确答案

$$ L_{Tri}=MSE(h+r,t^+) $$

  • 多个答案对比

    $$ P(t^+)=softmax(T^T(h+r)) $$

    $$ L_{Sem}=-log(P(t^+)) $$

为什么有效?
#

2f13f1e2-cb05-4dbb-bed2-7de9ff542535

因为能(结合图像)正确地捕捉到头部实体和关系,同时(多模态)知识库更完备

数据集
#

OKVQA and KRVQA