将图像和报告都投射到知识空间进行表达。
- Knowledge Graph
- 构建图谱
- Abnormalities and normalities (by computing co-occurance in report corpus)
- 使用GNN对知识进行编码
- Knowledge-driven Encoder
将图像和报告都利用知识embedding进行表达
$$ g_I=KE_I(I,g) $$
$$ g_R=KE_R(R,g) $$
- Knowledge-driven Decoder
基于之前的所有输出来预测Report的下一个输出,并通过注意力机制整合知识空间中的信息 $$ h_t=Att(x_t,x_{1:t}) $$
$$ h_t^`=KA(h_t,g_k,B) $$
使用Knowledge Bank来获取细粒度的知识,其中B是由网络进行端到端学习的
$$ B_k=Softmax(g_kB^T)B $$
- 训练
自监督:训练时R->G->R,推断时I->G->R
半/全监督:I->G->R(半监督则先无监督预训练)