Skip to main content
  1. PaperReading/
  2. Arxiv/

KG-MTT-BERT: Knowledge Graph Enhanced BERT for Multi-Type Medical Text Classification

Arxiv KG 2022

key idea
#

中文病历报告的疾病分类工作

img

  1. 使用bert分别处理病历报告的各个字段,探讨了不同尺度和不同池化方式对结果的影响

    • max-pooling比CLS更好

    • 序列长度大于64时,效果较好

    • 大体上损失函数收敛更快、更低,同时精度提升最快

      img

  2. 使用KG、图嵌入和图网络增强了分类

    • 图嵌入:KG2E
    • 推测:词语级别的医学实体编码相比单字级别的中文分词编码,引入了额外的信息,因此能提升性能

数据集规模大概在几万例样本,几百类疾病,各个字段的长度差异较大,entity也比较少