↓Skip to main content

KG-MTT-BERT: Knowledge Graph Enhanced BERT for Multi-Type Medical Text Classification

Arxiv KG 2022

key idea
#

中文病历报告的疾病分类工作

使用bert分别处理病历报告的各个字段，探讨了不同尺度和不同池化方式对结果的影响
- max-pooling比CLS更好
- 序列长度大于64时，效果较好
- 大体上损失函数收敛更快、更低，同时精度提升最快
使用KG、图嵌入和图网络增强了分类
- 图嵌入:KG2E
- 推测：词语级别的医学实体编码相比单字级别的中文分词编码，引入了额外的信息，因此能提升性能

数据集规模大概在几万例样本，几百类疾病，各个字段的长度差异较大，entity也比较少