key idea #
中文病历报告的疾病分类工作
-
使用bert分别处理病历报告的各个字段,探讨了不同尺度和不同池化方式对结果的影响
-
max-pooling比CLS更好
-
序列长度大于64时,效果较好
-
大体上损失函数收敛更快、更低,同时精度提升最快
-
-
使用KG、图嵌入和图网络增强了分类
- 图嵌入:KG2E
- 推测:词语级别的医学实体编码相比单字级别的中文分词编码,引入了额外的信息,因此能提升性能
数据集规模大概在几万例样本,几百类疾病,各个字段的长度差异较大,entity也比较少