ICD编码任务的典型范式(仅供介绍任务,并非创新点)
病历报告是结构多样化的长文本,同时由于疾病的长尾分布而使得分类变得困难,而许多之前的工作忽略了结构信息,单纯作为一个长序列进行建模
目的是希望模型能够克服文本结构的多样性,在进行不同方面的ICD编码时能够正确定位到合适的语段(个人认为,这个思路非常好,它意识到了长文本实际上是由不同侧重的语段构成的,合理的注意力非常重要)
认为在每个报告中都出现、且只出现一次的词组是语段的划分关键词,筛选出关键词后,即可将长文本划分成多个语段,并通过打乱顺序和掩码操作,让模型习得文章篇章结构的多样性
通过层次树来进行对比学习
在MIMIC-50上取得了提升
在MIMIC-III-50-rare提升更明显
消融实验证明了这些即插即用模块的效果
另外通过数据证明了MIMIC III是分类难度较大的长文本数据集