Skip to main content
  1. PaperReading/
  2. NIPS/

Towards Semi-Structured Automatic ICD Coding via Tree-based Contrastive Learning

NIPS 2023

ICD编码任务的典型范式(仅供介绍任务,并非创新点)

img

病历报告是结构多样化的长文本,同时由于疾病的长尾分布而使得分类变得困难,而许多之前的工作忽略了结构信息,单纯作为一个长序列进行建模

目的是希望模型能够克服文本结构的多样性,在进行不同方面的ICD编码时能够正确定位到合适的语段(个人认为,这个思路非常好,它意识到了长文本实际上是由不同侧重的语段构成的,合理的注意力非常重要)

img

认为在每个报告中都出现、且只出现一次的词组是语段的划分关键词,筛选出关键词后,即可将长文本划分成多个语段,并通过打乱顺序和掩码操作,让模型习得文章篇章结构的多样性

img

通过层次树来进行对比学习

img

在MIMIC-50上取得了提升

img

在MIMIC-III-50-rare提升更明显

img

消融实验证明了这些即插即用模块的效果

img

另外通过数据证明了MIMIC III是分类难度较大的长文本数据集

img