Towards Semi-Structured Automatic ICD Coding via Tree-based Contrastive Learning

ICD编码任务的典型范式（仅供介绍任务，并非创新点）

病历报告是结构多样化的长文本，同时由于疾病的长尾分布而使得分类变得困难，而许多之前的工作忽略了结构信息，单纯作为一个长序列进行建模

目的是希望模型能够克服文本结构的多样性，在进行不同方面的ICD编码时能够正确定位到合适的语段（个人认为，这个思路非常好，它意识到了长文本实际上是由不同侧重的语段构成的，合理的注意力非常重要）

认为在每个报告中都出现、且只出现一次的词组是语段的划分关键词，筛选出关键词后，即可将长文本划分成多个语段，并通过打乱顺序和掩码操作，让模型习得文章篇章结构的多样性

通过层次树来进行对比学习

在MIMIC-50上取得了提升

在MIMIC-III-50-rare提升更明显

消融实验证明了这些即插即用模块的效果

另外通过数据证明了MIMIC III是分类难度较大的长文本数据集