Skip to main content
  1. PaperReading/
  2. Others/

Automatic ICD Coding Exploiting Discourse Structure and Reconciled Code Embeddings

COLING 2022

image-20240705203610710

  1. Backbone:biLSTM
  2. Discourse Structure: 给不同的篇章加embedding,来帮助模型学习篇章结构
    • 加了embedding容易过拟合,所以加了个0.5的dropout
  3. Reconciled Code Embedding: 为了解决ICD Code和病历文本交互时的异质性
    • 从ICD Code和病历文本中学习向量各个维度的缩放比例、归纳偏置
    • 同时,增加罕见病的注意力学习权重,以缓解类别不平衡
    • 行云流水的魔改多尺度attention,配合了一些公式
  4. 可视化注意力得分高的区域,来展示模型的感兴趣部分
    • 计算量随类别数增加(N^2),因此无法处理超大类别

details
#

Adam学习率1e-5, Batch Size12, 正则化系数1e-4

image-20240705203743868

消融实验

image-20240705204201256

对比实验

Visualization
#

image-20240705204013187

把测试集的标签按照样本频次划分成了head set(1446,f>50), body set(1779, 5<f<50), tail set(860, <5)

image-20240705203807372

凸出了注意力得分高的区域,以展示模型的感兴趣部分

image-20240705203709422

可视化了各个类别的注意力二范数,$\tau$是正则化的缩放比例