Skip to main content
  1. PaperReading/
  2. Arxiv/

TocBERT: Medical Document Structure Extraction Using Bidirectional Transformers

Arxiv 2024

在MIMIC III上首次完成了topical text segmentation任务,该任务主要是基于相邻句向量之间的相似度。

image-20240703223847897

首先使用句嵌入模型将token序列压缩为句向量,然后再使用句序列模型对句子之间的语义突变关系进行建模。

image-20240703224213496

在MIMIC III数据集中,discharge summaries只占很少的一部分,约60k份报告,而它的token数集中在1500左右。

image-20240703232217255

层次化文本分割:划分子标题

image-20240703232504970

线性文本分割:不划分子标题

在各个任务上,TocBERT相比规则匹配的方法TocRegex,前者基于后者的标注作训练,却能在测试集上取得更好的效果

image-20240703232014075

TocBERT的一个可能的作用是构建标题和子标题的本体论(KG可以看成是本体论的一个应用)