EMERGE: Integrating RAG for Improved Multimodal EHR Predictive Modeling

Table of Contents

引入LLM和外部知识库KG来产生定性认识，然后根据定量数据产生精准描述。

RAG
#

对于时序数据，计算每个指标的均值和方差，偏离3倍标准差的认为是异常值，从而评估某个指标过低/过高；

如果某个指标出现在某个疾病的定义/描述中，则认为暗示这种疾病；

对于文本报告，使用LLM进行NER，并滤除不合法的实体（不在文本中，不是疾病名）

对于提取到的每一种疾病，检索相应节点的定义、描述、三元组，并使用LLM整合成文本。

每个模态用cross attention聚合另一模态的信息，再拼接到一起

时序数据占主导，文本和RAG能起到一定辅助作用

	功能	Tokens	Params	推理方式
Clinical-LongFromer	文本嵌入	512-4096
BGE-M3	实体嵌入	8182
Qwen Chat 7B	实体抽取	8192	7B
DeepSeek Chat	文本生成		236B	API