Skip to main content
  1. PaperReading/
  2. NIPS/

Achieving Cross Modal Generalization with Multimodal Unified Representation

NIPS 2023

问题:

一、如何将不同模态中具有相同语义的信息提取出来,同时避免 modality-specific 信息的干扰;(粒度不够细)

二、如何将这些具有相同语义的不同模态用统一的 codebook 表征。(对齐不够齐)

目标:

将各个模态的任务转换成离散空间的任务

img