问题:
一、如何将不同模态中具有相同语义的信息提取出来,同时避免 modality-specific 信息的干扰;(粒度不够细)
二、如何将这些具有相同语义的不同模态用统一的 codebook 表征。(对齐不够齐)
目标:
将各个模态的任务转换成离散空间的任务
问题:
一、如何将不同模态中具有相同语义的信息提取出来,同时避免 modality-specific 信息的干扰;(粒度不够细)
二、如何将这些具有相同语义的不同模态用统一的 codebook 表征。(对齐不够齐)
目标:
将各个模态的任务转换成离散空间的任务