飞前专题

B站视频“多模态大模型,科大讯飞前NLP专家串讲”记录

文章目录 多模态:对齐 -- align迁移学习和zero-shotClipBlip 多模态: 图片、文字、视频、语音等不同的表征。 表示信息的方式有多种,但是不同的表示方式携带的信息不完全相同。 对齐 – align 如第一个图中,文字内容的描述和图片内容对应。 用不同单模态的模型将四种不同形式的”dog“表征成一个空间向量,可以发现虽然内容是同一个但是距离很远,所以想