飞前专题

B站视频“多模态大模型，科大讯飞前NLP专家串讲”记录

文章目录多模态：对齐 -- align迁移学习和zero-shotClipBlip 多模态：图片、文字、视频、语音等不同的表征。表示信息的方式有多种，但是不同的表示方式携带的信息不完全相同。对齐 – align 如第一个图中，文字内容的描述和图片内容对应。用不同单模态的模型将四种不同形式的”dog“表征成一个空间向量，可以发现虽然内容是同一个但是距离很远，所以想