B站视频“多模态大模型,科大讯飞前NLP专家串讲”记录

2023-10-14 01:21

本文主要是介绍B站视频“多模态大模型,科大讯飞前NLP专家串讲”记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 多模态:
  • 对齐 -- align
  • 迁移学习和zero-shot
  • Clip
  • Blip

多模态:

图片、文字、视频、语音等不同的表征。
表示信息的方式有多种,但是不同的表示方式携带的信息不完全相同。
在这里插入图片描述

对齐 – align

如第一个图中,文字内容的描述和图片内容对应。
在这里插入图片描述
用不同单模态的模型将四种不同形式的”dog“表征成一个空间向量,可以发现虽然内容是同一个但是距离很远,所以想要用某种方式让四个点靠近一个点去,如果能变成一个点最好。

迁移学习和zero-shot

迁移学习:机器学习 – 首先在一个大数据集中跑模型,然后将预训练模型在自己的小数据集上进行微调。
在这里插入图片描述
zero-shot:通过学习类别之间的关系和属性,使得模型能够在没有见过的类别上进行准确的分类。
解决了传统机器学习中的一个重要问题,即在没有足够标记样本的情况下,如何对新类别的样本进行分类。传统的监督学习算法需要大量标记样本来训练模型,但在现实世界中,获取大量标记样本可能是困难、耗时和昂贵的。这种能力对于处理大规模、多类别的问题非常有用,可以扩展模型的应用范围和适应性。

Clip

在这里插入图片描述
左侧训练时,通过一个对角为1的标签方阵,在大量正向传播和反向传播时逼着image encoding和text encoding优化,使两个编码后的向量对齐。有两个问题:

  • 数据是没有经过处理的,可能有噪声,弱对齐
  • 比如文本描述的是dog,但是可能不只有一个图片含有dog,按理来说标签矩阵不应该只是对角线有1
    所以需要很大的数据集和很大的批次加速模型收敛。(该模型使用批次30000)

右侧使用时,对于 zero-shot 预测时,在分类中添加所有可能的类别,使用训练好的两个编码器,进行编码,计算相似度,即可预测出图像。

相对于以往模型的优点

  • 训练完之后不需要微调,直接使用两个编码器
  • 分类的类别加多少都可以,不像以往的分类只能在预测前确定好

作用:可以用文本推理图片,或者图片推理文本,图片搜图片,文本匹配文本
例如:1. 输入图片,匹配文字
在这里插入图片描述
2.文本匹配文本
在这里插入图片描述

Blip

既能完成图文匹配,又能完成文本生成。
在这里插入图片描述
第一个:图片编码后输入,经过类似于transform编码器结构输出词向量 --》相对齐的文本编码后经过类似于bert的双向编码注意力机制,经过feed forward (也是类似于transform的encoder)得到文本向量 --》 二者做对比学习,使两个编码器得到的向量对齐

第二个:与第一个相同的模块,中间加了一个 transform解码器中与编码器输出共同做注意力的模块,融合文本和图像的特征 --》 最后做二分类任务,此处的二分类需要输入的负样本较难(即与正样本难以区分),所以此处的负样本是在第一个中对比学习中分类分错的。输入到第二个中判断文本和图像是不是说的同一件事(二分类)。相对于第一个更细粒度。

第三个:掩码输入,结合图像特征生成下一个对于图像的描述的词。causal self-att 是一个单向的,类似于GPT。

在这里插入图片描述
可以对数据进行清洗, I I I代表图像, T T T代表文本, w w w表示在网上爬下来的数据,若监督的, h h h表示人工标注好的,正确匹配的, T s T_s Ts表示生成的文本。
弱监督和强监督传入模型进行训练,然后分为两个模型:
对于图文匹配的模型,将正对的文本对传入再进行训练,使模型更正确,然后将弱监督对传入,判断是不是匹配,如果不匹配,则抛弃。
对于文本生成模型,也将正确的样本传入进行再训练,然后对未知文本的图像进行生成文本,然后扔到匹配模型里判断是否匹配,如果不匹配则扔掉,最后的数据集里包括的则是原来的正确数据集和预测后的匹配图像文本对。
得到的就是清洗后的图像文本对。
在这里插入图片描述

这篇关于B站视频“多模态大模型,科大讯飞前NLP专家串讲”记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/207164

相关文章

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据

关于rpc长连接与短连接的思考记录

《关于rpc长连接与短连接的思考记录》文章总结了RPC项目中长连接和短连接的处理方式,包括RPC和HTTP的长连接与短连接的区别、TCP的保活机制、客户端与服务器的连接模式及其利弊分析,文章强调了在实... 目录rpc项目中的长连接与短连接的思考什么是rpc项目中的长连接和短连接与tcp和http的长连接短

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

Python实现NLP的完整流程介绍

《Python实现NLP的完整流程介绍》这篇文章主要为大家详细介绍了Python实现NLP的完整流程,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 编程安装和导入必要的库2. 文本数据准备3. 文本预处理3.1 小写化3.2 分词(Tokenizatio

Servlet中配置和使用过滤器的步骤记录

《Servlet中配置和使用过滤器的步骤记录》:本文主要介绍在Servlet中配置和使用过滤器的方法,包括创建过滤器类、配置过滤器以及在Web应用中使用过滤器等步骤,文中通过代码介绍的非常详细,需... 目录创建过滤器类配置过滤器使用过滤器总结在Servlet中配置和使用过滤器主要包括创建过滤器类、配置过滤

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

正则表达式高级应用与性能优化记录

《正则表达式高级应用与性能优化记录》本文介绍了正则表达式的高级应用和性能优化技巧,包括文本拆分、合并、XML/HTML解析、数据分析、以及性能优化方法,通过这些技巧,可以更高效地利用正则表达式进行复杂... 目录第6章:正则表达式的高级应用6.1 模式匹配与文本处理6.1.1 文本拆分6.1.2 文本合并6