Qwen-VL论文阅读

2024-06-05 00:20

文章标签 阅读论文 qwen vl

本文主要是介绍Qwen-VL论文阅读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文地址

其他同学的详细讲解

模型结构和参数大小

（1）LLM：Qwen-7B

（2）Vision Encoder：ViT架构，初始化参数是 Openclip’s ViT-bigG。

在训练和推理过程中，输入的图像都被调整到特定的分辨率。

视觉编码器通过将图像分割成步长为14 的块来处理图像，从而生成一组图像特征。

「 224 / 14 = 16 16 x 16 = 256」

（3）VL Adapter：Position-aware Vision-Language Adapter 位置感知视觉-语言适配器

主要作用是压缩图像特征、减少由长图像特征序列引起的效率问题。

这个Adapter 包括一个随机初始化的单层交叉注意力模块 cross-attention

这个模块的 query 是一组可训练的向量，key 是 Vision Encoder 输出的图像特征

「这里的query 经过不断地训练，在图文的对齐上起到了重要的作用」

这种机制将视觉特征序列压缩到 256 个固定长度。「查询向量的数量太少可能会导致部分视觉信息的丢失，而查询量过多则可能会增加收敛难度和计算成本」

整合 2D绝对位置编码到 cross attention 中 query 和 key，以减轻图像压缩时的损失

随后，将256长度的压缩图像特征输入给 LLM

在这里插入图片描述

Qwen-VL训练的3个阶段

在这里插入图片描述

（1）预训练阶段

用大规模、弱标注、网络爬虫抓取的 14亿图像文本对 数据集，其中 22.7% 中文数据

冻结 LLM的参数，仅对 Vision Encoder 和 VL Adapter 进行优化。

输入的图像大小调整为 224 x 224

训练目标是文本 token 的交叉熵

最大学习率 2e-4

batchsize为 30720个图像文本对

持续 50000步的训练

消耗约 15亿图像文本对的样本

这个阶段的目标是对齐 Vision Encoder 和LLM的特征

（2）多任务训练阶段

用高质量、细粒度的 VL 标注数据，采用更大分辨率和交错的图像文本对同时进行 7个任务的训练。

其中简单地通过将同一任务的数据打包成长度为 2048 的序列来构造交错的图像-文本数据（不同训练集的数据）

并且将 Vision Encoder的输入分辨率从 224 x 224 提升到 448 x 448，减少图像下采样造成的损失

训练目标和预训练阶段相同，但不冻结任一模块

这个阶段的目标是强化模型的多模态能力

（3）有监督微调阶段

通过指令微调对Qwen-VL预训练模型进行了微调，以增强其遵循指令和多轮对话能力，从而得到了交互式的Qwen-VL-Chat模型

通过优化这个阶段的训练数据，使得模型具备定位和多图像理解能力

同时，通过混合纯文本数据，使得模型具有通用对话能力

这部分指令微调数据总量是 350k

此阶段冻结 Vision Encoder 模块，优化 LLM 和 VL Adapter 模块参数

训练数据示例：

训练目标：回答和特殊标记（如下图蓝色部分）为了确保预测和训练之间的分布一致性
在这里插入图片描述

其他

Qwen-VL全新升级

注意：上述记录、忽略一些的细节，比如 input 和 output等

这篇关于Qwen-VL论文阅读的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Qwen-VL论文阅读

模型结构和参数大小

Qwen-VL训练的3个阶段

其他

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

AI hospital 论文Idea

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

论文阅读笔记: Segment Anything

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

OmniGlue论文详解（特征匹配）

软件架构模式：5 分钟阅读

BERT 论文逐段精读【论文精读】

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

【阅读文献】一个使用大语言模型的端到端语音概要