3月12日 工作记录 DeepSeek-VL阅读笔记

2024-03-13 04:36

本文主要是介绍3月12日 工作记录 DeepSeek-VL阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

昨天考完试,晚上把那个讨人厌的项目做了阶段结果给合作者展示去了,然后就看到deepseek发布了vision language的技术报告,于是打算今天上午看看。

DeepSeek VL

很多内容直接翻译自其 DeepSeek-VL,下面的我们指的的是deepseek vl的作者。

数据构建

预训练数据

我们努力确保我们的数据是多样化的,可扩展的,并广泛覆盖现实世界的场景,包括web截图,pdf, OCR,图表和基于知识的内容(专家知识,教科书),旨在全面表示实际环境。

此外,我们从真实用户场景中创建用例分类法,并相应地构建指令调优数据集。使用该数据集进行的微调实质上改善了模型在实际应用中的用户体验。
在这里插入图片描述

  • Interleaved image-text:交错的图像-文本数据使模型具有更好的上下文处理能力学习多模态输入,我们利用了三个公共数据集MMC4 (Zhu等人,2024)、Wiki (Burns等人,2023)、Wikihow (Yang等人,2021)和Epub教科书。
  • Image capture:图像说明数据来自三个高质量的图像-文本配对数据集:Capsfusion (Yu等人,2023a)、TaiSu (Liu等人,2022b)和Detailed caption (echo840, 2024)。表格和图表数据使模型能够学习通用表格和图表图像理解的能力。它包含了各种各样的公共数据源,包括Chart2text(Kantharaj 等人,2022)、Geo170K(Gao 等人,2023)、Unichart(Masry 等人,2023)、Ureader (Ye et al., 2023)、M-paper (Hu et al., 2023)、ScienceQA (Lu et al., 2022b)、ScreenQA (Hsiao et al., 2022)、SciGraphQA-295K (Li and Tajbakhsh, 2023)、Paper2figure100k(Rodriguez 等人,2023)、Widget Captioning(Li 等人,2020)、Screen2words(Wang 等人,2021)和 Refexp(Mao 等人,2016)。
  • Web Code:Web代码数据赋予模型从图形界面或可视化图重构代码的能力。利用Websight (HuggingFaceM4, 2024)进行UI逆渲染,我们采用了类似于MATCHA (Liu et al., 2022a)用于视觉图逆渲染的策略。这涉及处理来自Stack数据集的大约146万Jupyter笔记本(Kocetkov et al., 2023)。通过提取这些笔记本并整理所有图表及其对应的前面代码段,我们成功地策划了一个包含200万对图像和代码的集合。为了获得更好的数据质量,我们过滤了110万个实例,每个实例由单个图像加上至少5行代码组成,以构成我们的主要训练数据集。
  • Document Optical Character Recognition (OCR):文档光学字符识别(OCR)数据有助于在文档级别识别光学字符,即使在具有挑战性的现实场景中也是如此。据我们所知,目前还没有公开可用的包含英文和中文文档的大规模数据集。尽管存在可公开访问的小规模数据集Latex-OCR (Blecher, 2024),但我们还构建了一个全面的英文和中文OCR数据集。它由两部分组成:1):arXiv文章:我们从140万篇arXiv文章中收集源代码并编译pdf。利用Nougat(Blecher et al., 2023)的预处理工具,我们将这些文章渲染成成对的图像和文本;2):电子书和教育材料:我们从Anna’s Archive(Anna’s Archive,2024)中清理了860K英文和180K中文电子书,以及数百万K-12教育考试问题。随后,我们使用HTML渲染工具(Kulkarni和Truelsen)将这些具有不同模板的HTML文件转换为成对的图像和文本格式。
  • Scene text OCR :场景文本OCR数据增强了模型识别和从图像中提取文本的能力,在这些图像中,文本与环境融为一体。该数据集由多个公共数据集组成,包括ArT (Chng et al., 2019)、MLT-17 (Nayef et al., 2017)、LSVT (Sun et al., 2019)、UberText (Zhang et al., 2017)、Coco-text (Veit et al., 2016)、RCTW-17 (Shi et al., 2017)、ReCTS (Zhang et al., 2019)、TextOCR (Singh et al., 2021)、OpenVINO (Krylov et al., 2021)和HierText (Long et al., 2022)。
  • Text-only corpus: 纯文本语料库用于保持以语言为中心的任务的熟练程度。在本研究中,我们使用了与DeepSeek-LLM (DeepSeek-AI, 2024)相同的文本语料库。

有监督Fine-tuning数据

我们研究中使用的监督式调优数据集包含多种多模态和语言数据源,包括知名的开源共享gpt4v数据集,如ShareGPT4V (Chen等人,2023)、LAION- gptv (LAION, 2023)、lvisi - instruct4v (Wang等人,2023a)、textOCR-GPT4V (Carter, 2024)、llava16 - gpt4v (Liu等人,2024a)和IconQA (Lu等人,2021)。此外,我们结合了从预训练数据集中提取的部分表格和图表数据,如Ureader (Ye等人,2023)、ScreenQA (Hsiao等人,2022)、Geo170K (Gao等人,2023)和ScienceQA (Lu等人,2022b)。此外,我们整合了从Screen-to-code (Abi, 2024)任务中获得的UI Code数据集。为了提高我们多模态SFT数据的质量,我们还整理了一部分高质量的内部多模态SFT数据,其中一些数据是中文的。我们的内部指令调优数据集经过精心设计,以反映现实世界的使用场景,并涵盖广泛的任务。我们首先从各种在线来源收集GPT-4V和Gemini的各种真实测试用例。然后对这些测试用例进行仔细分析并组织成一个全面的分类法,该分类法包含识别、转换、分析、推理、评估和安全等多个类别,详见表3。这个结构化的分类法作为为每个测试图像选择代表性提示的指南,确保我们的指令调优数据集既实用又与现实世界的应用相关。此外,该分类法还用于构建平衡和全面的评估数据集,这使我们能够有效地评估模型在不同任务和类别中的性能。通过遵循这种系统化的方法,我们确保我们内部多模态SFT数据所涵盖的类别与分类法和实际使用场景的代表性很好地保持一致。

DeepSeek自建数据

在这里插入图片描述

模型架构

模型架构看代码就好了:https://github.com/deepseek-ai/DeepSeek-VL/tree/main/deepseek_vl/models

考虑到效率和大多数现实世界场景的需求,DeepSeek-VL集成了一个混合视觉编码器,可以在固定的令牌预算内有效地处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这种设计选择确保了模型在各种视觉任务中捕获关键语义和详细信息的能力。训练策略:我们假设一个熟练的视觉语言模型首先应该拥有强大的语言能力。为了确保在预训练期间保留LLM能力,我们研究了一种有效的VL预训练策略,从一开始就整合LLM训练,并仔细管理视觉和语言模式之间观察到的竞争动态。从关注文本开始,我们逐渐调整比例,以促进两种模式的平衡整合。DeepSeek-VL系列(13 b和7B型号)在实际应用中作为视觉语言聊天机器人展示了卓越的用户体验,在相同的模型尺寸下,在广泛的视觉语言基准测试中实现了最先进或具有竞争力的性能,同时在以语言为中心的基准测试中保持了稳健的性能。我们将13 b模型和7B模型都对外开放,在此基础上促进创新。

训练方法

总体分析

三步训练,如下图所示。

在这里插入图片描述
我们可以对比一下qwen-vl的训练pipeline:
在这里插入图片描述
DeepSeek的训练方法和LLaVA相比多了Stage3,和qwen-vl相比在每个stage冻结和训练的模块各有选择。

具体DeepSeek的训练过程:

  1. 首先训练vision language的adaptor,insight:adaptor的训练参数少,不适用scale law,所以使用适量的数据训练就好,过多反而有害。
  2. 进行stage 2训练的原因:

最初,我们尝试用多模态数据直接训练LLM。然而,我们发现,虽然多模态性能的指标逐渐提高,但语言指标却出现了明显而严重的下降,如图4所示(multimodal: language -100%:0%)。这强调了在LLM的基础上直接进行多模态预训练的内在挑战,揭示了提高多模态能力和保持语言熟练度之间的关键权衡。
我们认为这一现象主要源于两个因素:第一,大多数多模态语料库过于简单,与语言数据的复杂性和分布存在显著差异。其次,在多模态和语言模态之间似乎存在一种竞争动态,导致了LLM中语言能力的灾难性遗忘。

  • DeepSeek-VL训练中的一个核心实验观察是,在VLM训练中保证原本大模型的能力需要70%:30%的多模态、文本数据投入
    在这里插入图片描述
  1. 监督微调在这个阶段,我们通过基于指令的微调对预训练的DeepSeek-VL模型进行微调,以增强其遵循指令和参与对话的能力,最终创建交互式DeepSeek-VL- chat模型。

  2. DeepSeek-VL的训练参数设置
    在这里插入图片描述

这篇关于3月12日 工作记录 DeepSeek-VL阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/803654

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

Node.js学习记录(二)

目录 一、express 1、初识express 2、安装express 3、创建并启动web服务器 4、监听 GET&POST 请求、响应内容给客户端 5、获取URL中携带的查询参数 6、获取URL中动态参数 7、静态资源托管 二、工具nodemon 三、express路由 1、express中路由 2、路由的匹配 3、路由模块化 4、路由模块添加前缀 四、中间件

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

工作常用指令与快捷键

Git提交代码 git fetch  git add .  git commit -m “desc”  git pull  git push Git查看当前分支 git symbolic-ref --short -q HEAD Git创建新的分支并切换 git checkout -b XXXXXXXXXXXXXX git push origin XXXXXXXXXXXXXX

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓