Sora爆火,多模态大模型背后的存算思考

2024-03-13 18:12

本文主要是介绍Sora爆火,多模态大模型背后的存算思考,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

       近日,随着OpenAI推出Sora,人工智能从文本到文本、文本到图片的生成模式,进阶到文生视频。其文本到视频的模型能够生成长达一分钟的视频,在保持视觉质量的同时并严格遵循用户的提示,使得“扔进一本小说,生成一部电影”的想法成为现实。OpenAI将这一创新描述为构建“物理世界的通用模拟器”,这不仅是一项技术突破,也是人工智能领域探索的又一里程碑。

1、Sora展示

     本页所有视频均由Sora直接生成,未经修改

1、提示词:两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频。

图片

2 提示词:一窝金毛猎犬小狗在雪地里玩耍。他们的头从雪中探出头来,身上覆盖着雪。

图片

3 提示词:一个时髦的女人走在东京的街道上,到处都是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙、黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色的口红。她走起路来自信而随意。街道是潮湿和反光的,创造了一个彩色灯光的镜子效果。许多行人走来走去。

图片

4、提示词:几只巨大的长毛猛犸象穿过一片白雪覆盖的草地,它们长长的毛茸茸的皮毛在风中轻拂,远处白雪覆盖的树木和戏剧性的雪山,午后的光线与缕缕的云和远处的太阳创造了温暖的光芒,低相机的视角是惊人的,捕捉到了美丽的摄影,景深的大型毛茸茸的哺乳动物。

图片

5、提示词:这是一部电影预告片,讲述了30岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐沙漠,电影风格,用35毫米胶片拍摄,色彩鲜艳。

图片

官网链接:https://openai.com/sora

     为了展示自身实力,OpenAI还在官网上直接放出了48个Sora生成且未经修改的视频。这些视频时长不等,8-60秒,画面质量符合提示词,效果炸裂。感兴趣的朋友可以去官网查看。

2、多模态数据存储

     以Sora的数据采集阶段为例,训练文本到视频的生成系统需要大量带有对应文字说明的视频。Sora的技术报告中提到,他们采用了在DALL-E 3中引入的重新标注技术应用于对视频语言的理解,仅在数据标注阶段就需要采用约10亿级数据量来对单一模型进行多达50万余次的训练,在此过程中产生的图文对数据量轻松达到PB级。面对复杂的多模态数据存储与管理挑战,单一协议的存储解决方案显然已无法满足现阶段的需求。因此,能够高效处理AIGC数据采集阶段的结构化与非结构化数据的存储解决方案,是当前存储厂商共同寻求的解决之道。

2.1 多层次存储

     DRAM和Flash分属不同的存储器层次, 经常在下游应用中搭配使用。 处理器从内存中读取数据, 而内存从闪存中加载数据。 DRAM属于易失性存储器, 使用电容存储, 必须隔一段时间刷新, 一旦停止刷新存储的信息就会丢失。 而Flash属于非易失性的存储, 在断电后不会丢失数据, 是在ROM的基础上演进而来。 DRAM读写速度比Flash快、 成本高、 功耗较大、 寿命长、 结构简单集成度高, Flash的优势在于容量大、 成本低。

2.2 分布式融合存储方案

     在数据类型不一致、数据量巨大的情况下,为了保证多模态大模型更高效地训练,一套能够提供多种服务与协议的存储集群是极佳的选择。分布式融合存储设计恰好解决了生成式AI数据采集阶段的这一问题,即一个存储池内支持文本、图片、音频、视频等多类型数据存储,一套存储实现多模态场景应用;应用间无需数据迁移,实现真正的数据实时共享,空间节省75%以上,且集群支持最多扩展至10240个节点。融合存储设计解决了大语言模型在数据采集阶段数据维度多、小文件数量多的问题,实现了对多元数据的高效存储和科学管理。

摘自: “浪潮存储”公众号

2.3 高带宽内存HBM

目前,HBM产品以HBM(第一代)、HBM2(第二代)、HBM2E(第三代)、HBM3(第四代)、HBM3E(第五代)的顺序开发,最新的HBM3E是HBM3的扩展版本。

    HBM每一次更新迭代都会伴随着处理速度的提高。引脚(Pin)数据传输速率为1Gbps的第一代HBM,发展到其第五产品HBM3E,速率则提高到了8Gbps,即每秒可以处理1.225TB的数据。也就是说,下载一部长达163分钟的全高清(Full-HD)电影(1TB)只需不到1秒钟的时间。

当然,存储器的容量也在不断加大:HBM2E的最大容量为16GB,目前,三星正在利用其第四代基于EUV光刻机的10nm制程(14nm)节点来制造24GB容量的HBM3芯片,此外8层、12层堆叠可在HBM3E上实现36GB(业界最大)的容量,比HBM3高出50%。

    随着AI大模型、智能驾驶等新技术的崛起,人们对高带宽的内存的需求越来越多。

    首先,AI服务器的需求会在近两年爆增,如今在市场上已经出现了快速的增长。AI服务器可以在短时间内处理大量数据,GPU可以让数据处理量和传输速率的大幅提升,让AI服务器对带宽提出了更高的要求,而HBM基本是AI服务器的标配。

3、多模态下的算力

     根据财联社和OpenAI数据, ChatGPT浪潮下算力缺口巨大,根据OpenAI数据,模型计算量增长速度远超人工智能硬件算力增长速度, 存在万倍差距。尤其是多模态大模型的运算规模的增长,带动了对AI训练芯片单点算力提升的需求, 并对数据传输速度提出了更高的要求。根据智东西数据,过去五年,大模型发展呈现指数级别,部分大模型已达万亿级别, 因此对算力需求也随之攀升。

      对于多模态大模型来说,算力的重要性主要体现在以下几个方面:

  1. 训练速度:多模态大模型的训练通常需要大量的数据和计算资源。拥有更强的算力可以加快模型的训练速度,从而更快地得到满意的模型效果。

  2. 模型规模:随着模型规模的增大,其能够捕捉和表示的信息也越多,但同时所需的算力也呈指数级增长。因此,强大的算力是支撑更大规模模型训练和推理的关键。

  3. 复杂任务的处理:多模态大模型通常用于处理复杂的任务,如跨模态检索、视觉问答等。这些任务需要模型具备强大的特征提取和融合能力,而这离不开算力的支持。

  4. 实时性和效率:对于某些需要实时响应的应用场景,如自动驾驶、智能客服等,算力决定了模型能否在有限的时间内完成推理并给出结果。

    为了提升多模态大模型的算力,通常会采用以下方法:

  1. 使用高性能硬件:如GPU、TPU等专用加速器,这些硬件可以并行处理大量的计算任务,从而大幅提升算力。

  2. 分布式训练:通过将模型和数据分布到多个计算节点上进行训练,可以显著加快训练速度并减少单个节点的计算压力。

  3. 优化算法和模型结构:通过改进训练算法和模型结构,可以在不增加硬件投入的情况下提升算力利用率和模型性能。

    同时,数据质量、模型设计、任务复杂性等因素同样会影响模型的最终性能。因此,在实际应用中需要综合考虑各种因素来优化模型的训练和推理过程。

4、存储一体的趋势

    算力发展速度远超存储,存储带宽限制计算系统的速度,在过去二十年,处理器性能以每年大约55%的速度提升,内存性能的提升速度每年只有10%左右。因此,目前的存储速度严重滞后于处理器的计算速度。能耗方面, 从处理单元外的存储器提取所需的时间往往是运算时间的成百上千,因此能效非常低;“存储墙”成为加速学习时代下的一代挑战,原因是数据在计算单元和存储单元的频繁移动。

    存储墙、带宽墙和功耗墙成为首要限制关键,在传统计算机架构中,存储与计算分离,存储单元服务于计算单元,因此会考虑两者优先级;如今由于海量数据和AI加速时代来临,不得不考虑以最佳的配合方式为数据采集、传输、处理服务,然而存储墙、 带宽墙和功耗墙成为首要挑战,虽然多核并行加速技术也能提升算力,但在后摩尔时代,存储带宽制约了计算系统的有效带宽,芯片算力增长步履维艰。

    存算一体(Computing in Memory) 是在存储器中嵌入计算能力, 以新的运算架构进行二维和三维矩阵乘法/加法运算。 存算一体技术直接利用存储器进行数据处理或计算, 从而把数据存储与计算融合在同一个芯片的同一片区之中, 可以彻底消除冯诺依曼计算架构瓶颈。 存算一体的优势是打破存储墙,消除不必要的数据搬移延迟和功耗, 并使用存储单元提升算力, 成百上千倍的提高计算效率, 降低成本。

    存算一体有Flash、 SRAM、 DRAM等成熟存储介质, 同时ReRAM、 MRAM等新型存储介质也在快速发展。 根据存储介质的不同, 存内计算芯片可分为基于传统存储器和基于新型非易失性存储器两种。 传统存储器包括SRAM, DRAM和Flash等;新型非易失性存储器包括ReRAM, PCM, FeFET, MRAM等。 其中, 距离产业化较近的是基于NOR Flash和基于SRAM的存内计算芯片。

    存算一体需求旺盛,有望推动下一阶段的人工智能发展,原因是我们认为现在存算一体主要AI的算力需求、并行计算、神经网络计算等; 大模型兴起,存算一体适用于从云至端各类计算, 端测方面, 人工智能更在意及时响应,即“输入”即“输出”,目前存算一体已经可以完成高精度计算; 云端方面,随着大模型的横空出世,参数方面已经达到上亿级别,存算一体有望成为新一代算力因素; 存算一体适用于人工智能各个场景,如穿戴设备、移动终端、智能驾驶、数据中心等。 我们认为存算一体为下一代技术趋势并有望广泛应用于人工智能神经网络相关应用、感存算一体,多模态的人工智能计算、类脑计算等场景。
 

参考资料

1. 电子与信息学报《存内计算芯片研究进展及应用》

2. https://zhuanlan.zhihu.com/p/671539540

3.中航证券《存储专题系列一:新应用发轫,存力升级大势所趋》

4.华金证券《“走进芯时代:HBM迭代,3D混合键合成设备材料发力点”》

5. "浪潮存储"公众号https://mp.weixin.qq.com/s/tKljh39m_EpGRY9iZPROKA

6. 华西证券《ChatGPT:存算一体,算力的下一极》

这篇关于Sora爆火,多模态大模型背后的存算思考的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/805736

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

【编程底层思考】垃圾收集机制,GC算法,垃圾收集器类型概述

Java的垃圾收集(Garbage Collection,GC)机制是Java语言的一大特色,它负责自动管理内存的回收,释放不再使用的对象所占用的内存。以下是对Java垃圾收集机制的详细介绍: 一、垃圾收集机制概述: 对象存活判断:垃圾收集器定期检查堆内存中的对象,判断哪些对象是“垃圾”,即不再被任何引用链直接或间接引用的对象。内存回收:将判断为垃圾的对象占用的内存进行回收,以便重新使用。