腾讯云存储面向AIGC全面升级,搭载全面自研存储引擎

2024-04-08 14:52

本文主要是介绍腾讯云存储面向AIGC全面升级,搭载全面自研存储引擎,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 云厂商继续为大模型加速落地铺路架桥。

4月8日,腾讯云宣布云存储解决方案面向AIGC场景全面升级,能够针对AI大模型数据采集清洗、训练、推理、数据治理全流程提供全面、高效的云存储支持。数据显示,采用腾讯云AIGC云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。

据介绍,腾讯云AIGC云存储解决方案主要由对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等产品组成,是国内首个实现存储引擎全面自研的云存储解决方案。目前,已经有80%的头部大模型企业选择了腾讯云AIGC云存储解决方案,包括百川智能、智谱、元象等明星大模型企业。

此前,腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、向量数据库、以及行业大模型服务MaaS等大模型全链路云服务。

腾讯集团副总裁、腾讯云与智慧产业事业群COO兼腾讯云总裁邱跃鹏曾经表示,大模型将开创下一代云服务,腾讯云致力于打造“最适合大模型的云”。

解决大模型全链路数据处理难题

AI大模型的研发生产流程,分成数据采集与清洗、模型训练、推理三大环节,各环节都涉及海量的数据处理。

在数据采集与清洗环节,由于原始训练数据规模海量,且来源多样,对存储技术提出了多协议支持、高性能、大带宽的需求。

腾讯云对象存储COS支持单集群管理百 EB 级别存储规模,提供便捷、高效的数据公网接入能力,并支持多种协议,充分支持大模型PB级别的海量数据采集。在数据清洗环节,大数据引擎需要快速地读取并过滤出有效数据,COS通过自研数据加速器GooseFS提升数据访问性能,可实现高达数TBps的读取带宽,支撑计算高速运行,大大提升数据清洗效率。

在模型训练环节,通常需要每2-4小时保存一次训练成果,以便能在GPU故障时时能回滚,因此快速地读写checkpoint(检查点)文件也成了能否高效利用算力资源、提高训练效率的关键。

腾讯云自主研发并行文件存储CFS Turbo ,面向AIGC训练场景的进行了专门优化,每秒总读写吞吐达到TiB/s级别,每秒元数据性能高达百万OPS,均为业界第一。3TB checkpoint 写入时间从10分钟,缩短至10秒内,使大模型训练效率大幅提升。

大模型推理场景对数据安全与可追溯性提出更高要求。腾讯云数据万象CI为此提供图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力,为数据生产从“用户输入——预处理——内容审核——版权保护——安全分发——信息检索“业务全流程提供有力支撑,优化AIGC内容生产与管理模式,顺应监管导向,拓宽存储边界。

同时,随着训练数据和推理数据的增长,需要提供低成本的存储能力,减少存储开销。对象存储服务提供了高达 12 个 9 的数据持久性和 99.995% 的数据可用性,能够为业务提供持续可用的存储服务。

业内唯一全自研存储引擎

卓越的性能表现,源自腾讯云自主研发的存储引擎与自研技术。这也是国内目前唯一实现存储引擎全面自研的云存储解决方案。

腾讯云自研的分布式对象存储引擎YottaStore,支持任意多副本及纠删码冗余模式并存,在大幅提升可用性、可靠性及性能的同时大幅降低成本。基于YottaStore,腾讯云对象存储服务COS作为统一的数据存储池,支持单集群1万台服务器,单集群百EB级的存储。

在数据清洗环节中,数据加速器GooseFS可根据数据的使用频率,将数据智能存储至内存、计算集群的本地盘、或可用区的全闪存储集群等不同级别的缓存中,低成本缩短IO路径,提升数据访问性能。相比起从对象存储COS中直接读取,GooseFS可以提供亚毫秒级的数据访问延迟、百万级的IOPS和Tbps级别的吞吐能力,有效提升数据清洗效率。

面向模型训练场景的CFS Turbo,则是目前业内唯一自研的并行文件存储系统。

基于自研分布式高性能存储引擎Histor,CFS Turbo底层通过自研用户态协议栈和RDMA等技术,减少数据的多次拷贝与虚拟化消耗,大幅降低了存储时延、提升吞吐性能;在应用侧,CFS Turbo自研并行文件传输协议,实现了多链路并行访问,大大提升了吞吐效率。原来的文件存储受限于传统NFS协议,单客户端只能单链路访问,也导致吞吐存在性能瓶颈。

此外,针对AIGC的checkpoint记录、大视频文件读写、小图片读写等场景,腾讯云CFS Turbo还自研了分级缓存、自适应条带化、分布式元数据的技术,大幅提升了AIGC场景下的读写性能。除了大模型企业以外,CFS Turbo也被广泛应用于自动驾驶与工业仿真场景,包括博世汽车、蔚来等自动驾驶厂商,上海电气、深势等仿真场景,墨镜天合、追光等影视特效场景。

今年1月,在沙利文联合头豹研究院发布的《2023年中国云存储解决方案市场报告》中,腾讯云存储入选“领导者”阵营,位列第一。随着AIGC时代来临,腾讯云也在不断迭代优化自身产品,服务最新场景需求,帮助企业把握时代红利。

这篇关于腾讯云存储面向AIGC全面升级,搭载全面自研存储引擎的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/885903

相关文章

将Mybatis升级为Mybatis-Plus的详细过程

《将Mybatis升级为Mybatis-Plus的详细过程》本文详细介绍了在若依管理系统(v3.8.8)中将MyBatis升级为MyBatis-Plus的过程,旨在提升开发效率,通过本文,开发者可实现... 目录说明流程增加依赖修改配置文件注释掉MyBATisConfig里面的Bean代码生成使用IDEA生

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.

Java实现数据库图片上传与存储功能

《Java实现数据库图片上传与存储功能》在现代的Web开发中,上传图片并将其存储在数据库中是常见的需求之一,本文将介绍如何通过Java实现图片上传,存储到数据库的完整过程,希望对大家有所帮助... 目录1. 项目结构2. 数据库表设计3. 实现图片上传功能3.1 文件上传控制器3.2 图片上传服务4. 实现

C语言中的浮点数存储详解

《C语言中的浮点数存储详解》:本文主要介绍C语言中的浮点数存储详解,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、首先明确一个概念2、接下来,讲解C语言中浮点型数存储的规则2.1、可以将上述公式分为两部分来看2.2、问:十进制小数0.5该如何存储?2.3 浮点

MySQL常见的存储引擎和区别说明

《MySQL常见的存储引擎和区别说明》MySQL支持多种存储引擎,如InnoDB、MyISAM、MEMORY、Archive、CSV和Blackhole,每种引擎有其特点和适用场景,选择存储引擎时需根... 目录mysql常见的存储引擎和区别说明1. InnoDB2. MyISAM3. MEMORY4. A

Golang基于内存的键值存储缓存库go-cache

《Golang基于内存的键值存储缓存库go-cache》go-cache是一个内存中的key:valuestore/cache库,适用于单机应用程序,本文主要介绍了Golang基于内存的键值存储缓存库... 目录文档安装方法示例1示例2使用注意点优点缺点go-cache 和 Redis 缓存对比1)功能特性

linux环境openssl、openssh升级流程

《linux环境openssl、openssh升级流程》该文章详细介绍了在Ubuntu22.04系统上升级OpenSSL和OpenSSH的方法,首先,升级OpenSSL的步骤包括下载最新版本、安装编译... 目录一.升级openssl1.官网下载最新版openssl2.安装编译环境3.下载后解压安装4.备份

Python中配置文件的全面解析与使用

《Python中配置文件的全面解析与使用》在Python开发中,配置文件扮演着举足轻重的角色,它们允许开发者在不修改代码的情况下调整应用程序的行为,下面我们就来看看常见Python配置文件格式的使用吧... 目录一、INI配置文件二、YAML配置文件三、jsON配置文件四、TOML配置文件五、XML配置文件

MySQL InnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据

《MySQLInnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据》mysql的ibdata文件被误删、被恶意修改,没有从库和备份数据的情况下的数据恢复,不能保证数据库所有表数据... 参考:mysql Innodb表空间卸载、迁移、装载的使用方法注意!此方法只适用于innodb_fi