MiniMax:如何基于 JuiceFS 构建高性能、低成本的大模型 AI 平台

2024-09-03 02:52

本文主要是介绍MiniMax:如何基于 JuiceFS 构建高性能、低成本的大模型 AI 平台,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

MiniMax 成立于 2021 年 12 月,是领先的通用人工智能科技公司,致力于与用户共创智能。MiniMax 自主研发了不同模态的通用大模型,其中包括万亿参数的 MoE 文本大模型、语音大模型以及图像大模型。
基于不同模态的通用大模型,MiniMax 推出生产力工具 “海螺 AI” 、沉浸式 AI 内容社区 “星野” 等原生应用。MiniMax 开放平台为企业和开发者提供安全、灵活、可靠的 API 服务,助力快速搭建 AI 应用。

01 多模态大模型研发的存储挑战

作为一家初创公司,MiniMax 在构建基础设施时主要关注灵活性和成本效率。因此,公司选择在本地数据中心部署关键负载(如 GPU 资源),其它源则部署于云端,以便能够利用云平台的技术优势、弹性和灵活性。由此,MiniMax 采纳了结合本地数据中心与多云环境的混合云方案。鉴于底层基础设施的复杂性和管理挑战,公司采用 Kubernetes 作为基础设施的统一管理层。

存储层作为基础设施平台的关键组成部分,面临挑战主要如下:

  • 高性能:大模型的训练和推理需要处理和存储海量的数据,这不仅要求有高容量的存储解决方案,还需要保证数据的快速读写;
  • POSIX 兼容性:深度学习框架和算法工程师的日常工作都是基于 POSIX 接口,这就要求存储系统必须完全兼容 POSIX,否则会使得 AI 任务无法正常运行;
  • 混合云架构:计算资源,尤其是 GPU,分布在不同的地理区域以及由不同的服务商提供。为了让计算任务可以高效调度,存储系统需要可适用于各种服务商和硬件环境的方案,且具备高度的灵活性,支持跨区域的数据复制、访问和迁移;
  • 存储成本优化:随着数据量的不断增加,尤其是在大数据和 AI 应用领域,扩展存储容量的同时能够有效控制成本成为一大挑战。企业需要采用成本效益高的存储技术,同时确保这些技术能够与现有的 IT 架构无缝集成。

02 为什么选择 JuiceFS 企业版?

初期进行选型时,MiniMax 调研过 CephFS,它在元数据服务方面存在一些瓶颈。同时,MiniMax 也尝试过一些公有云服务的高性能文件存储方案,但最终由于成本过高而放弃。MiniMax 希望能够使用一种既具有足够灵活性和高度可扩展性,同时也能解决成本问题,以及可满足混合云架构的存储系统。

最终, MiniMax 选择了 JuiceFS 企业版作为公司级 AI 平台的存储底座,支持上层各类模型(包括文本大模型、语音大模型、图像大模型、多模态模型)在数据清洗、模型训练、模型推理等场景上的高性能数据访问需求。特别是在超大规模 GPU 集群分布式训练场景中,JuiceFS 优异的表现为模型迭代和 GPU 利用率的提升起到了关键作用。

  • 兼容性:支持 POSIX、HDFS 和 S3 接口,提供统一的存储方案以减少数据拷贝和迁移;
  • 优化 I/O 效率:通过多级缓存、预读和并发读取策略显著提升 I/O 性能;
  • 高性能元数据服务:自研的元数据服务能够处理每秒上百万的请求,响应时间在亚毫秒级,满足 AI 训练各阶段的严苛要求;
  • 多云/混合云数据管理:自动跨云和跨区域的数据复制,确保数据随计算迁移而自动同步,适合全球分布的计算需求;
  • 成本低:JuiceFS 通过其基于对象存储的设计显著降低了数据存储成本,使 MiniMax 能够利用成本效益高的对象存储。此外,JuiceFS 的简便运维也有助于降低 MiniMax 的总体成本。

03 混合云架构下,如何基于 JuiceFS 构建统一的存储系统?

最初,MiniMax 主要面临频繁的读操作需求,而写操作相对较少。为此,公司采用了 JuiceFS 的分布式缓存功能,使用 NVMe 全闪存加速读取操作。随着数据处理需求和集群建设的扩大,单个集群的能力已不足以满足 MiniMax 的需求。因此,MiniMax 基于 JuiceFS 构建了一个中心化的元数据分发引擎和一个能进行高速读写操作的边缘集群架构。

MiniMax 使用 JuiceFS 的镜像文件系统功能,将中心集群的元数据自动复制到各个边缘集群。边缘集群不存储实际数据,而是通过专线从中心集群预热数据到 JuiceFS 的分布式缓存,利用高性能的缓存集群提高读带宽并减少数据重复存储。

此外,数据也可以按需下载到边缘的 JuiceFS 集群,并由上层服务进行生命周期管理。

基于这个统一存储系统,MiniMax 建设了一张覆盖全国的大型环网,并将部分城市作为核心接入点。同时,在各 IDC 机房内近距离连接到这些接入点,以支持高效的数据分发。

“ JuiceFS 不仅提供了适应我们混合云需求的存储系统,还通过高性能元数据服务和多接口兼容性优化了数据处理流程,显著降低了运维成本,是我们运营大模型平台的理想选择。”

—— 星龙,MiniMax 技术总监

这篇关于MiniMax:如何基于 JuiceFS 构建高性能、低成本的大模型 AI 平台的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1131820

相关文章

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

一文详解如何从零构建Spring Boot Starter并实现整合

《一文详解如何从零构建SpringBootStarter并实现整合》SpringBoot是一个开源的Java基础框架,用于创建独立、生产级的基于Spring框架的应用程序,:本文主要介绍如何从... 目录一、Spring Boot Starter的核心价值二、Starter项目创建全流程2.1 项目初始化(

使用Java实现通用树形结构构建工具类

《使用Java实现通用树形结构构建工具类》这篇文章主要为大家详细介绍了如何使用Java实现通用树形结构构建工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录完整代码一、设计思想与核心功能二、核心实现原理1. 数据结构准备阶段2. 循环依赖检测算法3. 树形结构构建4. 搜索子

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

使用Python和python-pptx构建Markdown到PowerPoint转换器

《使用Python和python-pptx构建Markdown到PowerPoint转换器》在这篇博客中,我们将深入分析一个使用Python开发的应用程序,该程序可以将Markdown文件转换为Pow... 目录引言应用概述代码结构与分析1. 类定义与初始化2. 事件处理3. Markdown 处理4. 转

Spring AI ectorStore的使用流程

《SpringAIectorStore的使用流程》SpringAI中的VectorStore是一种用于存储和检索高维向量数据的数据库或存储解决方案,它在AI应用中发挥着至关重要的作用,本文给大家介... 目录一、VectorStore的基本概念二、VectorStore的核心接口三、VectorStore的

Java使用Mail构建邮件功能的完整指南

《Java使用Mail构建邮件功能的完整指南》JavaMailAPI是一个功能强大的工具,它可以帮助开发者轻松实现邮件的发送与接收功能,本文将介绍如何使用JavaMail发送和接收邮件,希望对大家有所... 目录1、简述2、主要特点3、发送样例3.1 发送纯文本邮件3.2 发送 html 邮件3.3 发送带

Python结合Flask框架构建一个简易的远程控制系统

《Python结合Flask框架构建一个简易的远程控制系统》这篇文章主要为大家详细介绍了如何使用Python与Flask框架构建一个简易的远程控制系统,能够远程执行操作命令(如关机、重启、锁屏等),还... 目录1.概述2.功能使用系统命令执行实时屏幕监控3. BUG修复过程1. Authorization

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

Spring AI集成DeepSeek实现流式输出的操作方法

《SpringAI集成DeepSeek实现流式输出的操作方法》本文介绍了如何在SpringBoot中使用Sse(Server-SentEvents)技术实现流式输出,后端使用SpringMVC中的S... 目录一、后端代码二、前端代码三、运行项目小天有话说题外话参考资料前面一篇文章我们实现了《Spring