马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文

2024-03-29 21:04

本文主要是介绍马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  ChatGPT狂飙160天,世界已经不是之前的样子。

新建了人工智能中文站https://ai.weoknow.com
每天给大家更新可用的国内可用chatGPT资源

发布在https://it.weoknow.com

更多资源欢迎关注


 


马斯克搞大模型,速度也奇快。

Grok 1 开源才刚有 10 天,Grok 1.5 就来了。

图片

本周五早上,马斯克旗下的人工智能公司 xAI 正式推出了 Gork 大模型的最新版本 Grok-1.5。新一代模型实现了长上下文理解和高级推理能力,计划将在未来几天内向早期测试人员和 X 平台(前 Twitter)上的现有 Grok 用户提供。

上周一,马斯克刚刚开源了 3140 亿参数的混合专家(MoE)模型 Grok-1。通过开源 Grok-1 的模型权重和网络架构,Gork 项目已展示了 xAI 截至去年 11 月所取得的进展。在最新模型 Grok-1.5 中,Gork 又有了进一步提高。

能力与推理

Grok-1.5 最明显的改进之一是其在代码和数学相关任务中的性能。在 xAI 的测试中,Grok-1.5 在 MATH 基准上取得了 50.6% 的成绩,在 GSM8K 基准上取得了 90% 的成绩,这两个数学基准涵盖了广泛的小学到高中的竞赛问题。

此外,它在评估代码生成和解决问题能力的 HumanEval 基准测试中得分为 74.1%。

图片

还记得昨天 Databricks 开源的通用大模型 DBRX 吗?当时的对比图表如下所示,看起来新版本 Grok 的提升是显著的。

图片

就是不知这个大幅升级的 1.5 版会在什么时候开源?

长上下文理解

Grok-1.5 中的另一个重要升级是在其上下文窗口内可以处理多达 128K token 的长上下文。这使得 Grok 的容量增加到之前上下文长度的 16 倍,从而能够利用更长文档中的信息。

图片

此外,该模型可以处理更长、更复杂的提示(prompt),同时在上下文窗口扩展时仍然能保持其指令跟踪能力。在大海捞针(NIAH)评估中,Grok-1.5 展示了强大的检索能力,可以在长度高达 128K token 的上下文中嵌入文本,实现完美的检索结果。

训练 Grok-1.5 的基础设施

xAI 进一步介绍了用于训练模型的算力设施。在大规模 GPU 集群上运行的先进大型语言模型(LLM)研究需要强大而灵活的基础设施。Grok-1.5 构建在基于 JAX、Rust 和 Kubernetes 的自定义分布式训练框架之上。该训练堆栈允许开发团队能够以最小的精力构建想法原型并大规模训练新架构。

在大型计算集群上训练 LLM 的主要挑战是最大限度提高训练作业的可靠性和正常运行时间。xAI 提出的自定义训练协调器可确保自动检测到有问题的节点,并将其从训练作业中剔除。工程师还优化了检查点、数据加载和训练作业重新启动等问题,以最大限度地减少发生故障时的停机时间。

展望

为了寻求替代微软支持的 OpenAI 和 Google 大模型的解决方案,马斯克去年推推动了 AI 创业公司 xAI,以创建他所说的「最大程度寻求真相的人工智能」 。去年 12 月,这家初创公司为 X 的 Premium+ 订阅者推出了 Grok。

图片

xAI 表示,Grok-1.5 很快就会向早期测试者开放,其团队将继续改进 Grok。随着新版本推向公众,在未来几天 X 上的大模型将陆续推出一些新功能。


  ChatGPT狂飙160天,世界已经不是之前的样子。

新建了人工智能中文站https://ai.weoknow.com
每天给大家更新可用的国内可用chatGPT资源

发布在https://it.weoknow.com

更多资源欢迎关注


 


这篇关于马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/859636

相关文章

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

将Mybatis升级为Mybatis-Plus的详细过程

《将Mybatis升级为Mybatis-Plus的详细过程》本文详细介绍了在若依管理系统(v3.8.8)中将MyBatis升级为MyBatis-Plus的过程,旨在提升开发效率,通过本文,开发者可实现... 目录说明流程增加依赖修改配置文件注释掉MyBATisConfig里面的Bean代码生成使用IDEA生

SpringKafka消息发布之KafkaTemplate与事务支持功能

《SpringKafka消息发布之KafkaTemplate与事务支持功能》通过本文介绍的基本用法、序列化选项、事务支持、错误处理和性能优化技术,开发者可以构建高效可靠的Kafka消息发布系统,事务支... 目录引言一、KafkaTemplate基础二、消息序列化三、事务支持机制四、错误处理与重试五、性能优

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

一文教你解决Python不支持中文路径的问题

《一文教你解决Python不支持中文路径的问题》Python是一种广泛使用的高级编程语言,然而在处理包含中文字符的文件路径时,Python有时会表现出一些不友好的行为,下面小编就来为大家介绍一下具体的... 目录问题背景解决方案1. 设置正确的文件编码2. 使用pathlib模块3. 转换路径为Unicod

linux环境openssl、openssh升级流程

《linux环境openssl、openssh升级流程》该文章详细介绍了在Ubuntu22.04系统上升级OpenSSL和OpenSSH的方法,首先,升级OpenSSL的步骤包括下载最新版本、安装编译... 目录一.升级openssl1.官网下载最新版openssl2.安装编译环境3.下载后解压安装4.备份

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

SpringBoot快速接入OpenAI大模型的方法(JDK8)

《SpringBoot快速接入OpenAI大模型的方法(JDK8)》本文介绍了如何使用AI4J快速接入OpenAI大模型,并展示了如何实现流式与非流式的输出,以及对函数调用的使用,AI4J支持JDK8... 目录使用AI4J快速接入OpenAI大模型介绍AI4J-github快速使用创建SpringBoot

定价129元!支持双频 Wi-Fi 5的华为AX1路由器发布

《定价129元!支持双频Wi-Fi5的华为AX1路由器发布》华为上周推出了其最新的入门级Wi-Fi5路由器——华为路由AX1,建议零售价129元,这款路由器配置如何?详细请看下文介... 华为 Wi-Fi 5 路由 AX1 已正式开售,新品支持双频 1200 兆、配有四个千兆网口、提供可视化智能诊断功能,建