介绍下一代 Claude:Anthropic宣布推出Claude 3 性能超越GPT4.0

2024-03-05 11:20

本文主要是介绍介绍下一代 Claude:Anthropic宣布推出Claude 3 性能超越GPT4.0,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
3月4日,Anthropic 宣布推出 Claude 3 型号系列,该系列在广泛的认知任务中树立了新的行业基准。该系列包括三款最先进的型号,按功能升序排列:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每个后续型号都提供越来越强大的性能,允许用户为其特定应用选择智能、速度和成本的最佳平衡。

Opus 和 Sonnet 现在可以在 claude.ai 和 Claude API 中使用,后者现已在 159 个国家/地区正式发布。俳句即将推出。

Claude 3 模型系列

在这里插入图片描述

智能新标准

Opus 是我们最智能的模型,在大多数常见的 AI 系统评估基准上都优于同行,包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它对复杂任务表现出接近人类的理解力和流利度,引领着通用智能的前沿。

所有 Claude 3 模型在分析和预测、细致入微的内容创建、代码生成以及使用西班牙语、日语和法语等非英语语言进行交谈方面都显示出更高的能力。

以下是 Claude 3 型号与我们的同行在多个性能基准 [1] 上的比较:
在这里插入图片描述

近乎即时的结果

Claude 3 型号可以支持实时客户聊天、自动完成和数据提取任务,在这些任务中,响应必须是即时和实时的。

Haiku 是市场上最快、最具成本效益的智能类别模型。它可以在不到三秒的时间内读取有关arXiv(~10k个代币)的信息和数据密集的研究论文,其中包含图表和图形。发布后,我们预计会进一步提高性能。

对于绝大多数工作负载,Sonnet 比 Claude 2 和 Claude 2.1 快 2 倍,具有更高的智能水平。它擅长需要快速响应的任务,例如知识检索或销售自动化。Opus 提供与 Claude 2 和 2.1 相似的速度,但智能水平要高得多。

强大的视觉能力

Claude 3 型号具有与其他领先型号相媲美的复杂视觉功能。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴能为我们的企业客户提供这种新模式,其中一些客户拥有多达 50% 的知识库以各种格式编码,例如 PDF、流程图或演示幻灯片。

减少拒绝

以前的克劳德模型经常做出不必要的拒绝,这表明缺乏对上下文的理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet 和 Haiku 拒绝回答系统护栏提示的可能性要小得多。如下图所示,Claude 3 模型对请求表现出更细致的理解,识别真正的伤害,并且拒绝回答无害提示的频率要低得多。
在这里插入图片描述

提高准确性

各种规模的企业都依赖我们的模型来为他们的客户提供服务,因此我们的模型输出必须保持大规模的高精度。为了评估这一点,我们使用了大量复杂的事实问题,这些问题针对当前模型中的已知弱点。我们将回答分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型说它不知道答案,而不是提供不正确的信息。与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题的准确性(或正确答案)方面提高了两倍,同时也减少了错误答案的水平。

除了产生更可信的回答外,我们还将很快在我们的 Claude 3 模型中启用引用,以便他们可以指向参考资料中的精确句子来验证他们的答案。
在这里插入图片描述

长上下文和近乎完美的回忆

Claude 3 系列型号最初将在发布时提供 200K 上下文窗口。但是,所有三种型号都能够接受超过 100 万个代币的输入,我们可能会将其提供给需要增强处理能力的特定客户。

为了有效地处理长上下文提示,模型需要强大的召回功能。“大海捞针”(NIAH)评估衡量模型从大量数据语料库中准确调用信息的能力。我们通过在每个提示中使用 30 个随机针/问题对之一,并在不同的众包文档语料库上进行测试,增强了该基准的稳健性。Claude 3 Opus 不仅实现了近乎完美的回忆,准确率超过 99%,而且在某些情况下,它甚至通过识别“针”句似乎是人类人为地插入到原始文本中来识别评估本身的局限性。
在这里插入图片描述

负责任的设计

我们开发了 Claude 3 系列型号,使其既值得信赖又强大。我们有几个专门的团队来跟踪和缓解广泛的风险,从错误信息和 CSAM 到生物滥用、选举干扰和自主复制技能。我们继续开发诸如宪法人工智能之类的方法,以提高我们模型的安全性和透明度,并调整了我们的模型,以减轻新模式可能引发的隐私问题。

解决日益复杂的模型中的偏差是一项持续的努力,我们在这个新版本中取得了长足的进步。如模型卡所示,根据问答偏差基准 (BBQ),Claude 3 比我们以前的模型显示出更少的偏差。我们仍然致力于推进技术,以减少偏见并促进我们模型中的更大中立性,确保它们不会偏向任何特定的党派立场。

虽然与以前的型号相比,Claude 3 型号系列在生物知识、网络相关知识和自主性等关键指标上取得了进步,但根据我们的负责任扩展政策,它仍处于 AI 安全级别 2 (ASL-2)。我们的红队评估(根据我们的白宫承诺和 2023 年美国行政命令进行)得出的结论是,这些模型目前存在灾难性风险的可能性可以忽略不计。我们将继续仔细监测未来的模型,以评估它们是否接近 ASL-3 阈值。Claude 3 型号卡中提供了更多安全细节。

更易于使用

Claude 3 型号更擅长遵循复杂的多步骤说明。他们特别擅长遵守品牌声音和响应准则,并开发用户可以信赖的面向客户的体验。此外,Claude 3 模型更擅长以 JSON 等格式生成流行的结构化输出,从而可以更轻松地指导 Claude 进行自然语言分类和情感分析等用例。

型号详细信息

Claude 3 Opus 是我们最智能的型号,在高度复杂的任务上具有市场上最好的性能。它可以以非凡的流畅性和类似人类的理解来导航开放式提示和看不见的场景。Opus 向我们展示了生成式 AI 可能性的外部极限。
在这里插入图片描述

Claude 3 Sonnet在智能和速度之间取得了理想的平衡,尤其是对于企业工作负载。与同类产品相比,它以更低的成本提供强大的性能,专为大规模 AI 部署而设计,具有高耐用性。
在这里插入图片描述

Claude 3 Haiku 是我们速度最快、最紧凑的型号,具有近乎即时的响应能力。它以无与伦比的速度回答简单的查询和请求。用户将能够构建模仿人类交互的无缝 AI 体验。
在这里插入图片描述

型号可用性

Opus 和 Sonnet 现已在我们的 API 中可用,该 API 现已正式发布,使开发人员能够立即注册并开始使用这些模型。俳句即将推出。Sonnet 正在为 claude.ai 上的免费体验提供支持,Opus 可供 Claude Pro 订阅者使用。

十四行诗今天也可通过 Amazon Bedrock 获得,并在 Google Cloud 的 Vertex AI Model Garden 上提供私人预览版——Opus 和 Haiku 即将推出。

更智能、更快、更安全

我们认为模型智能不会接近其极限,我们计划在未来几个月内频繁发布 Claude 3 模型系列的更新。我们也很高兴发布一系列功能来增强我们模型的功能,特别是对于企业用例和大规模部署。这些新功能将包括工具使用(又名函数调用)、交互式编码(又名 REPL)和更高级的代理功能。

随着我们不断突破 AI 功能的界限,我们同样致力于确保我们的安全护栏跟上这些性能飞跃的步伐。我们的假设是,处于人工智能发展的前沿是引导其走向积极社会成果的最有效方式。

我们很高兴看到您使用 Claude 3 创作的内容,并希望您能向我们提供反馈,使 Claude 成为更有用的助手和创意伴侣。要开始与 Claude 一起构建,请访问 anthropic.com/claude。

这篇关于介绍下一代 Claude:Anthropic宣布推出Claude 3 性能超越GPT4.0的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/776345

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

黑神话,XSKY 星飞全闪单卷性能突破310万

当下,云计算仍然是企业主要的基础架构,随着关键业务的逐步虚拟化和云化,对于块存储的性能要求也日益提高。企业对于低延迟、高稳定性的存储解决方案的需求日益迫切。为了满足这些日益增长的 IO 密集型应用场景,众多云服务提供商正在不断推陈出新,推出具有更低时延和更高 IOPS 性能的云硬盘产品。 8 月 22 日 2024 DTCC 大会上(第十五届中国数据库技术大会),XSKY星辰天合正式公布了基于星

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

C++——stack、queue的实现及deque的介绍

目录 1.stack与queue的实现 1.1stack的实现  1.2 queue的实现 2.重温vector、list、stack、queue的介绍 2.1 STL标准库中stack和queue的底层结构  3.deque的简单介绍 3.1为什么选择deque作为stack和queue的底层默认容器  3.2 STL中对stack与queue的模拟实现 ①stack模拟实现

从状态管理到性能优化:全面解析 Android Compose

文章目录 引言一、Android Compose基本概念1.1 什么是Android Compose?1.2 Compose的优势1.3 如何在项目中使用Compose 二、Compose中的状态管理2.1 状态管理的重要性2.2 Compose中的状态和数据流2.3 使用State和MutableState处理状态2.4 通过ViewModel进行状态管理 三、Compose中的列表和滚动

Mysql BLOB类型介绍

BLOB类型的字段用于存储二进制数据 在MySQL中,BLOB类型,包括:TinyBlob、Blob、MediumBlob、LongBlob,这几个类型之间的唯一区别是在存储的大小不同。 TinyBlob 最大 255 Blob 最大 65K MediumBlob 最大 16M LongBlob 最大 4G