iPhone上最强模型出现!性能超越GPT-4,Siri有救啦?

2024-04-09 20:52

本文主要是介绍iPhone上最强模型出现!性能超越GPT-4,Siri有救啦?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

你有多久没用你的Siri了呢?对于一个曾市值超过三万亿美元的科技巨头,苹果在人工智能方向上的实力还值得大家期待吗?

图片

最近的一项论文里,苹果的研究团队提出了一种 ReALM 模型,参数量分别为 80M、250M、1B 和 3B,适合在手机、平板电脑等设备端运行。

ReALM 通过将引用解析问题转化为语言建模问题,在解决各种类型引用解析问题上取得了显著的进展,它的能力还要超过GPT-4!

分享几个网站

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

图片

ReALM 不仅可以处理对话中的实体引用,还能准确解析屏幕上显示的实体以及背景进程中的信息,为用户提供更智能、更人性化的交互体验。

Siri 这类人工智能语音助手可以借助这项技术,通过分析用户的对话历史、屏幕上显示的内容以及背景进程中的信息,来更好地理解用户的查询和指令。

简单来说,这是一项可能将你的 Siri 盘活的技术!

论文标题:ReALM: Reference Resolution As Language Modeling

论文地址:https://arxiv.org/abs/2403.20329

试试考考你的Siri

人类的语音通常包含模糊的引用,比如 “他们” 或 “那个”,在给定上下文的情况下(对其他人来说)意义明显。

对于一个旨在理解用户需求并与之对话的智能助手来说,能够理解上下文和这些引用信息,是至关重要的。

至于你的 Siri 真的能理解上下文和引用信息嘛?iPhone用户自然深有体会,不如用参照下面这个例子来“为难”一下 Siri 吧。

表1. 用户和代理之间的交互示例。

图片

在这里,很明显,Siri 需要理解上下文才能明白位于“彩虹路”的药店电话是多少。

同时,这里还有多种类型的上下文,比如 eg 1 提及的药店可能在对话上下文中提到,eg 3 要引用当前屏幕中的上下文,而 eg 2 可能同时要考虑对话上下文和屏幕上下文。

如果这样考你的 Siri,它怕是要汗流浃背了吧。

图片

Siri 如何理解用户“所指”?

从具体的任务看,给定相关实体和用户想要执行的任务,Siri,或者说 Siri 调用的模型应该提取出与当前用户查询相关的实体。

而相关实体有 3 种不同类型:

  1. 屏幕上的实体:这些是当前显示在用户屏幕上的实体。

  2. 对话中的实体:这些是与对话相关的实体,例如,当Agent提供给用户整个商品列表的时候,某件商品就是对应的实体。

  3. 背景中的实体:这些是来自可能不一定直接与用户在屏幕上看到的内容,或与Agent的交互有关的后台进程的相关实体;例如,开始响铃的闹钟或正在播放的音乐。

作者将引用解析任务形式化为大语言模型的多选任务,其中预期输出是用户屏幕上显示的实体中的单个选项(或多个选项)。在某些情况下,答案也可能是 “这些都不是”。

为了评估这个任务,则要允许模型以任何顺序输出相关实体,即如果 “Ground Truth” 是实体 1 和 2,那么接受这 2 个正确实体的任何排列,同时评估模型的性能。

表2.

图片

作者使用以下 Pineline 对 LLM (FLAN-T5 模型) 进行微调,将解析后的输入提供给模型,并对其进行微调:

  1. 首先,通过解析屏幕截图来获取屏幕上显示的实体和它们周围对象的信息。

  2. 对于会话引用,根据实体类型和属性将它们编码为自然文本表示。

  3. 对于屏幕引用,提出一种使用旋转对象注入的屏幕解析构造算法,该算法通过对实体及其周围对象进行空间聚类,并按照从上到下、从左到右排序来保留相对位置关系。

  4. 将经过处理后的输入提供给 LLM 模型,并进行微调训练。

通过这个 Pipeline,模型能够有效地解决不同类型引用问题,并取得了比之前方法更好的性能。

性能堪比GPT4!80M参数也OK!

作者将提出的模型(基于 FLAN-T5)与两个基线进行了比较:一种是基于规则的文本解析方法(不使用LLM),另一种则是GPT系列,包括GPT-3.5和GPT-4。

表2. 不同数据集的模型准确性。 预测正确是指模型正确地预测了所有相关实体,否则是错误的。 Conv 是指对话数据集,Synth 是指综合数据集,Screen 是指屏幕上数据集,Unseen 是指与保留域相关的对话数据集。

图片

总的来说,作者发现 ReALM 在所有类型的数据集中都优于 MARRS 模型。

同时,ReALM 系列的模型更轻(更快),并且所有数据集上的性能随着模型大小的增加而提高。

其中 80M 模型在三个数据集上与 GPT-4 性能相当,在 Synth 数据集上则大幅领先;更大的模型则是显著地超越了 GPT-4!

这项结束将有望改善语音助手,从而使它可以更准确地回答用户的问题、执行任务和提供帮助。

据报道,苹果将于6月10日在位于美国加利福尼亚州的 Apple Park 举行的 WWDC 2024 上公布其 AI 战略。让我们期待一下届时苹果会给出一个怎样的惊喜吧!希望 Siri 不要只会定闹钟了(bushi)

这篇关于iPhone上最强模型出现!性能超越GPT-4,Siri有救啦?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/889190

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

黑神话,XSKY 星飞全闪单卷性能突破310万

当下,云计算仍然是企业主要的基础架构,随着关键业务的逐步虚拟化和云化,对于块存储的性能要求也日益提高。企业对于低延迟、高稳定性的存储解决方案的需求日益迫切。为了满足这些日益增长的 IO 密集型应用场景,众多云服务提供商正在不断推陈出新,推出具有更低时延和更高 IOPS 性能的云硬盘产品。 8 月 22 日 2024 DTCC 大会上(第十五届中国数据库技术大会),XSKY星辰天合正式公布了基于星

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}