iPhone上最强模型出现!性能超越GPT-4,Siri有救啦?

2024-04-09 20:52

本文主要是介绍iPhone上最强模型出现!性能超越GPT-4,Siri有救啦?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

你有多久没用你的Siri了呢?对于一个曾市值超过三万亿美元的科技巨头,苹果在人工智能方向上的实力还值得大家期待吗?

图片

最近的一项论文里,苹果的研究团队提出了一种 ReALM 模型,参数量分别为 80M、250M、1B 和 3B,适合在手机、平板电脑等设备端运行。

ReALM 通过将引用解析问题转化为语言建模问题,在解决各种类型引用解析问题上取得了显著的进展,它的能力还要超过GPT-4!

分享几个网站

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

图片

ReALM 不仅可以处理对话中的实体引用,还能准确解析屏幕上显示的实体以及背景进程中的信息,为用户提供更智能、更人性化的交互体验。

Siri 这类人工智能语音助手可以借助这项技术,通过分析用户的对话历史、屏幕上显示的内容以及背景进程中的信息,来更好地理解用户的查询和指令。

简单来说,这是一项可能将你的 Siri 盘活的技术!

论文标题:ReALM: Reference Resolution As Language Modeling

论文地址:https://arxiv.org/abs/2403.20329

试试考考你的Siri

人类的语音通常包含模糊的引用,比如 “他们” 或 “那个”,在给定上下文的情况下(对其他人来说)意义明显。

对于一个旨在理解用户需求并与之对话的智能助手来说,能够理解上下文和这些引用信息,是至关重要的。

至于你的 Siri 真的能理解上下文和引用信息嘛?iPhone用户自然深有体会,不如用参照下面这个例子来“为难”一下 Siri 吧。

表1. 用户和代理之间的交互示例。

图片

在这里,很明显,Siri 需要理解上下文才能明白位于“彩虹路”的药店电话是多少。

同时,这里还有多种类型的上下文,比如 eg 1 提及的药店可能在对话上下文中提到,eg 3 要引用当前屏幕中的上下文,而 eg 2 可能同时要考虑对话上下文和屏幕上下文。

如果这样考你的 Siri,它怕是要汗流浃背了吧。

图片

Siri 如何理解用户“所指”?

从具体的任务看,给定相关实体和用户想要执行的任务,Siri,或者说 Siri 调用的模型应该提取出与当前用户查询相关的实体。

而相关实体有 3 种不同类型:

  1. 屏幕上的实体:这些是当前显示在用户屏幕上的实体。

  2. 对话中的实体:这些是与对话相关的实体,例如,当Agent提供给用户整个商品列表的时候,某件商品就是对应的实体。

  3. 背景中的实体:这些是来自可能不一定直接与用户在屏幕上看到的内容,或与Agent的交互有关的后台进程的相关实体;例如,开始响铃的闹钟或正在播放的音乐。

作者将引用解析任务形式化为大语言模型的多选任务,其中预期输出是用户屏幕上显示的实体中的单个选项(或多个选项)。在某些情况下,答案也可能是 “这些都不是”。

为了评估这个任务,则要允许模型以任何顺序输出相关实体,即如果 “Ground Truth” 是实体 1 和 2,那么接受这 2 个正确实体的任何排列,同时评估模型的性能。

表2.

图片

作者使用以下 Pineline 对 LLM (FLAN-T5 模型) 进行微调,将解析后的输入提供给模型,并对其进行微调:

  1. 首先,通过解析屏幕截图来获取屏幕上显示的实体和它们周围对象的信息。

  2. 对于会话引用,根据实体类型和属性将它们编码为自然文本表示。

  3. 对于屏幕引用,提出一种使用旋转对象注入的屏幕解析构造算法,该算法通过对实体及其周围对象进行空间聚类,并按照从上到下、从左到右排序来保留相对位置关系。

  4. 将经过处理后的输入提供给 LLM 模型,并进行微调训练。

通过这个 Pipeline,模型能够有效地解决不同类型引用问题,并取得了比之前方法更好的性能。

性能堪比GPT4!80M参数也OK!

作者将提出的模型(基于 FLAN-T5)与两个基线进行了比较:一种是基于规则的文本解析方法(不使用LLM),另一种则是GPT系列,包括GPT-3.5和GPT-4。

表2. 不同数据集的模型准确性。 预测正确是指模型正确地预测了所有相关实体,否则是错误的。 Conv 是指对话数据集,Synth 是指综合数据集,Screen 是指屏幕上数据集,Unseen 是指与保留域相关的对话数据集。

图片

总的来说,作者发现 ReALM 在所有类型的数据集中都优于 MARRS 模型。

同时,ReALM 系列的模型更轻(更快),并且所有数据集上的性能随着模型大小的增加而提高。

其中 80M 模型在三个数据集上与 GPT-4 性能相当,在 Synth 数据集上则大幅领先;更大的模型则是显著地超越了 GPT-4!

这项结束将有望改善语音助手,从而使它可以更准确地回答用户的问题、执行任务和提供帮助。

据报道,苹果将于6月10日在位于美国加利福尼亚州的 Apple Park 举行的 WWDC 2024 上公布其 AI 战略。让我们期待一下届时苹果会给出一个怎样的惊喜吧!希望 Siri 不要只会定闹钟了(bushi)

这篇关于iPhone上最强模型出现!性能超越GPT-4,Siri有救啦?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/889190

相关文章

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Redis中高并发读写性能的深度解析与优化

《Redis中高并发读写性能的深度解析与优化》Redis作为一款高性能的内存数据库,广泛应用于缓存、消息队列、实时统计等场景,本文将深入探讨Redis的读写并发能力,感兴趣的小伙伴可以了解下... 目录引言一、Redis 并发能力概述1.1 Redis 的读写性能1.2 影响 Redis 并发能力的因素二、

Golang中拼接字符串的6种方式性能对比

《Golang中拼接字符串的6种方式性能对比》golang的string类型是不可修改的,对于拼接字符串来说,本质上还是创建一个新的对象将数据放进去,主要有6种拼接方式,下面小编就来为大家详细讲讲吧... 目录拼接方式介绍性能对比测试代码测试结果源码分析golang的string类型是不可修改的,对于拼接字

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

mysql线上查询之前要性能调优的技巧及示例

《mysql线上查询之前要性能调优的技巧及示例》文章介绍了查询优化的几种方法,包括使用索引、避免不必要的列和行、有效的JOIN策略、子查询和派生表的优化、查询提示和优化器提示等,这些方法可以帮助提高数... 目录避免不必要的列和行使用有效的JOIN策略使用子查询和派生表时要小心使用查询提示和优化器提示其他常

SpringBoot快速接入OpenAI大模型的方法(JDK8)

《SpringBoot快速接入OpenAI大模型的方法(JDK8)》本文介绍了如何使用AI4J快速接入OpenAI大模型,并展示了如何实现流式与非流式的输出,以及对函数调用的使用,AI4J支持JDK8... 目录使用AI4J快速接入OpenAI大模型介绍AI4J-github快速使用创建SpringBoot

CSS3 最强二维布局系统之Grid 网格布局

《CSS3最强二维布局系统之Grid网格布局》CS3的Grid网格布局是目前最强的二维布局系统,可以同时对列和行进行处理,将网页划分成一个个网格,可以任意组合不同的网格,做出各种各样的布局,本文介... 深入学习 css3 目前最强大的布局系统 Grid 网格布局Grid 网格布局的基本认识Grid 网

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录