实用至上:智能体/Agent 是什么

2024-06-21 18:04
文章标签 智能 实用 agent 至上

本文主要是介绍实用至上:智能体/Agent 是什么,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Agent 的起源

图片

不做词义追源,仅从大众角度,这个事儿是去年初开始的,也就是 2023 年 2-3 月。标志性事件包括:

  • AutoGPT 等开源项目的发布,这是第一批基于自然语言的 AI 自动化实践:你告诉它一个任务,它就会通过自然语言的自我对话,将这个任务进行拆分、规划并实现。
  • 斯坦福小镇一类的项目实践:给予不同的 Bot 以不同的人格,搭配记忆窗口,让它们之间相互对话。
  • 发表于 2 月的论文《Toolformer: 大模型可以教自己使用工具》,以及 OpenAI 在 3 月底发布的插件计划:这意味着,大模型从原来的“思想家”,通过对外部工具的使用,变成了实干家。

在这里插入图片描述

《AI 学会使用工具了》

2023年2月14日,报道自赛博禅心

现在的 Agent

图片

时至今日,对于 Agent 是什么,可能还没有一个标准的定义。

一个常见的观点是,Agent 是一种让 AI 以类似人的工作和思考方式,来完成一系列的任务。一个 Agent 可以是一个 Bot,也可以是多个 Bot 的协同。就像是职场里,简单的工作独立完成,复杂的工作协作完成一样。

对于每个 Bot 来说,可能会包括:

  • 一个大脑:判断和规划行为,这里通常用 GPT-4或同水平的 LLM;
  • 眼睛和手:确认信息和使用外部工具,一般是各种插件/action/api;
  • 工作纪要:储存已经发生的事,通常的媒介是上下文窗口,或者数据库;
  • 行为SOP:明确这个 Agent 的身份、任务、目标和机制。这个 SOP 可能是用户给的,也可能是由其它 Bot 给出的。

再具象一点,这里我从 GPTs 里截了个图:

图片

对于 GPTs,通常被认为是由 OpenAI 设计的简化版的 Agent。默认情况下,只能进行单 Bot 交互:

  • 一个大脑:在 ChatGPT GPT Store 里,GPT-4 是唯一可选的 LLM;
  • 眼睛和手:可以在 Capabilities 里勾选由 OpenAI 提供的第一方能力,也可以通过Actions 来拓展更多的外部能力;
  • 工作纪要:一般来说就是对话记录,GPTs 可以回顾之前的对话;
  • 行为SOP:存放在 Description, Instructions 以及 Knowledge 里。

OpenAI 的 Agent 演进

图片

以 OpenAI 为例,我们看看 Agent 是如何一步步演进的。

去年 3 月底,OpenAI 宣布了插件计划,并在 5 月上线了插件商店,这也标志了 OpenAI 揭开 Agent 战局的第一步。

图片

在当时 OpenAI 给开发者发送的指引中,给了这样的 Todo:

  • 第一步:开发接口,来定义 ChatGPT 可以调用的功能。接口可以是新开发的,也可以是改造现有的
  • 第二步:写一份文档,给 ChatGPT 来看,让它知道什么时候去调用接口。当然,这里要遵循一定的格式,然后用自然语言来写。

如果你做过 OpenAI API 的开发,可能会觉得这个文档有些熟悉,这不就是 Fuction Call 吗?

没错,在 2023 年 6 月 13 日,OpenAI 发布了 Function Call 模式,让大模型可以来调用外部工具,用的就是非常类似的方案。

图片

图片

再往后,OpenAI 的相关工作人员做了一系列的 Research,关于 Agent 的最佳实践。同时的,也发布了 Custom Instruction 指令的相关功能。

图片

图片

之后,ChatGPT 推出了 All Tools 功能。也就是回答用户问题时,不再需要用户自主的来选择工具,这可以视作是“自动版的Plugin”,覆盖了三款官方工具:Browsing, Advanced Data Analysis 和 DALL·E。

图片

时间推移,在2023 年 11 月 6 日的时候,在 OpenAI 开发者大会上,Sam Altman 宣布了 GPTs,这通常被认为是 OpenAI 推出了其第一个正式版的 AI Agent。在最初的版本中,包括以下功能

  • 允许用户创建多个 Bot,自定义它们的身份和回答风格。并且这些 Bot 可以分享
  • Bot 可以自有使用三款官方工具:Browsing, Advanced Data Analysis 和 DALL·E
  • Bot 也可以通过 Action 的方式(类似 API 的东西),去调用任何的外部能力
  • Bot 可以有自己的数据空间,允许用户对这些数据进行 QA。

同时,在11月06日的时候,OpenAI 也更新了几个影响深远的接口:

  • Function Calling:更新多参数生成功能,可以让一轮对话完成多项任务
  • JSON Mode:让 API 通过 JSON,而非文字,来做出回应
  • Seed:设定随机值,提高一致性
  • Assistants API & Code Interpreter:可以理解为把 ChatGPT 的 Bot,搬到了 API 里
  • Retrieval:简易化知识库构建

图片

在最近 GPTs 体系上线了 GPT Store,有些媒体称其为 OpenAI 的 App Store 时刻,但其实并不相同。在 GPT Store 里,用户可以搜索和使用为各项任务所开发的 GPTs。

紧随 GPT Store 上线的,还有 @GPTs 功能,也就是在任何的对话中,你都可以手动的让某个 GPTs 接管这个对话内容,做出更好的输出。

图片

值得一提的是,由于 GPT Store 没有开放支付入口,所以目前几乎所有的 GPTs 都是免费的。

其它 Agent 平台

图片

之前和 OpenAI 的相关负责人聊过,ChatGPT 的主要定位是“开箱即用的消费级产品”。那这里,自然给“较为复杂的生产级产品”留下了生态空间。这里,我们也来探讨下这类产品。

主要的 AI 玩家都会对这方面有所涉足,也各有侧重。比如来传统大厂自字节扣子/coze,百度的灵境矩阵,也比如来自 AI 初创公司的 Dify 等等。

图片

图片

以扣子为例,对比与 GPTs Store,主要的体感区别包括:

  • 免费,至少目前是完全免费的
  • 有数十个官方插件,对比与 GPTs 里只有3个
  • 可以用类似低代码的方式,构建Workflow,并被 Bot 调用
  • 可以将捏好的 Bot 发布到其它平台(比如飞书,公众号),同时支持 API

其中后两条极为核心

我的 Agent 的实战

图片

一个设计良好的 Agent 可以提供极大的生产力,并创造极高的价值。

前几天大火的 Devin,被称为“第一位由 AI 担任的软件工程师”,它可以自主的去学会如何使用不熟悉的技术,自主的生成代码、调试bug和部署应用。

Agent 也可以替代现有的很多软件工具,去完成工作中繁琐的任务。举个例子,我正打算开一个专栏,叫做“乘风破浪的少年们”,去讲述和记录那些在这次 AI 浪潮中,登上世界舞台的中国人,用对话的形式。
这里对我来讲的一个很大挑战:我需要整理大量的文字稿,并且把它排版出来,这并不轻松,也很占时间。我希望有一个 Agent 来帮我做这件事情。

昨天下午,我和 Owen(沉浸式翻译的作者)去参加了一个 Hackathon,现场有了灵感,并梳理出了这个 Agent 的思路:

  • 第一步:将对话音频文件,通过 AI(比如whisper)转化成文字稿
  • 第二步:将文字稿用 AI 转化成 QA 问答对,以 json/csv 的方式储存
  • 第三步:将 QA 问答对,转化成 HTML(可以导入进微信公众号)

我们花了俩小时,用扣子,把这个 Agent 给搓了出来,起名《带带弟弟排版器》,希望大家带带单打独斗的弟弟。也顺道着把我上次参加 OpenAI 的红队活动的笔记,转成了 .csv

图片

然后把这个 .csv 文件丢给了《带带弟弟排版器》

图片

图片

我相信,在 AGI 来之前,Agent 是一个很棒的替代方案。不过现在还有俩主要毛病:1.不够稳定;2.算力有点贵

img

我可太聪明了

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

这篇关于实用至上:智能体/Agent 是什么的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1081940

相关文章

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

智能交通(二)——Spinger特刊推荐

特刊征稿 01  期刊名称: Autonomous Intelligent Systems  特刊名称: Understanding the Policy Shift  with the Digital Twins in Smart  Transportation and Mobility 截止时间: 开放提交:2024年1月20日 提交截止日

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

单片机毕业设计基于单片机的智能门禁系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍程序代码部分参考 设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订

【C++】作用域指针、智能指针、共享指针、弱指针

十、智能指针、共享指针 从上篇文章 【C++】如何用C++创建对象,理解作用域、堆栈、内存分配-CSDN博客 中我们知道,你的对象是创建在栈上还是在堆上,最大的区别就是对象的作用域不一样。所以在C++中,一旦程序进入另外一个作用域,那其他作用域的对象就自动销毁了。这种机制有好有坏。我们可以利用这个机制,比如可以自动化我们的代码,像智能指针、作用域锁(scoped_lock)等都是利用了这种机制。

flume系列之:记录一次flume agent进程被异常oom kill -9的原因定位

flume系列之:记录一次flume agent进程被异常oom kill -9的原因定位 一、背景二、定位问题三、解决方法 一、背景 flume系列之:定位flume没有关闭某个时间点生成的tmp文件的原因,并制定解决方案在博主上面这篇文章的基础上,在机器内存、cpu资源、flume agent资源都足够的情况下,flume agent又出现了tmp文件无法关闭的情况 二、

什么是LED智能会议一体机?COB超微小间距LED会议一体机大势所趋

LED智能会议一体机,作为现代会议室革新的核心装备,正逐步颠覆传统会议模式的界限。它不仅仅是一台集成了高清显示、触控互动、音视频处理及远程协作等功能于一体的智能设备,更是推动会议效率与体验双重飞跃的关键力量。随着技术的不断进步,特别是COB(Chip On Board)超微小间距LED技术的引入,LED智能会议一体机正迎来前所未有的发展机遇,成为大势所趋。 COB技术通过将LED芯片直接封装在基

基于微信小程序与嵌入式系统的智能小车开发(详细流程)

一、项目概述 本项目旨在开发一款智能小车,结合微信小程序与嵌入式系统,提供实时图像处理与控制功能。用户可以通过微信小程序远程操控小车,并实时接收摄像头采集的图像。该项目解决了传统遥控小车在图像反馈和控制延迟方面的问题,提升了小车的智能化水平,适用于教育、科研和娱乐等多个领域。 二、系统架构 1. 系统架构设计 本项目的系统架构主要分为以下几个部分: 微信小程序:负责用户界面、控制指令的