深度!千字长文拆解AI Agent ,浅谈国内AI Agent 现状

2024-06-14 05:52

本文主要是介绍深度!千字长文拆解AI Agent ,浅谈国内AI Agent 现状,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

“现如今ChatGPT的热度逐渐褪去,而字节的扣子逐渐被越来越多的国人知晓,钉钉、百度、Dify等也纷纷涉足工作流功能,打开国内AI工作流to B市场。今天学姐将用通俗易懂的方式讲解AI Agent是什么,以及国内大厂做Agent的进展。大家不要走开哦~🫶”

01

AI Agent小科普

目前Agent的关注度日益升温,今天,学姐想和大家分享一些近期国内AI市场的观察与思考,希望能与大家共同探讨学习。

首先,要明确一下AI Agent是什么?

Agent,我们一般将其翻译为代理人、代理商等。

在人工智能领域,Agent通常被定义为一种具有感知能力的实体,它能够通过对其所处环境的观察来做出相应的决策和反应。这种Agent既可以是软件形式的程序,例如对话机器人,也可以具备物理形态,比如扫地机器人。

在了解AI Agent之前,我们先考虑一个场景:我们要写一本20万字的关于人工智能最新技术的书在没有大模型之前,我们一般会按照如下流程~

  • 第一步:先使用搜索引擎搜索一些相关书籍和信息进行阅读,为我们打开思路

  • 第二步:形成本书的大纲,并且考虑清楚每一章节要编写的内容

  • 第三步:针对每一个章节进行内容的编写,在编写过程中可能会调整文章的大纲

  • 第四步:在编写后面章节的时候可能会忘记前面写的内容,需要去翻阅前面已经写的内容

  • 第五步:文章初步完成之后,我们可能会找相关专业人士帮忙修改

  • 最后:经过几番调整之后,书籍最终成型

在大模型出现之后,我们可能会这样对AI说:“请你帮忙生成一篇20万字的关于人工智能最新技术的书”。

这个时候我们大概率会发现AI写出来的书根本就无法阅读。为什么?是大模型的能力不行么?不仅仅因为这个,相比于第一种写书的方式,第二种方式明显缺少了几个环节。

  1. 没有办法使用Google获取最新的外部信息(大模型的训练数据是有日期限制的)

  2. 没有对整个事情进行规划(比如先写大纲,再编写每个章节,然后和别人讨论,最后成文)

  3. 大模型没有记忆的能力,由于上下文(脑容量)的限制,无法一次性完成20万字的文章,会造成前言不搭后语的现象

而AI Agent就是为了解决这个问题。

AI Agent是应用了大模型(LLM)能力的Agent。

以GPT为代表的大模型的出现,将Agent的能力提高到了前所未有的高度。

AI Agent又被称为智能体。

OpenAl的 Lilian Weng 将以LLM为驱动的 AI Agent,形式化为如下的公式:AI Agent=LLM(大模型)+Planning(规划)+Memory(记忆)+Tools(工具)

也就是说,AI Agent由如下几部分组成,我用一个管理花园的园丁的例子来说明每个模块的作用,希望大伙儿不会觉得枯燥晦涩~

1.LLM(大模型):就像园丁的智慧和知识库,它阅读了海量的园艺书籍和资料,不仅知道各种植物的名字,还懂得如何照顾它们。在AI Agent中,LLM提供了庞大的信息存储和处理能力,以理解和响应我们提出的各种问题。

2.Planning(规划):园丁需要规划整个花园的布局。AI Agent的规划功能,就像园丁制定种植计划,决定先种哪些花草、后种哪些蔬菜,或者如何分步骤修剪树冠。

3.Memory(记忆):这类似于园丁的笔记本,记录了每个植物的种植时间、生长情况和前一次施肥的时间。记忆模块让AI Agent能记住以往的经验和已经完成的任务,确保不会重复错误。

4.Tools(工具):就是园丁的用具,比如铲子、水壶和剪刀。AI Agent的工具模块,指的是它可以运用的各种软件和程序,帮助它执行复杂的任务,就像园丁用工具进行园艺活动一样。

我们也可以认为LLM+Planning+Memory是人类的大脑,而Tools则是人类的四肢。在大模型出现之前,Planning和Memory已经有比较成熟的技术。大模型的出现则补足了AI Agent发展的最后一环。

目前大模型的产品类型,主要有两种:

  • **Copilot:**翻译成副驾驶,助手。在帮助用户解决问题时起辅助作用,例如github copilot是帮助程序员编程的助手。

  • **Agent:**更像一个主驾驶,智能体,可以根据任务目标进行自主思考和行动,具有更强的独立性和执行复杂任务的能力。

最后,学姐从核心功能、流程决策、应用范围和开发重点几个方面对比Copilot和 Agent:

1.核心功能

  • Copilot:更像是一个辅助驾驶员,更多地依赖于人类的指导和提示来完成任务。Copilot在处理任务时,通常是在人为设定的范围内操作,比如基于特定的提示生成答案。它的功能很大程度上局限于在给定框架内工作。

  • Agent:像一个初级的主驾驶,具有更高的自主性和决策能力。能够根据目标自主规划整个处理流程,并根据外部反馈进行自我迭代和调整。

2.流程决策

  • Copilot:在处理流程方面,Copilot往往依赖于Human确定的流程,这个流程是静态的。它的参与更多是在局部环节,而不是整个流程的设计和执行。

  • Agent:Agent解决问题的流程是由AI自主确定的,这个流程是动态的。它不仅可以自行规划任务的各个步骤,还能够根据执行过程中的反馈动态调整流程。

3.应用范围

  • Copilot:主要用于处理一些简单的、特定的任务,更多是作为一个工具或者助手存在,需要人类的引导和监督。

  • Agent:能够处理复杂的、大型的任务,并在LLM薄弱的阶段使用工具或者API等进行增强。

4.开发重点

  • Copilot:主要依赖于LLM的性能,Copilot的开发重点在于Prompt Engineering。

  • Agent:同样依赖于LLM的性能,但Agent的开发重点在于Flow Engineering,也就是在假定LLM足够强 大的基础上,把外围的流程和框架系统化,坐等一个强劲的LLM核心。

02

浅谈当下国内 AI Agent 现状

其实,国内目前真正投入AI Agent研发的公司并不多。很多所谓的AI聊天机器人,其实只是在蹭“智能体”的概念,缺乏真正的反思、规划和环境感知能力,充其量只能算是ChatBot,与真正的Agent相去甚远。

在AI领域,阿里、百度和字节无疑是投入最大的三家公司。或许是因为害怕错过AI的任何机会,他们都展现出了强烈的FOMO心理。

学姐前不久参加了百度的AI开发者大会,虽然整体体验一般,但不难看出百度在AI领域的积累和沉淀。不过,我也发现百度各产品之间的相似性较高,玩法也颇为相似。当然,这只是我的个人观感,百度在AI领域的实力还是不容小觑的。

字节的AI产品表现相当不错,尽管自家的云雀大模型表现平平。但豆包的用户体验极佳,特别是在TTS语音方面,日活甚至超过了文心一言。

阿里钉钉的AI助理给我留下了深刻印象。它可能是目前最容易被企业采纳的一款AI产品。上周,钉钉正式发布了自家的AI Agent市场,已经上线了200多位AI助理,覆盖了办公、生活、娱乐等多个场景。这些AI助理不仅具备问答能力,还具备了一定的行动能力。比如用友薪酬搭建的“薪酬分析助理”,能够查询公司的人力成本、人员流动情况,提供岗位的市场竞争力判断。

此外,学姐还注意到一些其他公司的动态。科大讯飞似乎有些高开低走,现在主要聚焦在AI鼠标上;360则比较聪明,懂得扬长避短,在自己擅长的领域结合AI进行发展。腾讯在AI领域一直比较低调,不知道是在憋大招还是黔驴技穷。而在所有AI独角兽公司中,智谱清言表现还算不错,但产品功能上并没有太多独特之处。

最后,我想谈谈我目前最看好的两款产品:钉钉AI助理和扣子。这两款产品不仅功能强大,而且在实际应用中表现出了明显的优势。它们对其他AI初创公司形成了降维打击,让其他产品难以望其项背。

钉钉AI助理近期还上线了一些进阶功能,如工作流、拟人操作、高级自定义等,进一步拓展了其Agent的行动能力。而扣子则一直坚定地推进flow功能,尽管在workflow方面还存在一些小问题。

进一步说,扣子和钉钉,这两款产品在生态定位上各有千秋。扣子的插件体系更显开放,种类繁多,与月之暗面等开发者的合作充分展现了其为开发者提供的优质工作台。

而钉钉则更倾向于将生态ISV和低代码应用融入其体系,使得生态伙伴能够轻松构建自家的AI助理,低代码应用也能迅速转变为AI助理,以更贴近用户的形式替代原有应用。钉钉过往的开放能力已经证明了其生态商业路径的合理性。

之所以看好钉钉AI助理,是因为它在过去一年中不仅利用大模型重塑了20多条产品线,还推出了AI助理产品及市场。钉钉AI助理与业务场景、企业真实需求紧密相连,充分发挥了其独特优势。据报道,已有超过220万家企业采用钉钉AI助理,这一数字相当惊人,足以证明其市场接受度。

朱啸虎曾提到,AI在ToB领域已经开始实现盈利,而C端市场仍显迷茫。我认为,在AI时代,像移动互联网中的微信、抖音这样的Super App还比较遥远,短期内B端市场的机会会更大。因此,谁拥有更多的B端资源,谁就能在当下拥有更大的生存空间。

目前,大多数大厂和AI初创公司都在努力寻找合适的应用场景,即便是GPTs也缺乏明确的用户需求。用户通常是在有需求时才会寻找AI。然而,钉钉拥有天然的应用和场景优势,基于这些应用和场景再反向接入大模型创建AI助理解决问题更为合理。

为了更好地推动AI落地,各家都在支持或计划支持导出API,以便融入个人或企业应用系统中,解决开发者最后一公里的问题。但钉钉在这方面又有其独特性,许多企业已经深度依赖钉钉,各种数据也存储在钉钉上,因此直接融入钉钉生态更为便捷。钉钉通过融合生态ISV和低代码应用,进一步巩固了其生态壁垒。

对于广大上班族来说,钉钉几乎是日常工作的必备工具。由于AI助理功能免费,大家自然愿意尝试。一试之下,发现其确实好用,特别是在处理文档、编写方案等方面,无需跳转其他AI产品,直接在钉钉上就能一站式解决。创建的AI助理还能分享到团队和群聊中,更好地发挥协同作用。这一点相较于其他产品更为独特,虽然其他产品也能实现类似功能,但配置和部署过程相对繁琐。

钉钉首批上架的AI助理数量虽不多,但经过严格审核,更注重实用性。与主打聊天、创作类助理不同,钉钉更侧重于提供专业服务类的助理。而其他面向C端的产品为追求更高的可玩性和用户停留时长,往往更注重数量。

总体而言,尽管Agent领域热度高涨,但国内仍处于早期探索阶段。期待未来能够涌现出更多优秀的Agent产品,感恩每一位阅读到最后的朋友们,下一期我们再接着聊吧~

如何学习大模型 AGI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-


👉AGI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉AGI大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉AGI大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

这篇关于深度!千字长文拆解AI Agent ,浅谈国内AI Agent 现状的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1059560

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU