本文主要是介绍审视AI Agent:追捧、落地,和2024年的To B破局点,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
“十个AI应用里面,五个办公Agent,三个AIGC,还有两成是回春的数字人。”那么,Agent到底是不是大模型的AGI终局产品?
作者|斗斗
编辑|皮爷
出品|产业家
今年4月份,斯坦福和谷歌的研究者共同创建了一个“西部世界小镇(Westworldsimulation)”,在这个小镇里,25个智能体可执行类似人类的日常行为,比如起床后做早餐然后去上班,艺术家作画,作家写作。
这些就是如今人们共同谈论的“AI Agent实验”。而在国内的今年下半年,大模型市场的玩家们,似乎正齐刷刷地转向AI Agent——这个清晰可见的AGI终局产品。
一组数据显示,截止11月中旬,AI Agent赛道发生融资事件13起,总融资金额约735亿人民币,公司融资均值为56.54亿人民币。
而在国外,这一领域亦是火爆。“至少有100个项目正致力于将AI代理商业化,近10万名开发人员正在构建自主Agent。”外媒MattSchlicht曾表示。
AI Agent为何如此火爆?
关于AI Agent的想象力,一个高赞回答是:“大语言模型只能编个贪吃蛇,而AI Agent可以整出一个王者荣耀。”
成熟的AI Agent可以使软件生产大幅降低成本。未来Coding工作流中会很多Agent临时写成的软件和测试方案,不追求长期的可复用性,可以随用随抛。目前一家软件行业巨头动辄上万甚至十万人,有了AI Agent之后研发、交付需要耗费的人力和资金将大幅降低。而且使得软件可以灵活地解决更多长尾需求。
此外,AI Agent或将为LLM搭建一套框架来进行深度思考和分析,从而做出更复杂和可靠的决策。
总之,就像微软创始人比尔·盖茨所说的那样:“谁能主宰个人助理Agent,那才是大事。因为你将永远不去搜索网站,不去生产力网站,不去亚马逊。”
值得注意的是,在这种巨大的技术变革下,目前我们仍没有切身体会到AI Agent所带来的红利和变化。很明显,AI Agent的发展仍面临一些难题。
一些值得探讨的问题是,国内外AI Agent的发展现状如何?AI Agent落地的关键点是什么?以及AI Agent未来是怎样的?
一、AI Agent现状,海外VS本土
目前,国内一些科技公司已经产出了数个知名大模型,因此孕育而生的Agent智能体应用也开始逐渐进入大众视野。
例如百度将文心大模型应用到智能搜索、自动驾驶;阿里将通义千问模型应用到高德地图、优酷,盒马等产品。华为将其盘古模型应用到智能气象、语音识别等。
一家叫面壁智能的创业也公司推出了他们的AI Agent产品ChatDev,可以在短时间内完成一个软件或者一个小游戏的开发,用户所需要做的,只是提供给它一个要求。
值得注意的是,协同办公领域似乎是巨头们做AI Agent的“必经之地”。
例如钉钉魔法棒套件中,从聊天AI、文档AI、会议AI、宜搭AI、TeambitionAI等都汇集了钉钉AI产品能力;腾讯会议中的“会议助理”功能提供了一些智能化的支持,如自动总结会议纪要、转录和翻译;百度推出的智能工作平台如流搭载了文心大模型,可以实现智能创作、智能推荐等功能;字节跳动旗下的办公软件飞书宣布推出智能AI助手“MyAI”,旨在提升团队协作效率。
曾有投资人对媒体调侃:“十个AI应用里面,五个办公Agent,三个AIGC,还有两成是回春的数字人。”这不仅是国内AI Agent发展的现状,其实从国外一些诸如谷歌、微软等企业也在将AI Agent落于协同办公场景。
其实在海外,AI Agent概念从出现到爆发,已经迈过多个阶段。
在单一Agent阶段,主要是针对不同领域和场景的特定任务,开发和部署专门的智能体。以GPTengineer为例,给它一个需求,其就可以把代码写个大概。
而多Agent合作阶段,是由不同角色的Agent自动合作完成复杂的任务。例如在MetaGPT上,如果让其做一个股票分析的工具,它会把这个任务分别翻译给产品经理、架构师、项目经理等5个角色,模拟整个的软件开发中所有决策工作流。
不过,随着微软全新工具AutoGen的发布,AI Agent很快翻开了新的篇章。
AutoGen允许多个LLM智能体通过聊天来解决任务。LLM智能体可以扮演各种角色,如程序员、设计师,或者是各种角色的组合,对话过程就把任务解决了。这与MetaGPT不同,MetaGPT的角色模型是被定义好的,而AutoGen可以让开发者自己定义Agent,还可以让他们相互对话。
这是一个新的且富有创造性的Agent框架。在AutoGen发布的两个星期内,星标量从390狂增到10K,并在Discord上吸引了5000多名成员。
微软在AI Agent的布局较早。2023年3月Microsoft365Copilot发布,在当时便提示了一种基于LLM的应用开发范式,即Agent。目前,微软CopilotStudio已经支持自定义ChatGPT助手无缝集成在CRM、ERP、OA等日常办公系统中。
可以发现微软的AI Agent能力主要是从其本身业务衍生出来的,AutoGen更像是一种自身基于业务所打造的能力的外放,这与OpenAI并不相同。
OpenAI开发的GPTs,以及推出的GPT-4Turbo和可定制AI Agent,使得每个人都可以打造自己的大模型应用。诸多业内人士认为,超低的创建门槛和APP Store一样的商业模型,会让OpenAI快速构建GPTs生态。
OpenAI提供的是基础Agent的构建能力,如工具调用、基于知识库文件记忆能力等。这项产品的发布,使得AI Agent进入了另外一个新阶段,即为人人都可以打造自己的Agent提供了一种可能性。
值得注意的是,目前海外已经在零售、房地产、旅游、客户服务、人力资源、金融、制造业等多个领域出现AI Agent架构与产品。
例如零售领域的亚马逊Alexa、Aktify、Regie.ai等;房地产领域的Epique、propertypen、Listingcopy等;客户服务领域的Agent4、Ebi.Ai、JasonAI、Aide等;人力资源领域的AutonomousHRChatbot、AIInterviewCoach、CareersAI等。
总体来看,在AI Agent在底层技术、架构以及具体产品应用等方面都较为完善。像OpenAI、微软、谷歌这类科技巨头,有着先发优势。另一个可以看到的现象是,国内AI Agent的深度与广度仍有所差距。
一个值得思考的问题是,Agent落地的关键是什么?
二、Agent落地的关键:
模型?行业经验?还是载体?
当前市场上的大多数Agent,包括OpenAI推出的GPTs,其实只是构建了一个基于特定知识库或专业数据的Chatbot。这些智能体主要用于进行问答交互,如获取行业资讯、报告等。
然而,在程序联动和操作方面还有很大的提升空间。目前,我们还无法直接使用GPTs来操作SAP或金蝶等ERP系统,因为这涉及到API的应用、授权、维护以及无API管理软件的连接问题。
对于企业而言,如果GPTs等AI智能体仅用于知识问答,那么其作用将非常有限,就像一个玩具一样,因为它目前还无法深入到企业的业务流程中。
这背后的原因有很多,包括模型能力、行业经验、场景贴合度等,都会影响Agent的能力体现。
AI Agent需要具备感知环境、做出决策并执行适当行动的能力。在这些关键步骤中,最重要的是理解输入给Agent的内容、进行推理、规划、做出准确决策,并将其转化为可执行的原子动作序列,以实现最终目标。
目前,许多研究利用LLM作为AI Agent的认知核心,这些模型的发展为完成这一步骤提供了质量保证。因此,基于GPT-4的Agent表现得更加智能。
但就目前而言,包括GPT-4在内的所有大模型,能力仍需提升。
“底座模型问题都还很大,AI Agent真正落地还要等更优秀的模型。”某位身处大模型技术一线的业内人士对产业家说。
不过针对模型能力不足这一问题,智谱AI&清华KEG提出了一种对齐Agent能力的微调方法AgentTuning,该方法使用少量数据微调已有模型,显著激发了模型的Agent能力,同时可以保持模型原有的通用能力。
AI Agent的行业经验对于其落地也至关重要。
“如果一篇论文提出了某种不同的训练方法,OpenAI内部的Slack上会嗤之以鼻,因为这些都是我们玩剩下的。但是当新的AI Agents论文出来的时候,我们才会认真兴奋的讨论。”这是OpenAI联合创始人AndrejKarpathy最近发表的一段讲话。
简而言之,我们基于大模型能做出什么样的东西,说到底还是要靠行业经验,而这恰是OpenAI等一众大模型巨头们所欠缺的。
要知道,企业要引入AI Agent进行流程优化,必须经过成本控制、投入预算、实现效率、安全管控等多方面严格及缜密的评估。这就要求技术供应商提供的必须是平台级解决方案,而不是只针对单一、个别场景需求来提供的AI Agent自动化解决方案。
大型企业引入新的AI技术不允许任何试错成本,因此技术供应商给出的解决方案必须是开箱即用、具备行业Know-How术语和业务规则的真实智能体数字员工。也只有这样的标准化AI Agent,才能被纳入企业的内部编制中去统一管理和调度。
例如,一个医疗行业的AI Agent需要具备医学知识,并能够理解和处理医疗数据。一个金融行业的AI Agent需要具备金融知识,并能够理解和处理金融数据。
AI Agent的落地效果也受限于应用场景。在如出行预订中,得益于丰富的API等问题,AI Agent表现出色。而在如法律助手场景中,由于新知识的频繁出现和API的不完善,实际应用面临更多挑战。
这一点,从国内AI Agent纷纷生长于协同办公平台就可见一斑。
事实上,协同办公平台本身具备良好的API接口和插件体系,这使得将大模型集成到现有工具中变得更加容易。
此外,许多企业和组织都在使用协同办公软件,这意味着大模型可以迅速覆盖大量的潜在用户。广泛的用户基础可以加速大模型的迭代和优化过程,使其更好地满足用户需求。
还有大量的数据资源助于提高模型的性能,丰富的场景也可以推动大模型技术持续改进。
钉钉、飞书和企业微信在作为Agent载体时,也各自具有不同的优势。钉钉提供了完善的组织架构管理功能,可以方便地创建、管理和调整团队架构,使得企业能够快速搭建适应其需求的组织结构。
飞书强调实时协作和沟通,支持多人在线编辑文档、共同讨论等功能,有助于团队高效地完成协作任务。其特有的一体化,使得整个办公流程更加标准化。
企业微信与微信互通,这使得其AI Agent有可能借助微信庞大的用户数据和应用场景,提供更加个性化和场景化的服务。
站在这个角度来看,国内AI Agent扎堆协同办公领域,则变得理所当然。而找到一个适合AI Agent落地的场景或者说载体更为重要。
不过,除了协同办公,还有许多其他载体可能更适合AI Agent的落地应用。
例如智能客服、智能助手、RPA、CRM等。具体来看,在智能客服方面,AI Agent可以自动回答用户的问题,处理投诉和建议,提高客户满意度和效率。在智能助手方面,苹果公司的Siri、谷歌公司的GoogleAssistant和亚马逊公司的Alexa都是智能助手的代表。
在智能流程自动化方面,许多企业采用智能流程自动化工具,如UiPath、BluePrism等,来自动完成某些特定的业务流程。
在智能营销方面,许多营销平台都集成了AI Agent,如HubSpot、Salesforce等。这些平台的AI Agent可以通过数据分析和机器学习技术,提供精准的营销建议和预测,帮助企业更好地了解客户需求,提高销售业绩。
总而言之,模型能力是核心,行业经验是关键,载体是保障。无论是模型能力还是行业经验抑或是载体都是AI Agent落地的关键。值得注意的是,国内的软件业态,倒逼国内厂商造就了一身定制化、个性化能力,这种能力侧面验证了国内企业在技术落地上的潜力,这将会进一步推动Agent的落地。
三、AI Agent的终局是什么?
在文章开篇的“西部世界小镇(Westworldsimulation)”里,这些智能体可以与别人和环境交流(互相注意到彼此举动、发起对话或者问候)、反思这些观察结果(形成独特的个人观点)、制定每天的计划。他们拥有自己记忆和目标,会产生可信的个人和涌现的社交行为,而不是通过预先设计实现。
例如从用户指定的单一任务开始,即一个AI Agent想要举办情人节聚会,AI Agent们在接下来的时间里会自发的传播邀请、认识新朋友、互相约出参加聚会的日期,并协调在正确的时间一起出现在聚会上。
这是Agent项目里具有代表性的应用。人们之所以为这个项目感到惊讶,是因为Agent的交互出现了人类意料之外的现象。AI Agent爆发的一段时间,人们普遍认为补齐了大模型短板的AI Agent更具备实用性,将是大模型重要落地方向。
随着Agent的构建越发简单,Agent生态的成熟会让C端Agent出现百花齐放的局面,面对用户,Agent将会更加接地气,引起新一轮的爆发。
但就目前而言,这一路径的商业化存在诸多问题。拿游戏场景而言,目前收费主要来源于出售游戏装备、皮肤等方式。而AI Agent的价值无法体现在这些固有的变现途径上。并且就目前Agent落地效果来看,未出现颠覆性的能力,C端用户是否会为其买单无法得知。
更值得注意的是,随着让C端Agent百花齐放,其应用价值方面也随边际效应而无限趋向于更小量级。换言之,AI Agent能否成为AI大模型从C端商业化爆发一个最核心应用方向,还需时间验证。且即使未来会成为C端商业化爆发一个最核心应用方向,但其“寿命”并不长。
一个事实是,AI Agent最终的落脚点或将在B端。
比尔盖茨认为,智能体作为下一个平台,将会影响人们使用软件的方式以及软件的编写方式。它更擅长查找信息并为用户总结信息,能够会为用户找到最优惠的价格,将取代搜索网站及电商网站,也将取代文字处理器、电子表格和其它生产力应用程序。并且,现在各自独立的搜索广告、广告社交网络、购物、生产力软件等,都将变成智能体这一项业务。Agent会彻底改变应用软件的打开方式。
这些变革来临之前,相对于 Agent本身带来的影响,如何构建一个Agent,是一个更值得关注的问题。
Agent构建平台上,企业或将可以自己构建自己RPA、CRM、办公OA等一系列管理软件;软件厂商也可以基于此平台构建软件为企业提供服务。
对于身处或准备进入AI Agent领域的玩家而言,找到切入点以及好的商业模式至关重要。
未来AI Agent的发展将不仅仅局限于单体智能,而是会扩展到物的智能和机器人的联动。
从群体智能的角度来看,ToC可能会形成更大的社区化虚拟组织,每个人的Agent都能通过虚拟数据连接在一起;而ToB则可能形成虚拟的组织和企业,不同的企业和员工都能通过智能体纳入到网络当中。
最终,整个社会将变成一个巨大的虚实结合的网络,形成“智联网”。在这个网络中,不同的智能体将提供更强的生产力,重新塑造整个生产关系,从而提升整个社会的产能。
因此,AI Agent的发展前景非常广阔,它们将不断扩展其应用范围和影响力,为未来的社会发展带来巨大的变革和机遇。
时至今日,AI Agent虽然带来了诸多想象力,却仍旧存在诸多质疑。技术发展之路本就充满质疑与批判,科技变革对于任何一个企业与个体都是一场机遇,关键在于如何把握它。
这篇关于审视AI Agent:追捧、落地,和2024年的To B破局点的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!