审视AI Agent：追捧、落地，和2024年的To B破局点

本文主要是介绍审视AI Agent：追捧、落地，和2024年的To B破局点，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

“十个AI应用里面，五个办公Agent，三个AIGC，还有两成是回春的数字人。”那么，Agent到底是不是大模型的AGI终局产品？

作者|斗斗

编辑|皮爷

出品|产业家

今年4月份，斯坦福和谷歌的研究者共同创建了一个“西部世界小镇（Westworldsimulation）”，在这个小镇里，25个智能体可执行类似人类的日常行为，比如起床后做早餐然后去上班，艺术家作画，作家写作。

这些就是如今人们共同谈论的“AI Agent实验”。而在国内的今年下半年，大模型市场的玩家们，似乎正齐刷刷地转向AI Agent——这个清晰可见的AGI终局产品。

一组数据显示，截止11月中旬，AI Agent赛道发生融资事件13起，总融资金额约735亿人民币，公司融资均值为56.54亿人民币。

而在国外，这一领域亦是火爆。“至少有100个项目正致力于将AI代理商业化，近10万名开发人员正在构建自主Agent。”外媒MattSchlicht曾表示。

AI Agent为何如此火爆？

关于AI Agent的想象力，一个高赞回答是：“大语言模型只能编个贪吃蛇，而AI Agent可以整出一个王者荣耀。”

成熟的AI Agent可以使软件生产大幅降低成本。未来Coding工作流中会很多Agent临时写成的软件和测试方案，不追求长期的可复用性，可以随用随抛。目前一家软件行业巨头动辄上万甚至十万人，有了AI Agent之后研发、交付需要耗费的人力和资金将大幅降低。而且使得软件可以灵活地解决更多长尾需求。

此外，AI Agent或将为LLM搭建一套框架来进行深度思考和分析，从而做出更复杂和可靠的决策。

总之，就像微软创始人比尔·盖茨所说的那样：“谁能主宰个人助理Agent，那才是大事。因为你将永远不去搜索网站，不去生产力网站，不去亚马逊。”

值得注意的是，在这种巨大的技术变革下，目前我们仍没有切身体会到AI Agent所带来的红利和变化。很明显，AI Agent的发展仍面临一些难题。

一些值得探讨的问题是，国内外AI Agent的发展现状如何？AI Agent落地的关键点是什么？以及AI Agent未来是怎样的？

一、AI Agent现状，海外VS本土

目前，国内一些科技公司已经产出了数个知名大模型，因此孕育而生的Agent智能体应用也开始逐渐进入大众视野。

例如百度将文心大模型应用到智能搜索、自动驾驶；阿里将通义千问模型应用到高德地图、优酷，盒马等产品。华为将其盘古模型应用到智能气象、语音识别等。

一家叫面壁智能的创业也公司推出了他们的AI Agent产品ChatDev，可以在短时间内完成一个软件或者一个小游戏的开发，用户所需要做的，只是提供给它一个要求。

值得注意的是，协同办公领域似乎是巨头们做AI Agent的“必经之地”。

例如钉钉魔法棒套件中，从聊天AI、文档AI、会议AI、宜搭AI、TeambitionAI等都汇集了钉钉AI产品能力；腾讯会议中的“会议助理”功能提供了一些智能化的支持，如自动总结会议纪要、转录和翻译；百度推出的智能工作平台如流搭载了文心大模型，可以实现智能创作、智能推荐等功能；字节跳动旗下的办公软件飞书宣布推出智能AI助手“MyAI”，旨在提升团队协作效率。

曾有投资人对媒体调侃：“十个AI应用里面，五个办公Agent，三个AIGC，还有两成是回春的数字人。”这不仅是国内AI Agent发展的现状，其实从国外一些诸如谷歌、微软等企业也在将AI Agent落于协同办公场景。

其实在海外，AI Agent概念从出现到爆发，已经迈过多个阶段。

在单一Agent阶段，主要是针对不同领域和场景的特定任务，开发和部署专门的智能体。以GPTengineer为例，给它一个需求，其就可以把代码写个大概。

而多Agent合作阶段，是由不同角色的Agent自动合作完成复杂的任务。例如在MetaGPT上，如果让其做一个股票分析的工具，它会把这个任务分别翻译给产品经理、架构师、项目经理等5个角色，模拟整个的软件开发中所有决策工作流。

不过，随着微软全新工具AutoGen的发布，AI Agent很快翻开了新的篇章。

AutoGen允许多个LLM智能体通过聊天来解决任务。LLM智能体可以扮演各种角色，如程序员、设计师，或者是各种角色的组合，对话过程就把任务解决了。这与MetaGPT不同，MetaGPT的角色模型是被定义好的，而AutoGen可以让开发者自己定义Agent，还可以让他们相互对话。

这是一个新的且富有创造性的Agent框架。在AutoGen发布的两个星期内，星标量从390狂增到10K，并在Discord上吸引了5000多名成员。

微软在AI Agent的布局较早。2023年3月Microsoft365Copilot发布，在当时便提示了一种基于LLM的应用开发范式，即Agent。目前，微软CopilotStudio已经支持自定义ChatGPT助手无缝集成在CRM、ERP、OA等日常办公系统中。

可以发现微软的AI Agent能力主要是从其本身业务衍生出来的，AutoGen更像是一种自身基于业务所打造的能力的外放，这与OpenAI并不相同。

OpenAI开发的GPTs，以及推出的GPT-4Turbo和可定制AI Agent，使得每个人都可以打造自己的大模型应用。诸多业内人士认为，超低的创建门槛和APP Store一样的商业模型，会让OpenAI快速构建GPTs生态。

OpenAI提供的是基础Agent的构建能力，如工具调用、基于知识库文件记忆能力等。这项产品的发布，使得AI Agent进入了另外一个新阶段，即为人人都可以打造自己的Agent提供了一种可能性。

值得注意的是，目前海外已经在零售、房地产、旅游、客户服务、人力资源、金融、制造业等多个领域出现AI Agent架构与产品。

例如零售领域的亚马逊Alexa、Aktify、Regie.ai等；房地产领域的Epique、propertypen、Listingcopy等；客户服务领域的Agent4、Ebi.Ai、JasonAI、Aide等；人力资源领域的AutonomousHRChatbot、AIInterviewCoach、CareersAI等。

总体来看，在AI Agent在底层技术、架构以及具体产品应用等方面都较为完善。像OpenAI、微软、谷歌这类科技巨头，有着先发优势。另一个可以看到的现象是，国内AI Agent的深度与广度仍有所差距。

一个值得思考的问题是，Agent落地的关键是什么？

二、Agent落地的关键：

模型？行业经验？还是载体？

当前市场上的大多数Agent，包括OpenAI推出的GPTs，其实只是构建了一个基于特定知识库或专业数据的Chatbot。这些智能体主要用于进行问答交互，如获取行业资讯、报告等。

然而，在程序联动和操作方面还有很大的提升空间。目前，我们还无法直接使用GPTs来操作SAP或金蝶等ERP系统，因为这涉及到API的应用、授权、维护以及无API管理软件的连接问题。

对于企业而言，如果GPTs等AI智能体仅用于知识问答，那么其作用将非常有限，就像一个玩具一样，因为它目前还无法深入到企业的业务流程中。

这背后的原因有很多，包括模型能力、行业经验、场景贴合度等，都会影响Agent的能力体现。

AI Agent需要具备感知环境、做出决策并执行适当行动的能力。在这些关键步骤中，最重要的是理解输入给Agent的内容、进行推理、规划、做出准确决策，并将其转化为可执行的原子动作序列，以实现最终目标。

目前，许多研究利用LLM作为AI Agent的认知核心，这些模型的发展为完成这一步骤提供了质量保证。因此，基于GPT-4的Agent表现得更加智能。

但就目前而言，包括GPT-4在内的所有大模型，能力仍需提升。

“底座模型问题都还很大，AI Agent真正落地还要等更优秀的模型。”某位身处大模型技术一线的业内人士对产业家说。

不过针对模型能力不足这一问题，智谱AI&清华KEG提出了一种对齐Agent能力的微调方法AgentTuning，该方法使用少量数据微调已有模型，显著激发了模型的Agent能力，同时可以保持模型原有的通用能力。

AI Agent的行业经验对于其落地也至关重要。

“如果一篇论文提出了某种不同的训练方法，OpenAI内部的Slack上会嗤之以鼻,因为这些都是我们玩剩下的。但是当新的AI Agents论文出来的时候,我们才会认真兴奋的讨论。”这是OpenAI联合创始人AndrejKarpathy最近发表的一段讲话。

简而言之，我们基于大模型能做出什么样的东西，说到底还是要靠行业经验，而这恰是OpenAI等一众大模型巨头们所欠缺的。

要知道，企业要引入AI Agent进行流程优化，必须经过成本控制、投入预算、实现效率、安全管控等多方面严格及缜密的评估。这就要求技术供应商提供的必须是平台级解决方案，而不是只针对单一、个别场景需求来提供的AI Agent自动化解决方案。

大型企业引入新的AI技术不允许任何试错成本，因此技术供应商给出的解决方案必须是开箱即用、具备行业Know-How术语和业务规则的真实智能体数字员工。也只有这样的标准化AI Agent，才能被纳入企业的内部编制中去统一管理和调度。

例如，一个医疗行业的AI Agent需要具备医学知识，并能够理解和处理医疗数据。一个金融行业的AI Agent需要具备金融知识，并能够理解和处理金融数据。

AI Agent的落地效果也受限于应用场景。在如出行预订中，得益于丰富的API等问题，AI Agent表现出色。而在如法律助手场景中，由于新知识的频繁出现和API的不完善，实际应用面临更多挑战。

这一点，从国内AI Agent纷纷生长于协同办公平台就可见一斑。

事实上，协同办公平台本身具备良好的API接口和插件体系，这使得将大模型集成到现有工具中变得更加容易。

此外，许多企业和组织都在使用协同办公软件，这意味着大模型可以迅速覆盖大量的潜在用户。广泛的用户基础可以加速大模型的迭代和优化过程，使其更好地满足用户需求。

还有大量的数据资源助于提高模型的性能，丰富的场景也可以推动大模型技术持续改进。

钉钉、飞书和企业微信在作为Agent载体时，也各自具有不同的优势。钉钉提供了完善的组织架构管理功能，可以方便地创建、管理和调整团队架构，使得企业能够快速搭建适应其需求的组织结构。

飞书强调实时协作和沟通，支持多人在线编辑文档、共同讨论等功能，有助于团队高效地完成协作任务。其特有的一体化，使得整个办公流程更加标准化。

企业微信与微信互通，这使得其AI Agent有可能借助微信庞大的用户数据和应用场景，提供更加个性化和场景化的服务。

站在这个角度来看，国内AI Agent扎堆协同办公领域，则变得理所当然。而找到一个适合AI Agent落地的场景或者说载体更为重要。

不过，除了协同办公，还有许多其他载体可能更适合AI Agent的落地应用。

例如智能客服、智能助手、RPA、CRM等。具体来看，在智能客服方面，AI Agent可以自动回答用户的问题，处理投诉和建议，提高客户满意度和效率。在智能助手方面，苹果公司的Siri、谷歌公司的GoogleAssistant和亚马逊公司的Alexa都是智能助手的代表。

在智能流程自动化方面，许多企业采用智能流程自动化工具，如UiPath、BluePrism等，来自动完成某些特定的业务流程。

在智能营销方面，许多营销平台都集成了AI Agent，如HubSpot、Salesforce等。这些平台的AI Agent可以通过数据分析和机器学习技术，提供精准的营销建议和预测，帮助企业更好地了解客户需求，提高销售业绩。

总而言之，模型能力是核心，行业经验是关键，载体是保障。无论是模型能力还是行业经验抑或是载体都是AI Agent落地的关键。值得注意的是，国内的软件业态，倒逼国内厂商造就了一身定制化、个性化能力，这种能力侧面验证了国内企业在技术落地上的潜力，这将会进一步推动Agent的落地。

三、AI Agent的终局是什么？

在文章开篇的“西部世界小镇（Westworldsimulation）”里，这些智能体可以与别人和环境交流（互相注意到彼此举动、发起对话或者问候）、反思这些观察结果（形成独特的个人观点）、制定每天的计划。他们拥有自己记忆和目标，会产生可信的个人和涌现的社交行为，而不是通过预先设计实现。

例如从用户指定的单一任务开始，即一个AI Agent想要举办情人节聚会，AI Agent们在接下来的时间里会自发的传播邀请、认识新朋友、互相约出参加聚会的日期，并协调在正确的时间一起出现在聚会上。

这是Agent项目里具有代表性的应用。人们之所以为这个项目感到惊讶，是因为Agent的交互出现了人类意料之外的现象。AI Agent爆发的一段时间，人们普遍认为补齐了大模型短板的AI Agent更具备实用性，将是大模型重要落地方向。

随着Agent的构建越发简单，Agent生态的成熟会让C端Agent出现百花齐放的局面，面对用户，Agent将会更加接地气，引起新一轮的爆发。

但就目前而言，这一路径的商业化存在诸多问题。拿游戏场景而言，目前收费主要来源于出售游戏装备、皮肤等方式。而AI Agent的价值无法体现在这些固有的变现途径上。并且就目前Agent落地效果来看，未出现颠覆性的能力，C端用户是否会为其买单无法得知。

更值得注意的是，随着让C端Agent百花齐放，其应用价值方面也随边际效应而无限趋向于更小量级。换言之，AI Agent能否成为AI大模型从C端商业化爆发一个最核心应用方向，还需时间验证。且即使未来会成为C端商业化爆发一个最核心应用方向，但其“寿命”并不长。

一个事实是，AI Agent最终的落脚点或将在B端。

比尔盖茨认为，智能体作为下一个平台，将会影响人们使用软件的方式以及软件的编写方式。它更擅长查找信息并为用户总结信息，能够会为用户找到最优惠的价格，将取代搜索网站及电商网站，也将取代文字处理器、电子表格和其它生产力应用程序。并且，现在各自独立的搜索广告、广告社交网络、购物、生产力软件等，都将变成智能体这一项业务。Agent会彻底改变应用软件的打开方式。

这些变革来临之前，相对于 Agent本身带来的影响，如何构建一个Agent，是一个更值得关注的问题。

Agent构建平台上，企业或将可以自己构建自己RPA、CRM、办公OA等一系列管理软件；软件厂商也可以基于此平台构建软件为企业提供服务。

对于身处或准备进入AI Agent领域的玩家而言，找到切入点以及好的商业模式至关重要。

未来AI Agent的发展将不仅仅局限于单体智能，而是会扩展到物的智能和机器人的联动。

从群体智能的角度来看，ToC可能会形成更大的社区化虚拟组织，每个人的Agent都能通过虚拟数据连接在一起；而ToB则可能形成虚拟的组织和企业，不同的企业和员工都能通过智能体纳入到网络当中。

最终，整个社会将变成一个巨大的虚实结合的网络，形成“智联网”。在这个网络中，不同的智能体将提供更强的生产力，重新塑造整个生产关系，从而提升整个社会的产能。

因此，AI Agent的发展前景非常广阔，它们将不断扩展其应用范围和影响力，为未来的社会发展带来巨大的变革和机遇。

时至今日，AI Agent虽然带来了诸多想象力，却仍旧存在诸多质疑。技术发展之路本就充满质疑与批判，科技变革对于任何一个企业与个体都是一场机遇，关键在于如何把握它。

这篇关于审视AI Agent：追捧、落地，和2024年的To B破局点的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！