全球首个“AI程序员”Deven能替代程序员吗?过了面试却不一定适合职场

2024-03-21 21:28

本文主要是介绍全球首个“AI程序员”Deven能替代程序员吗?过了面试却不一定适合职场,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

制造Devin的公司,是一家叫Cognition的10人初创公司,才成立不到2个月。

一、引言

一家成立不到两个月但拥有十名天才工程师的初创公司Cognition,搞了一个引爆科技圈的大动作。

他们推出了一款名为Devin的人工智能(AI)助手,可以协助人类软件工程师完成诸多开发任务。Devin不同于现有其他AI助手(GitHub Copilot 等 AI 编程助手),它并非单纯辅助的角色,而是能够完全独立、端到端地完成整个开发项目,包括从编写代码、修复 Bug 到最终执行的完整编程生命周期。

这是第一个真正意义上完全自主的AI软件工程师,一亮相即掀起轩然大波,因为人们担心:人类程序员是不是真要失业了?

二、Deven能力及特点

测试表现超过同辈

在 SWE-bench 基准测试(评估大模型解决 GitHub 真实问题的能力)中发现,Devin 在人类未协助时达到了 13.86% 的正确率,超过了 Claude 2(4.80%)、Llama、GPT-4(1.74%,此前的测试结果是 0%)。更重要的是,Devin在测试中没有得到任何帮助,而其他所有模型都需要帮助,即人们要准确告知模型需要编辑哪些文件。

在这里插入图片描述

这一进展,标志着AI在自主理解和解决软件开发问题方面取得了显著进步。目前,Devin已经成功通过一家AI公司面试,并且在Upwork上完成了实际工作。资深程序员在试用过Devin之后认为,它已经不仅仅是一个编程助手,简直是一个可以独立工作的员工。它可以从零构建网站、自行部署应用、学习新技术等,人类只需扮演一个下指令和监督的角色。

运作几乎完全自主

Devin的厉害之处,还在于可以规划和执行异常复杂的工程任务,这类任务通常需要数千个决策才能完成。在这之中,无论进行到任何一步,它都可以回调所有相关的上下文信息,保证任务的逻辑性,也便于随时校正。

更让人震撼的是,Devin不仅能帮人们解决代码,还囊括了与之相关的整个工作流。

譬如,当工程师需要设计一个网页游戏时,Devin首先能生成网页,接着还能完成服务端的部署,最后直接发布上线,省去了中间大量人工操作。甚至在发现漏洞之后,Devin还会回溯报错出现的位置及对应的数据,然后分析原因并给出解决方案。

此外,作为一个AI全能助手,Devin还可以帮助人类训练和微调其他AI。对于一些常见的模型,你只需要提及模型的名称,Devin自己就知道要怎样去训练。

那人们需要做什么呢?按设想,最终的Devin会让人类只需要发号施令,其他什么也不用做。

它有哪些能力?

Devin 的主要特性有:

  • 能学习使用陌生的技术。仅仅是读完一篇博客,就可以用 ControlNet 生成带有隐藏信息的图片。

  • 端到端构建和部署应用。Devin 创建了一个模拟“生命游戏”的互动网站,它根据用户的需求逐步增加功能,然后将应用部署到 Netlify 上。

  • 自主查找并修复代码库中的错误。

  • 能训练并微调自己的 AI 模型,而这仅仅只需要一个 GitHub 研究库的链接。

  • 能处理开源仓库中的 Bug 和功能请求。

  • 能为开源项目做真正的贡献,修复 Bug、提交 PR。

Deven竟是由十人小公司开发?

Devin 背后的公司 Cognition AI ,该公司成立不到2个月,核心创始团队为3名华人由:Scott Wu(首席执行官)、Steven Hao(首席技术官)和 Walden Yan(首席产品官)组成,都是很早学编程的年轻新生代。Cognition的创始成员均曾在Scale AI 、Google 、DeepMind、Waymo等公司从事过AI前沿工作。

颇为吸睛的是,初创公司Cognition虽然只有十名员工,但他们手中却握着十块IOI(国际信息学奥林匹克竞赛)金牌。IOI 是国际信息学奥林匹克竞赛,基本是国内清北保送、天才少年的所在。

三、实际体验

Devin到底是一个漂亮的Demo,还是一个已经能替代程序员的智能体,使用体验怎么,拿到测试资格的网友第一时间分享了自己的体验。

在演示中,Devin几乎已经可以独立完成很多人类程序员需要大量时间才能完成的工作,效果一点不比普通程序员差。

但是,产品能力的边界在哪里,实际体验和演示时候有差距,还的看上手实测之后的效果。

一位斯坦福的小哥在Devin发布的第一时间就联系了团队,获得了第一手体验的资格。
在这里插入图片描述
他让Devin帮它做了几个难度不一的项目,录制了一个视频,在推上写下了自己的使用感受。

首先是让Devin做一个用API获取股票价格的软件,下一个任务是让Devin做一个可以让普通用户直接与大模型下棋的网站。

最终,小哥初步总结了用Devin开发的第一个网站的使用体验。

先说优点:

  • Devin产品化做得很好,他给人的使用体验是一个完整的产品而不是只是一个简单的对话框。

  • AI是系统最关键的部分,但支撑AI功能的产品化的结构是Devin的亮点。

  • Devin能够完成自动部署,API密钥保护,随时修改和添加需求等等非常好的各种功能。

  • 产品的完成度已经非常高了,远远超过了一般的演示Demo。

再说缺点:

  • Devin的反应还很慢,当然小哥也说,因为他用的是1M的Starlink来上网,所以反应慢很有可能是他自己的原因。

  • 其次就是还不能允许用户直接自己编辑代码,而且也没法协作完成。

  • 当然,最初那个下棋的应用,难住了Devin,最终没有完成部署。而那个数据可视化的任务,似乎也有些Bug。

网友看了这个实测之后还是感觉有点失望,毕竟这个任务一个初级程序员是能做到的,但是Devin的可视化项目的结果只做出了一个有Bug的网页。看样子Devin本质上还只是一个可以上网的大模型,现在要让他解决实际问题还有难度。
在这里插入图片描述

关于这里小哥具体的体验过程,参看:Devin第一手体验:开始编码就停不下来,但要替代程序员还很远

四、通过了面试,但不一定适合职场

首个AI程序员,已经实现了突破,目前的实际体验也许没有那么的优秀,但是再经过一段时间的发展,也许数十年后,上述问题都能得到解决,等到发展的相当成熟的时候,我们也不得不思考一个问题:它真的适合职场吗?

对于Deven是否适合职场,这是一个复杂且多角度的问题。从纯技术的角度来看,发展完善的Deven无疑展现出更强大的编程能力,能够快速、准确地完成编程任务。这使得它在某些特定的、高度技术化的职场环境中,可能表现出色。

然而,职场不仅仅是技术的竞技场,它更是一个涉及人际关系、团队协作、情感沟通等多方面因素的复杂系统。在这些方面,AI程序员如Deven目前还存在明显的局限性。它无法像人类一样进行深入的交流和沟通,无法理解和感受他人的情感和需求,因此在团队协作和人际关系处理上可能存在困难。

此外,职场中的很多决策并不仅仅基于技术因素,还涉及到战略、文化、价值观等多个方面的考量。这些都需要具备丰富经验和深厚洞察力的人类来做出判断。在这方面,AI程序员如Deven可能还无法完全替代人类。

因此,虽然Deven在技术上表现出色,但要说它完全适合职场可能还为时过早。毕竟,一个真正优秀的程序员不仅需要高超的技术能力,还需要具备良好的人际交往、团队协作和情感沟通能力。未来,随着AI技术的不断发展和完善,我们或许可以期待AI程序员在更多方面展现出其优势,但同时也需要认识到其局限性和挑战。在职场中,人类和AI的协作与互补可能将是一个更为现实和可行的方向。

五、结束语

此前面对 GPT 编程时,在《新程序员 007:大模型时代的开发者》中,我们提到,GPT 的编程能力我们需要有着很大的敬畏,但彼时,GPT 并不能独立解决完整的真实编程任务。

而现在,Cognition AI 这家此前从未听闻的公司,一群年轻人,创造了这样一款产品,让 AI 编程实现了一个巨大的飞跃。同济大学特聘教授朱少民表示,“看完 Devin 让我很是震撼,AI 编程比我们预想得要快,只会写代码的程序员下岗的可能性越来越大。”

自主编码智能体Devin已现AGI雏形!它能在几分钟内自主编写整个应用程序。这是真正无代码未来的开始。

因此,尽管Deven在技术上取得了令人瞩目的成就,但我们也不能盲目地认为它就是职场的完美选择。在未来的发展中,我们或许可以期待AI在编程领域取得更大的突破,但同时也需要关注它在职场中的适应性和局限性。

这篇关于全球首个“AI程序员”Deven能替代程序员吗?过了面试却不一定适合职场的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/833914

相关文章

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

什么是 Linux Mint? 适合初学者体验的桌面操作系统

《什么是LinuxMint?适合初学者体验的桌面操作系统》今天带你全面了解LinuxMint,包括它的历史、功能、版本以及独特亮点,话不多说,马上开始吧... linux Mint 是一款基于 Ubuntu 和 Debian 的知名发行版,它的用户体验非常友好,深受广大 Linux 爱好者和日常用户的青睐,

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

Redis KEYS查询大批量数据替代方案

《RedisKEYS查询大批量数据替代方案》在使用Redis时,KEYS命令虽然简单直接,但其全表扫描的特性在处理大规模数据时会导致性能问题,甚至可能阻塞Redis服务,本文将介绍SCAN命令、有序... 目录前言KEYS命令问题背景替代方案1.使用 SCAN 命令2. 使用有序集合(Sorted Set)

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

如何选择适合孤独症兄妹的学校?

在探索适合孤独症儿童教育的道路上,每一位家长都面临着前所未有的挑战与抉择。当这份责任落在拥有孤独症兄妹的家庭肩上时,选择一所能够同时满足两个孩子特殊需求的学校,更显得尤为关键。本文将探讨如何为这样的家庭做出明智的选择,并介绍星贝育园自闭症儿童寄宿制学校作为一个值得考虑的选项。 理解孤独症儿童的独特性 孤独症,这一复杂的神经发育障碍,影响着儿童的社交互动、沟通能力以及行为模式。对于拥有孤独症兄

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统