首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
webarena专题
[阅读笔记25][WebArena]A Realistic Web Environment for Building Autonomous Agents
这篇论文提出了WebArena这个环境与测试基准,在24年1月发表。 之前的agent都是在一些简化过的合成环境中测试的,这会导致与现实场景脱节。这篇论文构建了一个高度逼真、可复现的环境。该环境涉及四个领域:电子商务、论坛讨论、软件开发和内容管理。基于环境又引入了一组基准任务,用来评估任务完成的正确性,这些任务可以模拟人类在互联网上的日常行为。另外该基准被证明是具有挑战性的,GPT-
阅读更多...