【论文通读】VideoGUI: A Benchmark for GUI Automation from Instructional Videos

本文主要是介绍【论文通读】VideoGUI: A Benchmark for GUI Automation from Instructional Videos,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

VideoGUI: A Benchmark for GUI Automation from Instructional Videos

  • 前言
  • Abstract
  • Motivation
  • VideoGUI
    • Pipeline
    • Evaluation
  • Experiments
    • Main Results
    • Analysis
  • Conclusion

前言

数字智能体的探索又来到了新的阶段,除了常见的桌面工具如PPT,Word,Excel,对于专业工具的使用是一个值得探索的领域,此外,专业工具往往对应着复杂的操作,面对几十上百操作的任务,当前的智能体能否根据query来给出相应的回答呢,本篇VideoGUI为这些问题指明了方向。

Paperhttps://arxiv.org/pdf/2406.10227
homepagehttps://showlab.github.io/videogui/

Abstract

自动化GUI可以提高人类生产力,但是现有的工作只关注于简单的电脑任务。本文提出新的多模态benchmark VideoGUI,旨在评估以视觉为中心的GUI任务上的智能体。该数据集来源网络高质量教学视频,关注于专业和新颖软件的任务和复杂操作。评估从多角度进行:

  1. High-level Planning: 没有自然语言描述情况下从视觉角度重建子任务序列。
  2. Middle-level Planning: 根据截图和目标生成精确的动作描述。
  3. Atomic-level Execution: 特定的动作,比如准确点击。

Motivation

数字时代与计算机操作主要依赖GUIs,同时LLMs在GUI自动化上展现了潜力。但是:

  1. 但是现有基于LLMs的应用在领域和任务上受到限制。
  2. 人类熟悉基础操作,但是对新颖和高级任务上束手无策。

image.png
那么如何扩展LLMs的应用场景,同时帮助人类完成难以操作的digital任务?

  1. 当前有丰富的教学视频,用于教导普通用户执行新颖且复杂的GUI任务。
  2. 利用这些教学视频进行人工标注复现,获得高质量的标注。

image.png

VideoGUI

VideoGUI涵盖11个以视觉为中心的软件应用,具有86个复杂任务(平均每个22.7个操作)和463个子任务,以及分层的手动规划和2.7K个手动操作的注释。
应用软件类型:

  • media creation: PPT,Runway,Stable Diffusion
  • media editing: Adobe Photoshop,Premiere Pro,After Effects,CapCut,DaVinci Resolve
  • media browsing: YouTube,VLC Player,Web Stock

image.png

Pipeline

  1. 手动选择配有高质量文字记录的教学视频。为了收集人类操作轨迹,构建仿真环境来监控用户行为。
  2. 邀请志愿者复现视频内容,用模拟器记录用户的操作。
  3. 用户操作完毕提供任务文本描述,并将任务分解子任务。此外还要识别操作的活动元素。
  4. 数据集校验。

下图是任务的分布:
image.png

Evaluation

image.png
只是简单通过成功率来衡量复杂操作任务是不合适的。任务可以分解为三个阶段(High-level Planning, Middle-level Planning, Atomic-action Execution)去解决,也就可以从三个维度(子任务,每个子任务操作叙述,每个具体操作)对任务完成情况进行测评。
**High-level Planning. **将给定的指令转换成子任务,输入包括三种类别,即视觉查询、详细文本查询、视觉+文本。评估采用GPT-4-Turbo,评分范围为0-5。
**Middle-level Planning. **对于每个给定的子任务,基于观察,智能体输出合适的UI动作。包含三种模式:视觉初始状态+文本查询,文本查询,视觉状态转换。同样采用LLM进行评估。
**Atomic-action Execution. **评估模型是否能够准确输出对应的动作。包括四种通用的动作分类:点击(metric:点到指定区域的recall)、拖拽(metric:开始点和结尾点与指定区域的recall)、滚动(目的让操作元素出现在视线内 metric:视为多跳问题,计算accuracy)、打字(沙盒方案,监听按键,recall+precision进行评估)。

Experiments

Main Results

image.png
总体而言,GPT-4o取得了最好的表现。
image.png
上图研究了不同query类型对planning的影响:

  1. 对于高级和中级,仅视觉设置具有很大的挑战。
  2. 在纯文本输入上各个模型表现相似性能。说明在文本query下,文本LLM就可以满足需求。
  3. 文本+视觉并没有提升性能,说明要提升多模态的感知能力。

image.png
上图评估了不同模型在原子操作上的表现:

  • 点击:可以做出正确的估计,但是召回率差。使用OCR等工具可以提升表现。
  • 拖动:召回率都很低,OCR工具增益明显。
  • 打字:表现优秀,可能因为编码能力不错。
  • 滚动:GPT-4o表现最好。

Analysis

image.png
上图表明常见的应用(如PPT)表现更好,而专业软件上,模型性能显著下降。
image.png
上图显示的是不同操作数量任务的得分分布。随着操作数据量增加,分数不断下降,表明长序列GUI任务的难度。
image.png
上图是模型可视化的成功和失败案例。

Conclusion

本文提出针对高级GUI任务的多模式benchmark VideoGUI,这些任务来源于高质量的教学视频。VideoGUI具有较长程序任务、分层手动注释和完善的评估指标,为现有领域指明了方向。通过对当前最先进模型的比较,强调了面向视觉的 GUI 自动化的挑战以及教学视频在推进 GUI 任务自动化方面的潜力。对于这篇工作,我也有一些自己的思考:

  1. 对高级软件的自动化探索是个有趣的方向,但是仅仅通过手动构建benchmark的方式不具有扩展性。
  2. 测评采用GPT-4-turbo的方式有些不公平,毕竟他会偏向于自己的输出,并且输出得分也是不稳定的。
  3. 如何自动化收集不同工具的复杂操作是一个值得探索的方向。
  4. 视频资源采用人类复现的方式感觉没有物尽其用,应该有更好的利用这些资源的方式。

这篇关于【论文通读】VideoGUI: A Benchmark for GUI Automation from Instructional Videos的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080068

相关文章

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。

【python】python基于akshare企业财务数据对比分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 系列文章目录 目录 系列文章目录一、设计要求二、设计思路三、可视化分析 一、设计要求 选取中铁和贵州茅

AIGC-Animate Anyone阿里的图像到视频 角色合成的框架-论文解读

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的

GUI (图形界面)知识点

一:组件知识点 JTextField:    作用:  定义文本域,只支持单行输入。                使用:  定义文本域:  JTextField jtf=new JTextField(20); //20为列数(列:近似平均字符宽度,它与平台有关)                        获取值:      String jtfText=jtf.getText();

【python】python股票量化交易策略分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 【python】python股票量化交易策略分析可视化(源码+数据集+论文)【独一无二】 目录 【python】pyt

springboot+vue+mybatis旅游管理+PPT+论文+讲解+售后

随着人民生活水平的提高,旅游业已经越来越大众化,而旅游业的核心是信息,不论是对旅游管理部门、对旅游企业,或是对旅游者而言,有效的获取旅游信息,都显得特别重要.旅游管理系统将使旅游相关信息管理工作规范化、信息化、程序化,提供旅游景点、旅游线路,旅游新闻等服务本文以jsp为开发技术,实现了一个旅游网站系统。旅游网站系统的主要使用者分为管理员和用户,管理员权限如下;主页、个人中心、景点分类管理、景点信息