【论文通读】VideoGUI: A Benchmark for GUI Automation from Instructional Videos

本文主要是介绍【论文通读】VideoGUI: A Benchmark for GUI Automation from Instructional Videos,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

VideoGUI: A Benchmark for GUI Automation from Instructional Videos

  • 前言
  • Abstract
  • Motivation
  • VideoGUI
    • Pipeline
    • Evaluation
  • Experiments
    • Main Results
    • Analysis
  • Conclusion

前言

数字智能体的探索又来到了新的阶段,除了常见的桌面工具如PPT,Word,Excel,对于专业工具的使用是一个值得探索的领域,此外,专业工具往往对应着复杂的操作,面对几十上百操作的任务,当前的智能体能否根据query来给出相应的回答呢,本篇VideoGUI为这些问题指明了方向。

Paperhttps://arxiv.org/pdf/2406.10227
homepagehttps://showlab.github.io/videogui/

Abstract

自动化GUI可以提高人类生产力,但是现有的工作只关注于简单的电脑任务。本文提出新的多模态benchmark VideoGUI,旨在评估以视觉为中心的GUI任务上的智能体。该数据集来源网络高质量教学视频,关注于专业和新颖软件的任务和复杂操作。评估从多角度进行:

  1. High-level Planning: 没有自然语言描述情况下从视觉角度重建子任务序列。
  2. Middle-level Planning: 根据截图和目标生成精确的动作描述。
  3. Atomic-level Execution: 特定的动作,比如准确点击。

Motivation

数字时代与计算机操作主要依赖GUIs,同时LLMs在GUI自动化上展现了潜力。但是:

  1. 但是现有基于LLMs的应用在领域和任务上受到限制。
  2. 人类熟悉基础操作,但是对新颖和高级任务上束手无策。

image.png
那么如何扩展LLMs的应用场景,同时帮助人类完成难以操作的digital任务?

  1. 当前有丰富的教学视频,用于教导普通用户执行新颖且复杂的GUI任务。
  2. 利用这些教学视频进行人工标注复现,获得高质量的标注。

image.png

VideoGUI

VideoGUI涵盖11个以视觉为中心的软件应用,具有86个复杂任务(平均每个22.7个操作)和463个子任务,以及分层的手动规划和2.7K个手动操作的注释。
应用软件类型:

  • media creation: PPT,Runway,Stable Diffusion
  • media editing: Adobe Photoshop,Premiere Pro,After Effects,CapCut,DaVinci Resolve
  • media browsing: YouTube,VLC Player,Web Stock

image.png

Pipeline

  1. 手动选择配有高质量文字记录的教学视频。为了收集人类操作轨迹,构建仿真环境来监控用户行为。
  2. 邀请志愿者复现视频内容,用模拟器记录用户的操作。
  3. 用户操作完毕提供任务文本描述,并将任务分解子任务。此外还要识别操作的活动元素。
  4. 数据集校验。

下图是任务的分布:
image.png

Evaluation

image.png
只是简单通过成功率来衡量复杂操作任务是不合适的。任务可以分解为三个阶段(High-level Planning, Middle-level Planning, Atomic-action Execution)去解决,也就可以从三个维度(子任务,每个子任务操作叙述,每个具体操作)对任务完成情况进行测评。
**High-level Planning. **将给定的指令转换成子任务,输入包括三种类别,即视觉查询、详细文本查询、视觉+文本。评估采用GPT-4-Turbo,评分范围为0-5。
**Middle-level Planning. **对于每个给定的子任务,基于观察,智能体输出合适的UI动作。包含三种模式:视觉初始状态+文本查询,文本查询,视觉状态转换。同样采用LLM进行评估。
**Atomic-action Execution. **评估模型是否能够准确输出对应的动作。包括四种通用的动作分类:点击(metric:点到指定区域的recall)、拖拽(metric:开始点和结尾点与指定区域的recall)、滚动(目的让操作元素出现在视线内 metric:视为多跳问题,计算accuracy)、打字(沙盒方案,监听按键,recall+precision进行评估)。

Experiments

Main Results

image.png
总体而言,GPT-4o取得了最好的表现。
image.png
上图研究了不同query类型对planning的影响:

  1. 对于高级和中级,仅视觉设置具有很大的挑战。
  2. 在纯文本输入上各个模型表现相似性能。说明在文本query下,文本LLM就可以满足需求。
  3. 文本+视觉并没有提升性能,说明要提升多模态的感知能力。

image.png
上图评估了不同模型在原子操作上的表现:

  • 点击:可以做出正确的估计,但是召回率差。使用OCR等工具可以提升表现。
  • 拖动:召回率都很低,OCR工具增益明显。
  • 打字:表现优秀,可能因为编码能力不错。
  • 滚动:GPT-4o表现最好。

Analysis

image.png
上图表明常见的应用(如PPT)表现更好,而专业软件上,模型性能显著下降。
image.png
上图显示的是不同操作数量任务的得分分布。随着操作数据量增加,分数不断下降,表明长序列GUI任务的难度。
image.png
上图是模型可视化的成功和失败案例。

Conclusion

本文提出针对高级GUI任务的多模式benchmark VideoGUI,这些任务来源于高质量的教学视频。VideoGUI具有较长程序任务、分层手动注释和完善的评估指标,为现有领域指明了方向。通过对当前最先进模型的比较,强调了面向视觉的 GUI 自动化的挑战以及教学视频在推进 GUI 任务自动化方面的潜力。对于这篇工作,我也有一些自己的思考:

  1. 对高级软件的自动化探索是个有趣的方向,但是仅仅通过手动构建benchmark的方式不具有扩展性。
  2. 测评采用GPT-4-turbo的方式有些不公平,毕竟他会偏向于自己的输出,并且输出得分也是不稳定的。
  3. 如何自动化收集不同工具的复杂操作是一个值得探索的方向。
  4. 视频资源采用人类复现的方式感觉没有物尽其用,应该有更好的利用这些资源的方式。

这篇关于【论文通读】VideoGUI: A Benchmark for GUI Automation from Instructional Videos的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080068

相关文章

uva 10916 Factstone Benchmark(打表)

题意是求 k ! <= 2 ^ n ,的最小k。 由于n比较大,大到 2 ^ 20 次方,所以 2 ^ 2 ^ 20比较难算,所以做一些基础的数学变换。 对不等式两边同时取log2,得: log2(k ! ) <=  log2(2 ^ n)= n,即:log2(1) + log2(2) + log2 (3) + log2(4) + ... + log2(k) <= n ,其中 n 为 2 ^

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

Golang GUI入门——andlabs ui

官方不提供gui标准库,只好寻求第三方库。 https://github.com/google/gxui 这个gui库是谷歌内部人员提供的,并不是谷歌官方出品,现在停止维护,只好作罢。 第三方gui库 找了好多,也比较了好多,最终决定使用的是还是 https://github.com/andlabs/ui 相信golang gui还会发展的更好,期待更优秀的gui库 由于andlabs