【论文通读】VideoGUI: A Benchmark for GUI Automation from Instructional Videos

本文主要是介绍【论文通读】VideoGUI: A Benchmark for GUI Automation from Instructional Videos，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

VideoGUI: A Benchmark for GUI Automation from Instructional Videos

前言
Abstract
Motivation
VideoGUI
- Pipeline
- Evaluation
Experiments
- Main Results
- Analysis
Conclusion

前言

数字智能体的探索又来到了新的阶段，除了常见的桌面工具如PPT，Word，Excel，对于专业工具的使用是一个值得探索的领域，此外，专业工具往往对应着复杂的操作，面对几十上百操作的任务，当前的智能体能否根据query来给出相应的回答呢，本篇VideoGUI为这些问题指明了方向。

Paper	https://arxiv.org/pdf/2406.10227
homepage	https://showlab.github.io/videogui/

Abstract

自动化GUI可以提高人类生产力，但是现有的工作只关注于简单的电脑任务。本文提出新的多模态benchmark VideoGUI，旨在评估以视觉为中心的GUI任务上的智能体。该数据集来源网络高质量教学视频，关注于专业和新颖软件的任务和复杂操作。评估从多角度进行：

High-level Planning： 没有自然语言描述情况下从视觉角度重建子任务序列。
Middle-level Planning： 根据截图和目标生成精确的动作描述。
Atomic-level Execution： 特定的动作，比如准确点击。

Motivation

数字时代与计算机操作主要依赖GUIs，同时LLMs在GUI自动化上展现了潜力。但是：

但是现有基于LLMs的应用在领域和任务上受到限制。
人类熟悉基础操作，但是对新颖和高级任务上束手无策。

那么如何扩展LLMs的应用场景，同时帮助人类完成难以操作的digital任务？

当前有丰富的教学视频，用于教导普通用户执行新颖且复杂的GUI任务。
利用这些教学视频进行人工标注复现，获得高质量的标注。

VideoGUI

VideoGUI涵盖11个以视觉为中心的软件应用，具有86个复杂任务（平均每个22.7个操作）和463个子任务，以及分层的手动规划和2.7K个手动操作的注释。
应用软件类型：

media creation： PPT，Runway，Stable Diffusion
media editing： Adobe Photoshop，Premiere Pro，After Effects，CapCut，DaVinci Resolve
media browsing： YouTube，VLC Player，Web Stock

Pipeline

手动选择配有高质量文字记录的教学视频。为了收集人类操作轨迹，构建仿真环境来监控用户行为。
邀请志愿者复现视频内容，用模拟器记录用户的操作。
用户操作完毕提供任务文本描述，并将任务分解子任务。此外还要识别操作的活动元素。
数据集校验。

下图是任务的分布：

Evaluation

只是简单通过成功率来衡量复杂操作任务是不合适的。任务可以分解为三个阶段（High-level Planning, Middle-level Planning, Atomic-action Execution）去解决，也就可以从三个维度（子任务，每个子任务操作叙述，每个具体操作）对任务完成情况进行测评。
**High-level Planning. **将给定的指令转换成子任务，输入包括三种类别，即视觉查询、详细文本查询、视觉+文本。评估采用GPT-4-Turbo，评分范围为0-5。
**Middle-level Planning. **对于每个给定的子任务，基于观察，智能体输出合适的UI动作。包含三种模式：视觉初始状态+文本查询，文本查询，视觉状态转换。同样采用LLM进行评估。
**Atomic-action Execution. **评估模型是否能够准确输出对应的动作。包括四种通用的动作分类：点击（metric：点到指定区域的recall）、拖拽（metric：开始点和结尾点与指定区域的recall）、滚动（目的让操作元素出现在视线内 metric：视为多跳问题，计算accuracy）、打字（沙盒方案，监听按键，recall+precision进行评估）。

Experiments

Main Results

总体而言，GPT-4o取得了最好的表现。

上图研究了不同query类型对planning的影响：

对于高级和中级，仅视觉设置具有很大的挑战。
在纯文本输入上各个模型表现相似性能。说明在文本query下，文本LLM就可以满足需求。
文本+视觉并没有提升性能，说明要提升多模态的感知能力。

上图评估了不同模型在原子操作上的表现：

点击：可以做出正确的估计，但是召回率差。使用OCR等工具可以提升表现。
拖动：召回率都很低，OCR工具增益明显。
打字：表现优秀，可能因为编码能力不错。
滚动：GPT-4o表现最好。

Analysis

上图表明常见的应用（如PPT）表现更好，而专业软件上，模型性能显著下降。

上图显示的是不同操作数量任务的得分分布。随着操作数据量增加，分数不断下降，表明长序列GUI任务的难度。

上图是模型可视化的成功和失败案例。

Conclusion

本文提出针对高级GUI任务的多模式benchmark VideoGUI，这些任务来源于高质量的教学视频。VideoGUI具有较长程序任务、分层手动注释和完善的评估指标，为现有领域指明了方向。通过对当前最先进模型的比较，强调了面向视觉的 GUI 自动化的挑战以及教学视频在推进 GUI 任务自动化方面的潜力。对于这篇工作，我也有一些自己的思考：