首个文字生成手语模型来了!SignLLM通过文字描述来生成手语视频,目前已经支持八国手语!

本文主要是介绍首个文字生成手语模型来了!SignLLM通过文字描述来生成手语视频,目前已经支持八国手语!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

SignLLM 是目前第一个通过文字描述生成手语视频的多语言手语模型。

该项目引入了首个多语言手语数据集 Prompt2Sign,它使用工具自动采集和处理网络上的手语视频,能够不断更新,且具有轻量化特点。

该模型当前支持 8 种手语类型。包括美国手语 、德国手语、瑞士德语手语、瑞士法语手语 、瑞士意大利语手语 、阿根廷手语 、韩国手语和土耳其手语。

PS:目前未提供代码(后续提供),也期待更新中文手语~

相关链接

论文:https://arxiv.org/pdf/2405.10718

项目:https://github.com/SignLLM/Prompt2Sign

论文阅读

摘要

在本文中,我们介绍了第一个综合性的多语言手语数据集Prompt2Sign,它建立于包括美国手语(ASL)和其他七种语言在内的公共数据。我们的数据集将大量视频转换成精简的,模型友好的格式,优化与翻译模型的训练比如seq2seq和text2text。

在这个新数据集的基础上,我们提出 SignLLM是第一个多语言手语制作(SLP)模型, 它包括两种新颖的多语言SLP模式,允许从输入文本或提示生成手语手势。两者都是 模式可以使用新的损失和基于强化学习的模块, 通过增强模型自主抽取高质量数据的能力,加快了训练速度。

我们给出的基准结果SignLLM,这表明我们的模型在跨八种手语的SLP任务中的表现达到了最先进的水平。

方法

上图表示Prompt2Sign数据集主要组成部分,Prompt2Sign数据集是重新处理过的姿势数据, 哪些数据更有用,更适合训练。再处理的输入 工具是来自数据集或互联网的公共视频。

上图展示SignLLM旨在生成各种应用场景的手语姿势。

(左)Prompt2Sign数据集的数据类型和抽象表示。(中)Prompt2LangGloss和MLSF的训练过程,计算原理强化学习损失。(右)SignLLM的输出可以进行转换进入大多数姿势表示格式,然后可以渲染成现实的人类外观风格转移/特别微调生成模型。

我们用a增强Text2Gloss标记生成具有语言学意义的Gloss属性。vt()和xu()表示数据类型和抽象表示。

我们使用一些元素:User, Agent,环境,迭代更新过程,PLC的强化学习草图适用于序列预测的过程。

实验

(左)文本或提示作为模型输入。(右)我们用的是调整过的样式迁移模型,将预测的姿态视频转换为最终视频。

结论

我们提出了第一个多语言SLP模型SignLLM,该模型基于我们提出的标准化多语言手语数据集Prompt2Sign。我们的模型有两种模式,MLSF和Prompt2LangGloss,逐步融合了多样化的更多的手语,减轻了共享参数造成的问题。我们的新损耗和新模块解决了训练时间长的问题由于更大的数据集和更多的语言。

这篇关于首个文字生成手语模型来了!SignLLM通过文字描述来生成手语视频,目前已经支持八国手语!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1037378

相关文章

MybatisGenerator文件生成不出对应文件的问题

《MybatisGenerator文件生成不出对应文件的问题》本文介绍了使用MybatisGenerator生成文件时遇到的问题及解决方法,主要步骤包括检查目标表是否存在、是否能连接到数据库、配置生成... 目录MyBATisGenerator 文件生成不出对应文件先在项目结构里引入“targetProje

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Python使用qrcode库实现生成二维码的操作指南

《Python使用qrcode库实现生成二维码的操作指南》二维码是一种广泛使用的二维条码,因其高效的数据存储能力和易于扫描的特点,广泛应用于支付、身份验证、营销推广等领域,Pythonqrcode库是... 目录一、安装 python qrcode 库二、基本使用方法1. 生成简单二维码2. 生成带 Log

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram

SpringBoot生成和操作PDF的代码详解

《SpringBoot生成和操作PDF的代码详解》本文主要介绍了在SpringBoot项目下,通过代码和操作步骤,详细的介绍了如何操作PDF,希望可以帮助到准备通过JAVA操作PDF的你,项目框架用的... 目录本文简介PDF文件简介代码实现PDF操作基于PDF模板生成,并下载完全基于代码生成,并保存合并P

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

详解Java中如何使用JFreeChart生成甘特图

《详解Java中如何使用JFreeChart生成甘特图》甘特图是一种流行的项目管理工具,用于显示项目的进度和任务分配,在Java开发中,JFreeChart是一个强大的开源图表库,能够生成各种类型的图... 目录引言一、JFreeChart简介二、准备工作三、创建甘特图1. 定义数据集2. 创建甘特图3.

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行