首个文字生成手语模型来了!SignLLM通过文字描述来生成手语视频,目前已经支持八国手语!

本文主要是介绍首个文字生成手语模型来了!SignLLM通过文字描述来生成手语视频,目前已经支持八国手语!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

SignLLM 是目前第一个通过文字描述生成手语视频的多语言手语模型。

该项目引入了首个多语言手语数据集 Prompt2Sign,它使用工具自动采集和处理网络上的手语视频,能够不断更新,且具有轻量化特点。

该模型当前支持 8 种手语类型。包括美国手语 、德国手语、瑞士德语手语、瑞士法语手语 、瑞士意大利语手语 、阿根廷手语 、韩国手语和土耳其手语。

PS:目前未提供代码(后续提供),也期待更新中文手语~

相关链接

论文:https://arxiv.org/pdf/2405.10718

项目:https://github.com/SignLLM/Prompt2Sign

论文阅读

摘要

在本文中,我们介绍了第一个综合性的多语言手语数据集Prompt2Sign,它建立于包括美国手语(ASL)和其他七种语言在内的公共数据。我们的数据集将大量视频转换成精简的,模型友好的格式,优化与翻译模型的训练比如seq2seq和text2text。

在这个新数据集的基础上,我们提出 SignLLM是第一个多语言手语制作(SLP)模型, 它包括两种新颖的多语言SLP模式,允许从输入文本或提示生成手语手势。两者都是 模式可以使用新的损失和基于强化学习的模块, 通过增强模型自主抽取高质量数据的能力,加快了训练速度。

我们给出的基准结果SignLLM,这表明我们的模型在跨八种手语的SLP任务中的表现达到了最先进的水平。

方法

上图表示Prompt2Sign数据集主要组成部分,Prompt2Sign数据集是重新处理过的姿势数据, 哪些数据更有用,更适合训练。再处理的输入 工具是来自数据集或互联网的公共视频。

上图展示SignLLM旨在生成各种应用场景的手语姿势。

(左)Prompt2Sign数据集的数据类型和抽象表示。(中)Prompt2LangGloss和MLSF的训练过程,计算原理强化学习损失。(右)SignLLM的输出可以进行转换进入大多数姿势表示格式,然后可以渲染成现实的人类外观风格转移/特别微调生成模型。

我们用a增强Text2Gloss标记生成具有语言学意义的Gloss属性。vt()和xu()表示数据类型和抽象表示。

我们使用一些元素:User, Agent,环境,迭代更新过程,PLC的强化学习草图适用于序列预测的过程。

实验

(左)文本或提示作为模型输入。(右)我们用的是调整过的样式迁移模型,将预测的姿态视频转换为最终视频。

结论

我们提出了第一个多语言SLP模型SignLLM,该模型基于我们提出的标准化多语言手语数据集Prompt2Sign。我们的模型有两种模式,MLSF和Prompt2LangGloss,逐步融合了多样化的更多的手语,减轻了共享参数造成的问题。我们的新损耗和新模块解决了训练时间长的问题由于更大的数据集和更多的语言。

这篇关于首个文字生成手语模型来了!SignLLM通过文字描述来生成手语视频,目前已经支持八国手语!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1037378

相关文章

定价129元!支持双频 Wi-Fi 5的华为AX1路由器发布

《定价129元!支持双频Wi-Fi5的华为AX1路由器发布》华为上周推出了其最新的入门级Wi-Fi5路由器——华为路由AX1,建议零售价129元,这款路由器配置如何?详细请看下文介... 华为 Wi-Fi 5 路由 AX1 已正式开售,新品支持双频 1200 兆、配有四个千兆网口、提供可视化智能诊断功能,建

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

浅析如何使用Swagger生成带权限控制的API文档

《浅析如何使用Swagger生成带权限控制的API文档》当涉及到权限控制时,如何生成既安全又详细的API文档就成了一个关键问题,所以这篇文章小编就来和大家好好聊聊如何用Swagger来生成带有... 目录准备工作配置 Swagger权限控制给 API 加上权限注解查看文档注意事项在咱们的开发工作里,API

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

Java如何获取视频文件的视频时长

《Java如何获取视频文件的视频时长》文章介绍了如何使用Java获取视频文件的视频时长,包括导入maven依赖和代码案例,同时,也讨论了在运行过程中遇到的SLF4J加载问题,并给出了解决方案... 目录Java获取视频文件的视频时长1、导入maven依赖2、代码案例3、SLF4J: Failed to lo

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus

Python实现多路视频多窗口播放功能

《Python实现多路视频多窗口播放功能》这篇文章主要为大家详细介绍了Python实现多路视频多窗口播放功能的相关知识,文中的示例代码讲解详细,有需要的小伙伴可以跟随小编一起学习一下... 目录一、python实现多路视频播放功能二、代码实现三、打包代码实现总结一、python实现多路视频播放功能服务端开

Java使用POI-TL和JFreeChart动态生成Word报告

《Java使用POI-TL和JFreeChart动态生成Word报告》本文介绍了使用POI-TL和JFreeChart生成包含动态数据和图表的Word报告的方法,并分享了实际开发中的踩坑经验,通过代码... 目录前言一、需求背景二、方案分析三、 POI-TL + JFreeChart 实现3.1 Maven

Python实现视频转换为音频的方法详解

《Python实现视频转换为音频的方法详解》这篇文章主要为大家详细Python如何将视频转换为音频并将音频文件保存到特定文件夹下,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5. 注意事项