NCMMSC-CNVSRC 2024视觉语音识别竞赛圆满落幕

2024-09-02 20:20

本文主要是介绍NCMMSC-CNVSRC 2024视觉语音识别竞赛圆满落幕,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

8月16日上午,NCMMSC-CNVSRC 2024 学术研讨会在乌鲁木齐召开的第十九届全国人机语音通讯学术会议(NCMMSC 2024)上举行。会上公布了本次视觉语音识别竞赛 CNVSRC 2024 的最终结果,并举行了颁奖仪式。

本次竞赛由 NCMMSC 2024 组委会发起,清华大学、北京邮电大学、海天瑞声和语音之家联合主办。竞赛旨在检验当前视觉语音识别(或称唇语识别)技术在中文大词表连续识别场景下的表现。

本次竞赛吸引了45支海内外队伍参赛,历经近三个月的角逐,西北工业大学、内蒙古大学、武汉大学等队伍表现突出,名列前茅。详细赛事结果及报告视频将发布在竞赛官网,敬请关注:CN-Celeb 

CNVSRC 2024 排行榜

T1 Single-speaker VSR - Fixed Track 赛道
1T237 西北工业大学 FlySpeech
2T244 内蒙古大学 Dream Boy
T1 Single-speaker VSR - Open Track 赛道
1匿名提交
2T237 西北工业大学 FlySpeech
T2 Multi-speaker VSR - Fixed Track 赛道
1T237 西北工业大学 FlySpeech
2匿名提交
3T244 内蒙古大学 Dream Boy
T2 Multi-speaker VSR - Open Track 赛道
1T237 西北工业大学 FlySpeech
2匿名提交
3T405 武汉大学 Sophin

本次研讨会由清华大学王东教授主持。海天瑞声CMO王潇蔓女士和语音之家创始人兼CEO卜辉先生为获奖团队颁奖。北京邮电大学刘泽华同学分享了基线系统与技术报告,三支优秀参赛队伍代表还受邀分享了他们的技术方案和赛事经验。

图片

清华大学王东教授主持技术交流会

图片

海天瑞声CMO王潇蔓致辞并主持颁奖

图片

语音之家创始人兼CEO卜辉致辞并主持颁奖

图片

北京邮电大学刘泽华同学分享基线系统与技术报告

图片

西北工业大学、内蒙古大学、武汉大学团队代表领奖

图片

西北工业大学团队代表技术分享

图片

内蒙古大学团队代表线上技术分享

图片

武汉大学团队代表线上技术分享

图片

图片

CNVSRC 2024 组委会成员

图片

视觉语音识别

视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了 CN-CVS 数据集[1],成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能,并于同年举办了 CNVSRC 2023 竞赛[2],推动了唇语识别在中文领域的进展。

为了进一步推动这一研究方向,清华大学联合北京邮电大学、海天瑞声和语音之家在 NCMMSC 2024 继续举办了中文连续视觉语音识别挑战赛 (Chinese Continuous Visual Speech Recognition Challenge 2024, CNVSRC 2024)。本次竞赛中,许多参赛队伍在唇语识别任务上实现了系统性能的显著提升,其中最佳成绩相较于基线系统提升了超过30%。此外,与 CNVSRC 2023 相比,2024年各赛道的成绩均有明显进步。各支参赛队伍提出了诸多创新方案,为中文大词表连续视觉语音识别研究提供了新的思路和方法。

[1]  C. Chen, D. Wang, T.F. Zheng, CN-CVS: A Mandarin Audio-Visual Dataset for Large Vocabulary Continuous Visual to Speech Synthesis, ICASSP, 2023.

[2] C. Chen, Z. Liu, X. Li, L. Li, D. Wang, CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge, INTERSPEECH, 2024.

这篇关于NCMMSC-CNVSRC 2024视觉语音识别竞赛圆满落幕的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1130972

相关文章

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推