2018AI开发者大会:推进语音事业发展,标贝科技首次免费开放TTS数据库

本文主要是介绍2018AI开发者大会:推进语音事业发展,标贝科技首次免费开放TTS数据库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2018年11月8至11日,由中国IT社区CSDN与硅谷AI社区AICamp联合举办的2018 AI开发者大会在北京盛大召开,来自Google、Amazon、微软、Facebook、LinkedIn、阿里巴巴、百度、腾讯、美团、京东、小米、字节跳动、滴滴、标贝科技、第四范式等国内外领军企业的60余位一线技术大咖将带来一场技术头脑风暴。

 

据悉,本次大会也是本年度人工智能领域面向专业开发者的一次高规格技术盛会,议题涉及多个AI领域,包括知识图谱、机器学习、智慧金融、自然语言处理、语音技术、计算机视觉、数据分析等,对我国人工智能产业的发展和技术应用的深入落地有着极大推动作用。

在语音技术专题演讲上,扎根该领域国内明星创企出门问问、云知声、标贝科技等公司分别在远场语音交互、声纹识别、AIoT 智能交互等不同细分技术领域讲述了技术实践、应用实践以及现阶段遇到的技术瓶颈,并给出了可能的解决方案。

 

“AIoT”即“AI+IoT”,指的是人工智能技术与物联网在实际应用中的落地融合。当前,已经有越来越多的人将AI与IoT结合到一起来

看,AIoT作为各大传统行业智能化升级的最佳通道,已经成为物联网发展的必然趋势。

在基于IoT技术的市场里,与人发生联系的场景(如智能家居、自动驾驶、智慧医疗、智慧办公)正在变得越来越多。而只要是与人发生联系的地方,势必都会涉及人机交互的需求。而随着智能终端设备的爆发,用户对于人与机器间的交互体验也提出了全新要求——机器声音更自然,更像真人,使得语音合成(TTS)市场被逐渐激发起来。

 

标贝科技联合创始人&CTO李秀林看来,语音合成技术作为一项有着悠久历史的技术手段,近两年所运用的技术更新发展得非常快。特别是在今年,端对端技术与神经网络声码器相结合的运用对合成语音的可懂度和自然度有了质的提升,以标贝科技为代表的智能语音企业得以为更多企业找到落地场景。

据悉,标贝科技甚至打造了一个“声音超市”,为合作伙伴提供了一个可供选择的,所听即所得的声音平台,助力智能产品向“人性化”发展。

 

根据语音合成的实践现状:端到端实际控制难、语音数据少、GPU价格高三大问题,李秀林也提出了解决方案。首先,将输入维度从数万维降为数十维,降低控制难度。其次,充分利用文本数据,构建前端模块,并选择合适的声码器,降低运算量,以此推动语音合成的应用成本降低、应用领域不断向纵深发展。

同时,李秀林在大会上宣布:标贝科技首次免费开放语音合成数据库,数据规模达到10000句,总时长约12小时,以支持非商业用途的学术研究,与行业携手推进语音事业的发展。

 

此次数据开放的决定得到了大会参与者和同行业的一致高度赞扬。标贝科技认为,在目前这一阶段下,降低数据获取难度可以推动技术的更新迭代,当更多应用场景涌现、社会效益显现时,语音合成才会真正爆发出巨大的能量。

 

 

TTS数据获取方式

关注标贝科技微信公众号(biaobeikeji),直接下载数据包

 

这篇关于2018AI开发者大会:推进语音事业发展,标贝科技首次免费开放TTS数据库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/249407

相关文章

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展

【科技明说 | 科技热点关注】 2024戴尔科技峰会在8月如期举行,虽然因事未能抵达现场参加,我只是观看了网上在线直播,也未能采访到DTF现场重要与会者,但是通过数十年对戴尔的跟踪与观察,我觉得2024戴尔科技峰会给业界传递了6大重要信号。不妨简单聊聊:从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展? 1)退出中国的谣言不攻自破。 之前有不良媒体宣扬戴尔将退出中国的谣言,随着2

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

免费也能高质量!2024年免费录屏软件深度对比评测

我公司因为客户覆盖面广的原因经常会开远程会议,有时候说的内容比较广需要引用多份的数据,我记录起来有一定难度,所以一般都用录屏工具来记录会议内容。这次我们来一起探索有什么免费录屏工具可以提高我们的工作效率吧。 1.福晰录屏大师 链接直达:https://www.foxitsoftware.cn/REC/  录屏软件录屏功能就是本职,这款录屏工具在录屏模式上提供了多种选项,可以选择屏幕录制、窗口

深入理解数据库的 4NF:多值依赖与消除数据异常

在数据库设计中, "范式" 是一个常常被提到的重要概念。许多初学者在学习数据库设计时,经常听到第一范式(1NF)、第二范式(2NF)、第三范式(3NF)以及 BCNF(Boyce-Codd范式)。这些范式都旨在通过消除数据冗余和异常来优化数据库结构。然而,当我们谈到 4NF(第四范式)时,事情变得更加复杂。本文将带你深入了解 多值依赖 和 4NF,帮助你在数据库设计中消除更高级别的异常。 什么是

DM8数据库安装后配置

1 前言 在上篇文章中,我们已经成功将库装好。在安装完成后,为了能够更好地满足应用需求和保障系统的安全稳定运行,通常需要进行一些基本的配置。下面是一些常见的配置项: 数据库服务注册:默认包含14个功能模块,将这些模块注册成服务后,可以更好的启动和管理这些功能;基本的实例参数配置:契合应用场景和发挥系统的最大性能;备份:有备无患;… 2 注册实例服务 注册了实例服务后,可以使用系统服务管理,

HomeBank:开源免费的个人财务管理软件

在个人财务管理领域,找到一个既免费又开源的解决方案并非易事。HomeBank 正是这样一个项目,它不仅提供了强大的功能,还拥有一个活跃的社区,不断推动其发展和完善。 开源免费:HomeBank 是一个完全开源的项目,用户可以自由地使用、修改和分发。用户友好的界面:提供直观的图形用户界面,使得非技术用户也能轻松上手。数据导入支持:支持从 Quicken、Microsoft Money