本文主要是介绍语音识别不太容易,需要找到一个更容易上的台阶,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
也比如“唱歌”。科大讯飞1024开发者大会上,一位“虚拟人”就上台展示了如同真人般的语音交谈,她甚至还能唱歌——让我们再次回到世纪之交,2000年那会儿,雅马哈公司开始研发一款让电脑唱歌的软件“VOCALOID”。
几年后,基于VOCALOID系统的一个声库“初音未来”,成了今天业界讨论“虚拟人”与“虚拟偶像”话题绕不开的名字。很多鼓吹虚拟偶像的媒体不会告诉你的是,她只是一个提线木偶,由编曲者告诉她该唱什么、该怎么唱,要细化到每一个音节都要用一大堆参数去指定她来工作,即使如此,你还是能一耳朵就听出来这是电子歌姬的声音。而在声音之外的形象上,她也不是官方塑造的产物,而是在创作者们的二次创作下,才逐渐拥有了更清晰的形态、更圆满的故事与性格。
今天的虚拟人呢?他们早已学会了自主地完成唱歌的任务,比如科大讯飞的“虚拟人爱加”、从微软独立的“小冰”。这也是你看得见的人工智能。
虚拟人“爱加”
今天的虚拟人还要能听懂人说话,这是更漫长的长跑。
2002年,科大讯飞的科学家们开始尝试让电脑听懂声音——从普通话等级考试的答题开始。
为什么是普通话等级考试?当然是因为语音识别不太容易,需要找到一个更容易上的台阶。你想象一下这两样任务:
A. 让电脑直接听你说话,猜猜你在说什么;
B. 让电脑预先知道你在读什么,然后听听你读得对不对。
哪个更容易实现?当然是B。这是技术路线“可达性”方面的原因,但还另有玄机。
这篇关于语音识别不太容易,需要找到一个更容易上的台阶的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!