[置顶] Android下通过pocketsphinx实现离线语音识别的环境搭建和demo运行

本文主要是介绍[置顶] Android下通过pocketsphinx实现离线语音识别的环境搭建和demo运行,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:因为在学校要做语音相关的开发,并且应用环境多数是在无网络状态下,故要用到离线语音识别。经过一番查阅,发现目前在做离线语音识别的,尤其是android环境下的离线语音识别的人确实很少。(插一句如果想要实现离线语音合成的可以看一下中科院慧声语音工作室提供的开放平台)在查阅资料期间联系过许多android方面经验丰富的前辈、朋友,但都没有接触过这个。因为是0基础,所以基本碰到一个东西就是新的,需要一点一点的学,不过即使现在能够成功运行demo,但也只是大体上的了解,主要是应用,用到什么学什么,并不深入。

下面,我将根据自己搭建环境和运行中遇到的问题,说一下自己的问题和解决方法,最后给出相关下载链接,给大家节省些时间,希望能帮助到遇到类似问题的朋友,也希望能互相学习交流。

由于许多朋友需要源代码,我便将我用过的源代码及声学模型和词典放到了csdn资源中供大家下载地址如下所示:http://download.csdn.net/detail/loveannuoa/5386461  这个工程和下面说的第二个链接代码是一样的,只是声学模型和词典不同,这个工程的数据是我自己弄的。

另外,本篇文章主要说的再linux下搭建环境,windows下的环境我也搭建完成,如果有不明白的可以先看一下我的另一篇关于windows下搭建环境的文章:http://blog.csdn.net/loveannuoa/article/details/8689478

 

重要提示:有一点之前没有说明,在整个环境配置中涉及了两个demo,一个是官方提供的即http://sourceforge.net/projects/cmusphinx/files/?source=navbar

另一个则是http://zuoshu.iteye.com/blog/1463867其中的。后者是“zuoshu”自己修改后的。根据测试,能够达到中文高识别率的是后者,即使唤作简单的中文数据词典文件,用前者的程序也没法识别。

搭建环境篇

注意:我在网上查到的几个搭建环境的帖子中都是针对Linux系统下的,一开始我没有注意到这个问题,是在windows下用cygwin模拟linux下做的,结果都没有成功。所以建议大家如果对cygwin中各种包、命令、错误不是很熟悉的情况下还是用linux系统吧,我是用的Ubuntu12.04和win7双系统,VM太卡受不了。下面指出的搭建环境的方法虽然能将demo运行起来,但识别率和识别速度实在是太难以让人满意,所以在中文识别篇中有提高识别率的方法。

我是通过两篇文章搭建的环境,分别是,

(1)http://blog.csdn.net/sununs11/article/details/8034294

         这个是CSDN中原版的android下利用pocketsphinx实现离线语音识别环境搭建方法,在myException网站和csdn其他博客中也有转载。通过这篇文章能够顺利的将demo跑起来。

(2)http://ucla.jamesyxu.com/?p=118

         这个应该是最早的讲解android离线语音识别的,而且确实不愧是老外的东西,讲解的很细致,同时也有问题分析。但这个教程中得第四步,即在demo的swig文件夹中运行”make”指令的这一步我始终没有执行过去,老是出错(错误会在下边指出)。作者貌似挺牛逼的,对网友们提出的问题都很热心的解答(但不知为什么我给他发过邮件,却一直没有点我,难道有反华倾向,呵呵)。

主要问题和注意事项集中在:

(1)    在安装sphinxbase和pocketsphinx包的时候会提示缺少其他的包(例如bison、libtool等),这个比较简单在cygwin下直接运行setup安装相应的包,如果在linux系统下直接用“sudo apt-get install “包名””就可以安装缺少的包。

(2)   在执行在swig目下make这一步中,首先,swig是需要单独安装,cygwin安装方法和(1)中类似,ubuntu下可以通过软件库下载安装。其次,无论在cygwin还是在ubuntu下都怎么弄都不成功,在cygwin下会提示问题(1)中提到的两个包未找到,这种情况可以参考http://cgwxyz.blog.163.com/blog/static/262806020105307929424/。另外,解决这个问题后还会出现.c文件中函数未定义的错误,我感觉这是cygwin本身的不足,可能就跟两个包没安装好有关。

在Ubuntu下,错误提示是缺少jni.h,这个包在jdk/include中,但无论我用“make  -I “jni.h的路径””将.h包含进来还直接将.h文件拷贝过来都依旧提示该错误。我没能解决了,如果大家有感兴趣的可以试一下,弄好了希望能通知一下,互相学习一下。

(3)    在demo的jni目录下执行ndk编译的时候,一定先修改Android.mk文件中SPHINX_PATH路径,修改时要将连同”$”在内的原来的路径都删掉,改成自己安装两个包的父目录,对于cygwin下要以“/cygdrive/….”开头,同样linux系统下也要先以”/”开头。

(4)    在更改工程属性中的swig和ndk时,要注意对于swig,在refresh选项中时选择的”thefloder…..”,而对于ndk则选择的是”theproject…..”,不要当做一样的,一定仔细按照步骤进行。


中文识别篇

我个人的理解:语音识别除了demo工程外还需要中/英文声学模型和语言模型,也就是环境搭建最后提到的hmm和lm文件夹,这两个文件夹在pocketsphinx中有,但是将这两个文件夹放入设备中测试时,不论中文还是英文识别率都很低而且识别速度也很慢。

因此以下几篇文章给出了解决办法:

(1)http://zuoshu.iteye.com/blog/1463867

这篇文章可以实现英文的识别,但是提到的中文识别目前我本人未实现,原因在于本文所给出的在线生成语音模型和字典的网站无法解析中文,只能生成英文字典。但是这篇文章给出了一个很好的生成语言模型和字典文件的网址

http://www.speech.cs.cmu.edu/tools/lmtool-new.html

 

(2)http://www.cnblogs.com/yin52133/archive/2012/07/12/2588201.html#2525875

这个是在demo跑起来之后,为解决识别中文的办法。特点:速度快,识别率很高,但是范围小。而且对于.dic字典文件来说需要自己设计,这就需要有一个比较规范字典文件模板作比照,可以用pocketsphinx/model/lm/zh_CN中得字典文件,同时也可以用上述链接中提到的zh_broadcastnews_utf8.dic,下载地址是:

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/

 

以下是在环境搭建和demo运行中可能会用到的一些资料的下载链接:

(1)Sphinxbase和pocketsphinx的下载链接:

http://sourceforge.net/projects/cmusphinx/files/?source=navbar

(2)demo的下载地址:

http://sourceforge.net/projects/cmusphinx/files/?source=navbar

(3)一些sphinx和pocketsphinx基础知识学习的链接,涉及到一些识别引擎、识别原理的分析,挺专业的我没太看懂,以后还会继续学习。

http://blog.csdn.net/zouxy09/article/details/7941585

 

总结:

现在知识刚刚能够运行起demo来,能够简单的识别一些中文,对于识别引擎,识别原理我了解的太少,也是由于现在弄离线语音识别的太少,大多是在线的而且识别率和速度都很理想,导致几乎除了sphinx以外没有其他的语音识别引擎。

非常高兴大家能看到这里,这是我写的第一篇CSDN博文,以后希望能坚持写下去,希望与大家交流技术方面的知识,互相学习,大家如果在搭配环境或者运行demo上有什么问题,可以给我发私信,我会尽力帮忙的,互相学习共同进步。

这篇关于[置顶] Android下通过pocketsphinx实现离线语音识别的环境搭建和demo运行的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/438956

相关文章

如何用Docker运行Django项目

本章教程,介绍如何用Docker创建一个Django,并运行能够访问。 一、拉取镜像 这里我们使用python3.11版本的docker镜像 docker pull python:3.11 二、运行容器 这里我们将容器内部的8080端口,映射到宿主机的80端口上。 docker run -itd --name python311 -p

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

Android平台播放RTSP流的几种方案探究(VLC VS ExoPlayer VS SmartPlayer)

技术背景 好多开发者需要遴选Android平台RTSP直播播放器的时候,不知道如何选的好,本文针对常用的方案,做个大概的说明: 1. 使用VLC for Android VLC Media Player(VLC多媒体播放器),最初命名为VideoLAN客户端,是VideoLAN品牌产品,是VideoLAN计划的多媒体播放器。它支持众多音频与视频解码器及文件格式,并支持DVD影音光盘,VCD影

搭建Kafka+zookeeper集群调度

前言 硬件环境 172.18.0.5        kafkazk1        Kafka+zookeeper                Kafka Broker集群 172.18.0.6        kafkazk2        Kafka+zookeeper                Kafka Broker集群 172.18.0.7        kafkazk3