Android下通过pocketsphinx实现离线语音识别的环境搭建和demo运行(续)--实现Windows下的语音识别

本文主要是介绍Android下通过pocketsphinx实现离线语音识别的环境搭建和demo运行(续)--实现Windows下的语音识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:大家好,这是我的第二篇博文。上一篇介绍了一下在Linux环境下实现android的离线语音识别,本文主要说一下如何将这个工程成功地在Windows下运行起来。还是那句话,我所涉及的范围只是“应用”,由于时间的关系,对于一些原理性的东西我确实没有弄明白,我只是要求能够跑通,能够实现成功地的识别的目的。我会将一些我不懂的问题在下边一一列出来,有时间我一定尽力把它的原理弄明白。另外,上一篇中我引用了许多链接,虽然方便了,但我感觉不如自己写出来对自己以后发展更有帮助,很容易就忘掉了,所以,在这一次我争取把我所从事的试验、尝试和所遇到的问题都写出来,希望帮到别人同时也提醒自己不要忘掉。

我对这一个工程的理解:在我看来,这一工程实际上就是一个通过jni编程调用微软写的sphinx和pocketsphinx函数库(这两个库都是C语言写的),然后通过声学模型分析录入的语音,根据分析出的特性在数据字典中寻找匹配的文字。主要用到的知识应该就是jni交叉语言编程,其实质也就是通过NDK,借助这两个函数库编译出最终的.so文件。(当然,这其中也包括用到swig将c 接口转java 并生成java类,这个我不太懂就不说了)最终的android程序也就是要通过这个.so文件去实现识别功能,android终究是linux的程序,它还是要依托linux下的共享函数库即.so文件而不是windows下的.dll文件。


我的源代码下载链接:http://download.csdn.net/detail/loveannuoa/5386461。

 

重要提示:有一点之前没有说明,在整个环境配置中涉及了两个demo,一个是官方提供的即http://sourceforge.net/projects/cmusphinx/files/?source=navbar.

另一个则是http://zuoshu.iteye.com/blog/1463867其中的。后者是“zuoshu”自己修改后的。根据测试,能够达到中文高识别率的是后者,即使唤作简单的中文数据词典文件,用前者的程序也没法识别。

 

在Windows下实现Android离线语音识别所需要的工具和步骤:

1、安装Cygwin---它是模拟Linux系统的软件。安装很简单,网上有很多,所要注意有以下几点:

    1) cygwin就相当于一个小型的linux系统,它所有的包的安装和卸载都只能通过运行安装程序“setup.exe”实现。

    2) 在选择站点的时候可以找一些距离自己位置比较近的,这样可以加快速度,我用得站点是“neusoft.cn”(东软 的),这个就比较快。

    3)不要所有的包都安装,太浪费时间,选择一些必备的和程序相关的安装。这些必备的包在android NDK环境配置的教程中有,但是不全,在以后的编译安装中还要用到其他包,所以还要用同样的方法安装。注意:安装swig包的时候一定不要安装2.0.9的版本,要用1.3.40的,正是因为这一原因,ndk编译始终无法通过。

     4)切换到root权限的办法是:修改cygwin/etc/passwd文件中的500:513为0:0。

2、配置NDK环境,这个网上很多,只需几步:下载-解压-配置.profile文件-测试。

3、虚拟的Linux环境已经搭建好。剩余的步骤和上一篇博文中提到的方法是样的。注意:在修改Android.mk文件中的SPHINX_PATH值时,应以“/cygdrive/d/….”开头。

4、与Linux下配置不同的一点是在对Eclipse的NDK环境配置上,我遇到的问题是,换了swig版本之后再cygwin终端下手动输入命令可以实现ndk编译,但是无法用eclipse自动编译pocketsphinx_wrap.c文件。我的解决办法是,更改NDK Builder的配置,上图:并且在“build option—specify resource”中选择自己的工程。相信大家应该能看懂。

这样,整个工程便可以运行了。但是,说实话,我着实不知道这是为什么。

 

下边是我在整个工程中不明白的问题:

1、不管是在Linux还是在Windows环境下,在pocketsphinx/swig路径下执行“make”这一步我都没有成功,但是最终却又没有影响程序的运行和识别。在swig中编译的目的是什么?为什么又不影响程序的运行。Swig作用又是什么?

2、在eclipse的NDK Builder配置中,在我看来我之前选择用ndk_build.cmd来编译是没问题的,网上也有这样的配置,为什么编译工程的时候又会提示缺少一些头文件呢?Android.mk的路径配置没什么问题,手动编译可以,为什么自动编译就不行?

 

总结:Android离线语音识别的东西可能将要告一段落,毕业设计要做HTML5的东西,感觉这一块儿学的一点也不扎实,只是为了应用,希望以后能把这一课补上,尽量让自己能多理解一些原理性的东西,而不只是停留在表面。

这篇关于Android下通过pocketsphinx实现离线语音识别的环境搭建和demo运行(续)--实现Windows下的语音识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/438957

相关文章

如何用Docker运行Django项目

本章教程,介绍如何用Docker创建一个Django,并运行能够访问。 一、拉取镜像 这里我们使用python3.11版本的docker镜像 docker pull python:3.11 二、运行容器 这里我们将容器内部的8080端口,映射到宿主机的80端口上。 docker run -itd --name python311 -p

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

Android平台播放RTSP流的几种方案探究(VLC VS ExoPlayer VS SmartPlayer)

技术背景 好多开发者需要遴选Android平台RTSP直播播放器的时候,不知道如何选的好,本文针对常用的方案,做个大概的说明: 1. 使用VLC for Android VLC Media Player(VLC多媒体播放器),最初命名为VideoLAN客户端,是VideoLAN品牌产品,是VideoLAN计划的多媒体播放器。它支持众多音频与视频解码器及文件格式,并支持DVD影音光盘,VCD影

搭建Kafka+zookeeper集群调度

前言 硬件环境 172.18.0.5        kafkazk1        Kafka+zookeeper                Kafka Broker集群 172.18.0.6        kafkazk2        Kafka+zookeeper                Kafka Broker集群 172.18.0.7        kafkazk3