UnityWebGL使用sherpa-ncnn实时语音识别

2024-05-02 00:44

本文主要是介绍UnityWebGL使用sherpa-ncnn实时语音识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

k2-fsa/sherpa-ncnn:在没有互联网连接的情况下使用带有 ncnn 的下一代 Kaldi 进行实时语音识别。支持iOS、Android、Raspberry Pi、VisionFive2、LicheePi4A等。 (github.com)

如果是PC端可以直接使用ssssssilver大佬的 https://github.com/ssssssilver/sherpa-ncnn-unity.git

我这边要折腾的是WebGL版本的,所以修改了一番

1、WebSocket,客户端使用了psygames/UnityWebSocket: :whale: The Best Unity WebSocket Plugin for All Platforms. (github.com)

using System;
using System.Collections.Generic;
using System.Runtime.InteropServices;
using System.Text;
using UnityEngine;
using UnityEngine.UI;
using UnityWebSocket;public class uSherpaWebGL : MonoBehaviour
{IWebSocket ws;public Text text;Queue<string> msgs = new Queue<string>();// Start is called before the first frame updatevoid Start(){ws = new WebSocket("ws://127.0.0.1:9999");ws.OnOpen += OnOpen;ws.OnMessage += OnMessage;ws.OnError += OnError;ws.OnClose += OnClose;ws.ConnectAsync();}// Update is called once per framevoid Update(){if (msgs.Count > 0){string msg = msgs.Dequeue();text.text += msg;}}byte[] desArray;public void OnData(float[] input){Debug.Log("input.Length:" + input.Length);SendData(input);}void SendData(float[] input){var desArraySize = Buffer.ByteLength(input);IntPtr srcArrayPtr = Marshal.UnsafeAddrOfPinnedArrayElement(input, 0);desArray = new byte[desArraySize];Marshal.Copy(srcArrayPtr, desArray, 0, desArraySize);if (ws != null && ws.ReadyState == WebSocketState.Open){ws.SendAsync(desArray);}}void OnOpen(object sender, OpenEventArgs e){Debug.Log("WS connected!");}void OnMessage(object sender, MessageEventArgs e){if (e.IsBinary){string str = Encoding.UTF8.GetString(e.RawData);Debug.Log("WS received message: " + str);msgs.Enqueue(str);}else if (e.IsText){}}void OnError(object sender, ErrorEventArgs e){Debug.Log("WS error: " + e.Message);}void OnClose(object sender, CloseEventArgs e){Debug.Log(string.Format("Closed: StatusCode: {0}, Reason: {1}", e.StatusCode, e.Reason));}private void OnApplicationQuit(){if (ws != null && ws.ReadyState != WebSocketState.Closed){ws.CloseAsync();}}
}

服务器端使用了Fleck

// See https://aka.ms/new-console-template for more information
using Fleck;
using System.Text;namespace uSherpaServer
{internal class Program{// 声明配置和识别器变量static SherpaNcnn.OnlineRecognizer recognizer;static SherpaNcnn.OnlineStream onlineStream;static string tokensPath = "tokens.txt";static string encoderParamPath = "encoder_jit_trace-pnnx.ncnn.param";static string encoderBinPath = "encoder_jit_trace-pnnx.ncnn.bin";static string decoderParamPath = "decoder_jit_trace-pnnx.ncnn.param";static string decoderBinPath = "decoder_jit_trace-pnnx.ncnn.bin";static string joinerParamPath = "joiner_jit_trace-pnnx.ncnn.param";static string joinerBinPath = "joiner_jit_trace-pnnx.ncnn.bin";static int numThreads = 1;static string decodingMethod = "greedy_search";static string modelPath;static float sampleRate = 16000;static IWebSocketConnection client;static void Main(string[] args){//需要将此文件夹拷贝到exe所在的目录modelPath = Environment.CurrentDirectory + "/sherpa-ncnn-streaming-zipformer-small-bilingual-zh-en-2023-02-16";// 初始化配置SherpaNcnn.OnlineRecognizerConfig config = new SherpaNcnn.OnlineRecognizerConfig{FeatConfig = { SampleRate = sampleRate, FeatureDim = 80 },ModelConfig = {Tokens = Path.Combine(modelPath,tokensPath),EncoderParam =  Path.Combine(modelPath,encoderParamPath),EncoderBin =Path.Combine(modelPath, encoderBinPath),DecoderParam =Path.Combine(modelPath, decoderParamPath),DecoderBin = Path.Combine(modelPath, decoderBinPath),JoinerParam = Path.Combine(modelPath,joinerParamPath),JoinerBin =Path.Combine(modelPath,joinerBinPath),UseVulkanCompute = 0,NumThreads = numThreads},DecoderConfig = {DecodingMethod = decodingMethod,NumActivePaths = 4},EnableEndpoint = 1,Rule1MinTrailingSilence = 2.4F,Rule2MinTrailingSilence = 1.2F,Rule3MinUtteranceLength = 20.0F};// 创建识别器和在线流recognizer = new SherpaNcnn.OnlineRecognizer(config);onlineStream = recognizer.CreateStream();StartWebServer();Update();Console.ReadLine();}static void StartWebServer(){//存储连接对象的池var connectSocketPool = new List<IWebSocketConnection>();//创建WebSocket服务端实例并监听本机的9999端口var server = new WebSocketServer("ws://127.0.0.1:9999");//开启监听server.Start(socket =>{//注册客户端连接建立事件socket.OnOpen = () =>{client = socket;Console.WriteLine("Open");//将当前客户端连接对象放入连接池中connectSocketPool.Add(socket);};//注册客户端连接关闭事件socket.OnClose = () =>{client = null;Console.WriteLine("Close");//将当前客户端连接对象从连接池中移除connectSocketPool.Remove(socket);};//注册客户端发送信息事件socket.OnBinary = message =>{float[] floatArray = new float[message.Length / 4];Buffer.BlockCopy(message, 0, floatArray, 0, message.Length);// 将采集到的音频数据传递给识别器onlineStream.AcceptWaveform(sampleRate, floatArray);};});}static string lastText = "";static void Update(){while (true){// 每帧更新识别器状态if (recognizer.IsReady(onlineStream)){recognizer.Decode(onlineStream);}var text = recognizer.GetResult(onlineStream).Text;bool isEndpoint = recognizer.IsEndpoint(onlineStream);if (!string.IsNullOrWhiteSpace(text) && lastText != text){if (string.IsNullOrWhiteSpace(lastText)){lastText = text;if (client != null){client.Send(Encoding.UTF8.GetBytes(text));//Console.WriteLine("text1:" + text);}}else{if (client != null){client.Send(Encoding.UTF8.GetBytes(text.Replace(lastText, "")));lastText = text;}}}if (isEndpoint){if (!string.IsNullOrWhiteSpace(text)){if (client != null){client.Send(Encoding.UTF8.GetBytes("。"));}// Console.WriteLine("text2:" + text);}recognizer.Reset(onlineStream);//Console.WriteLine("Reset");}Thread.Sleep(200); // ms}}}
}

2、Unity录音插件使用了uMicrophoneWebGL 绑定DataEvent事件实时获取话筒数据(float数组)

最后放上工程地址

客户端 uSherpa: fork from https://github.com/ssssssilver/sherpa-ncnn-unity.git改成 Unity WebGL版

服务器端 GitHub - xue-fei/uSherpaServer: uSherpaServer 给Unity提供流式语音识别的websocket服务

这篇关于UnityWebGL使用sherpa-ncnn实时语音识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/953061

相关文章

postgresql使用UUID函数的方法

《postgresql使用UUID函数的方法》本文给大家介绍postgresql使用UUID函数的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录PostgreSQL有两种生成uuid的方法。可以先通过sql查看是否已安装扩展函数,和可以安装的扩展函数

如何使用Lombok进行spring 注入

《如何使用Lombok进行spring注入》本文介绍如何用Lombok简化Spring注入,推荐优先使用setter注入,通过注解自动生成getter/setter及构造器,减少冗余代码,提升开发效... Lombok为了开发环境简化代码,好处不用多说。spring 注入方式为2种,构造器注入和setter

MySQL中比较运算符的具体使用

《MySQL中比较运算符的具体使用》本文介绍了SQL中常用的符号类型和非符号类型运算符,符号类型运算符包括等于(=)、安全等于(=)、不等于(/!=)、大小比较(,=,,=)等,感兴趣的可以了解一下... 目录符号类型运算符1. 等于运算符=2. 安全等于运算符<=>3. 不等于运算符<>或!=4. 小于运

使用zip4j实现Java中的ZIP文件加密压缩的操作方法

《使用zip4j实现Java中的ZIP文件加密压缩的操作方法》本文介绍如何通过Maven集成zip4j1.3.2库创建带密码保护的ZIP文件,涵盖依赖配置、代码示例及加密原理,确保数据安全性,感兴趣的... 目录1. zip4j库介绍和版本1.1 zip4j库概述1.2 zip4j的版本演变1.3 zip4

Python 字典 (Dictionary)使用详解

《Python字典(Dictionary)使用详解》字典是python中最重要,最常用的数据结构之一,它提供了高效的键值对存储和查找能力,:本文主要介绍Python字典(Dictionary)... 目录字典1.基本特性2.创建字典3.访问元素4.修改字典5.删除元素6.字典遍历7.字典的高级特性默认字典

使用Python构建一个高效的日志处理系统

《使用Python构建一个高效的日志处理系统》这篇文章主要为大家详细讲解了如何使用Python开发一个专业的日志分析工具,能够自动化处理、分析和可视化各类日志文件,大幅提升运维效率,需要的可以了解下... 目录环境准备工具功能概述完整代码实现代码深度解析1. 类设计与初始化2. 日志解析核心逻辑3. 文件处

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸(宽高)四、获取页面旋转角度五、判断

C++中assign函数的使用

《C++中assign函数的使用》在C++标准模板库中,std::list等容器都提供了assign成员函数,它比操作符更灵活,支持多种初始化方式,下面就来介绍一下assign的用法,具有一定的参考价... 目录​1.assign的基本功能​​语法​2. 具体用法示例​​​(1) 填充n个相同值​​(2)

Spring StateMachine实现状态机使用示例详解

《SpringStateMachine实现状态机使用示例详解》本文介绍SpringStateMachine实现状态机的步骤,包括依赖导入、枚举定义、状态转移规则配置、上下文管理及服务调用示例,重点解... 目录什么是状态机使用示例什么是状态机状态机是计算机科学中的​​核心建模工具​​,用于描述对象在其生命

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定