模型案例:| 音频识别-报警器声音识别模型

2024-08-27 05:20

本文主要是介绍模型案例:| 音频识别-报警器声音识别模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

导读

2023年以ChatGPT为代表的大语言模型横空出世,它的出现标志着自然语言处理领域取得了重大突破。它在文本生成、对话系统和语言理解等方面展现出了强大的能力,为人工智能技术的发展开辟了新的可能性。同时,人工智能技术正在进入各种应用领域,在智慧城市、智能制造、智慧医疗、智慧农业等领域发挥着重要作用。

柴火创客2024年将依托母公司Seeed矽递科技在人工智能领域的创新硬件,与全球创客爱好者共建“模型仓”,通过“SenseCraft AI”平台可以让使用者快速部署应用体验人工智能技术!

本期介绍:模型案例:| 音频识别-报警器声音识别模型

Anaconda介绍

Anaconda,中文大蟒蛇,是一个开源的专注于数据分析的Python发行版本,包含了conda、Python等190多个科学包及其依赖项。

Anaconda可以便捷获取包且对包能够进行管理,包括了python和很多常见的软件库和一个包管理器conda。常见的科学计算类的库都包含在里面了,使得安装比常规python安装要容易,同时对环境可以统一管理的发行版本。

Anaconda对于python初学者而言及其友好,相比单独安装python主程序,选择Anaconda可以帮助省去很多麻烦,Anaconda里添加了许多常用的功能包,如果单独安装python,这些功能包则需要一条一条自行安装,在Anaconda中则不需要考虑这些,同时Anaconda还附带捆绑了两个非常好用的交互式代码编辑器(Spyder、Jupyter notebook)。

conda介绍

conda是一个包管理器,环境管理器。可以通过命令行(Anaconda prompt 或者终端)来使用它。在Windows中是Anaconda prompt,在Linux和macOS中是终端。

conda 是一个python项目,但是它支持的许多语言,例如: Python, R, Ruby, Lua, Scala, Java, JavaScript, C/ C++, FORTRAN。

报警器声音识别模型

在城市的道路上,有着各种特殊用途的汽车会发出不同的报警声,比如消防车报警的声音、救护车报警的声音、警车报警的声音是不一样的声音效果,对于一些听力受损的汽车驾驶员来说,希望能及时提醒驾驶员相关车辆正在接近,让驾驶员可以及时避让或减少发生事故的风险。

该模型用于对报警器声音的识别,采用MFCC识别技术,生成TensorFlow Lite INT8格式文件。

应用场景

家庭安全:通过识别烟雾报警器、煤气泄漏报警器等声音,及时通知用户或监控中心,提升家庭安全。

智能家居系统:集成在智能家居系统中,实时监测报警器的声音,自动执行相应的安全措施,比如联动打开窗户或启动排风扇。

工业安全:在工厂、仓库等场所,监测火灾报警器或者其他安全警报,确保在危险情况下能够快速响应。

车辆安全:在汽车中集成声音识别技术,识别防盗报警器的声音,并通知车主或采取自动防盗措施。

公共场所监控:在商场、机场等公共场所,实时监测报警声音,及时响应可能的安全事件,提高公共安全。

应急响应系统:与紧急服务系统(如警察、消防队)整合,能够快速识别报警信号,并自动联系相关部门。

健康监测:在老人院或护理机构,监测紧急报警器声音,确保老人的安全与健康,及时响应紧急情况。

识别模型Arduino 库文件下载

请在网盘中下载Arduino 库识别模型

https://share.weiyun.com/uh2s9DAU

模型推理Arduino程序下载

https://share.weiyun.com/cL8NDWS6

边缘端部署

可以将此模型直接部署在XIAO Esp32S3 Sense 开发板上,实现无网络环境下也能进行预测推理。

硬件清单

为了连接Oled显示屏,需要提前将XIAO ESP32S3(Sense)焊接上针脚,并按下图所示进行接线。

添加Arduino推理库文件

1、打开Arduino IDE软件,单击“工具” 》“导入库” 》“添加ZIP库”,如下图所示。

2、找到并选择报警器声音识别库文件,单击“打开”按钮,如下图所示。

3、推理库文件添加成功后,打开语音识别Arduino程序,添加此库文件到程序的头部,如下图所示。

4、打开PSRAM选项,设置好开发板类型和端口号后,即可上传程序了,如下图所示。

  1. 程序上传成功后,oled显示屏可以输出预测结果和置信率。可以输出两个结果:Noise 代表背景噪音,SIREN 代表报警器声音。也可以打开串口监视器,查看预测结果,如下图所示。

下面是上传成功后的演示视频:

报警声音识别

另,关于程序部署如果用到困难,建议先看一下此教程

具体部署教程参考如下:

https://wiki.seeedstudio.com/edgeimpulse/#fruit-identification-apples-bananas-grapes-arduino-library

原型设计

基于AI+硬件的思路,可以设计开发出一款在汽车上进行报警声音监测的边缘计算装置,并监测到报警声音后提醒驾驶员,也为其他开发者提供原型设计思路。

XIAO ESP32S3 Sense 套装介绍

XIAO ESP32S3(Sense)

强大的 MCU 板:集成ESP32S3 32 位双核 Xtensa 处理器芯片,运行频率高达 240 MHz,安装多个开发端口,支持 Arduino/MicroPython

高级功能:可拆卸OV2640相机传感器,分辨率为1600*1200,兼容OV5640相机传感器,集成附加数字麦克风

超强内存,带来更多可能性:提供 8MB PSRAM 和 8MB 闪存,支持 SD 卡插槽,用于外部 32GB FAT 内存

出色的射频性能:支持2.4GHz Wi-Fi和BLE双无线通信,连接U.FL天线时支持100m+远程通信

拇指大小的紧凑型设计:21 x 17.5mm,采用XIAO的经典外形,适用于可穿戴设备等空间有限的项目

来自 SenseCraft Al 的用于无代码部署的预训练 Al 模型。

写在最后

SenseCraft-AI平台的模型仓数量还很少,但是好消息是它支持自定义模型上传并输出推理结果,平台会逐渐增加模型仓的数量,敬请关注!

这篇关于模型案例:| 音频识别-报警器声音识别模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1110752

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}