关键词检测任务调研(Keyword Spotting)(3)

2023-10-28 20:50

本文主要是介绍关键词检测任务调研(Keyword Spotting)(3),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

说明:

Convolutional Recurrent Neural Networks for Small-Footprint Keyword Spotting

Temporal Convolution for Real-time Keyword Spotting on Mobile Devices 

Introduction

Network Architecture

Multi-scale Convolution for Robust Keyword Spotting 

Introduction

Method 

Multitask Learning of Deep Neural Network-Based Keyword Spotting for IoT Devices


说明:

本文是一些论文的简要,想了解具体内容可以下载原文进行阅读,若是读者对下面文章进行参考,请进行规范引用。

Convolutional Recurrent Neural Networks for Small-Footprint Keyword Spotting

Arik, Sercan Ö. et al. “Convolutional Recurrent Neural Networks for Small-Footprint Keyword Spotting.” ArXiv abs/1703.05390 (2017): n. pag. 

(1)A potential drawback of CNNs is that they cannot model the context over the entire frame without wide filters or great depth.     cnn的一个潜在缺点是,如果没有宽滤波器或大深度,它们就不能对整个框架的上下文进行建模。

(2)[9,10]的RNNs用的CTC loss,[2-6]DNN,CNN相关用的CE损失。但是,a high accuracy at a low FA rate could not be obtained,与dnn类似,rnn的一个潜在局限性是,建模是对输入特征进行的,而不学习连续的时间和频率步长之间的结构。

(3)最近,[11]提出了一种具有CTC损失的卷积递归神经网络(CRNN)架构。然而,尽管模型规模较大,与rnn相似,但在低FA率下仍无法获得较高的高精度。

(4)引出本文:

  • using CRNNs with CE loss for a small-footprint model, applied for a single keyword.
  • 我们的目标是结合cnn和rnn的优势,以及在训练期间应用的额外策略,以提高整体性能,同时保持一个小的占用内存。

Temporal Convolution for Real-time Keyword Spotting on Mobile Devices 

Choi, Seungwoo et al. “Temporal Convolution for Real-time Keyword Spotting on Mobile Devices.” INTERSPEECH (2019). 

Introduction

相关代码:https://github.com/hyperconnect/TC-ResNet

(1)  近年来,随着深度学习在各种认知任务中的成功,基于神经网络的方法在KWS中流行。[5,6,7,8,9,10],。特别是基于卷积神经网络(CNNs)的KWS研究显示了显著的准确性[6,7,8]。

(2) 大多CNN-based的方法都会将接收特征以二维形式输入CNNs,如梅尔倒谱系数(MFCC)。尽管CNN-based的方法有一定的准确性,但是需要相当多的计算。

(3) 由于现代cnn通常使用小内核,很难使用相对较浅的网络从低频和高频中捕获信息特征(图1b中的彩色框只覆盖有限的频率范围),假设一个天真地堆叠了n个3×3权重的卷积层和步幅为1,网络的感受只增长到2n+1。我们可以通过增加步幅采用池化注意力循环单元来缓解这个问题。然而,许多模型仍然需要大量的操作,即使我们应用这些方法,并且很难在移动设备上实时运行.

(4) [7]给出了整个网络所执行的乘法和加法的总数。Tang和Lin[8]报告了他们网络的乘数作为推理速度的替代。但是关注加法乘法次数只是实际应用性能的小头,忽略内存访问成本各种设备配备不同的优化操作,是造成这种差异的潜在来源。因此,我们专注于测量移动设备上的实际延迟。

(5) 引出本文:本文提出了一种用于移动设备上实时关键词检测的时间卷积神经网络,即TCResNet

  • 我们应用时间卷积,即沿时间维数的一维卷积,并将MFCC作为输入通道。该模型利用时间卷积的优势,提高了KWS移动模型的精度和延迟.
  • 贡献1:快速精确,实时。与目前最先进的CNN-based KWS相比,该模型速度提高了385倍,准确率提高了0.3%p。
  • 贡献2:我们发布了我们的KWS模型,以及最先进的基于CNN-based KWS模型[6,7,8]的实现,以及在移动设备上评估模型的完整基准工具。(代码实现以及评估工具
  • 贡献3:与二维卷积相比,时间卷积确实是导致降低计算和提高精度性能的原因。

Network Architecture

 (1) 时间卷积:

     1) MFCC作为输入(将原始语音转换为时频表示),并Assuming that stride is one and zero padding is applied to match the input and the output resolution,

  • [7][8]中用b中的样子做input tensor X,然而,由于现代cnn通常使用小内核,很难使用相对较浅的网络从低频和高频中捕获信息特征(图1b中的彩色框只覆盖有限的频率范围)
  • 为了实现快速准确的KWS,我们将二位的X,reshape成一维。
  • 我们的主要想法是将每帧MFCC作为一个时间序列数据,而不是一个强度或灰度图像,这是一种更自然的解释音频的方式。
  • 一维序列数据,每一个时间帧的特征表示为f。作为时间卷积的输入

   2) 这样做的优势:音频特征的大感受域


Multi-scale Convolution for Robust Keyword Spotting 

Yang, Chen et al. “Multi-Scale Convolution for Robust Keyword Spotting.” INTERSPEECH (2020). 

Introduction

(1) 传统上,KWS系统通常设置在keyword/filler模型[1,2]下。这些主要训练时间序列模型,如隐藏马尔可夫模型(HMM),以表征关键字和填充物,然后解码学习模型上的音频输入,以做出决策。

(2) 在[3]中,dnn被视为单词分类器,在预定义的关键字集中输出后验。

(3) [4]应用卷积神经网络(CNN)来取代DNN.  [4]:Convolutional Neural Networks for Small-footprint Keyword Spotting

(4) [5]和[6]使用residual connections and depthwise-separable designs改进了CNN。

(5 )[7]提出了一种具有联合cnn和rnn的端到端解决方案。[7]:Convolutional Recurrent Neural Networks for Small-Footprint Keyword Spotting

(6) [8]和[9]用一维卷积取代了cnn中的二维卷积。

(7) [8]和[10]使用注意机制和图卷积来捕获全局特征。

(8) [10]进一步使用1x1卷积法进行模型压缩。

许多最近的工作都具有一个特征:针对设备上的应用场景,致力于紧凑设计。

(9) 引出本文:在这项工作中,我们专注于设计健壮的、小占用空间的KWS。

  • 贡献1,我们通过应用深度可分离的卷积设计,为最近最先进的关键字定位点ResNet添加了另一个small-footprint设计,以相当的精度减少了4倍~20倍模型size;
  • 贡献2:其次,我们遵循多尺度分类[11][12]的想法,设计了一个分类器“头”集合,在不同的时间尺度、间隔和接收场宽度下汇集特征,提高了KWS对噪声和语音速率变化的鲁棒性。
  • 通过在谷歌命令数据集[13]上进行的大量实验,验证了这些方法的有效性。

Method 

(1) 我们考虑从一个小的预定义的集合中发现多个短关键字的设置。输入一秒的数据段,。每个数据段最多只包含一个关键字。如果段包含关键字,则输出正确的关键字ID,如果没有关键字,则输出“non_keyword”。

(2) 特征处理得到KWS系统的输入:

  • 以0.5秒间隔移动,从1秒窗口的连续音频流中提取固定长度的音频段。
  • 每个频段通过一个20Hz/4kHz的频带通滤波器,
  • 然后进行语音活动检测(VAD)来测试语音的存在。
  • VAD后的语音材料被分成30ms帧。以10ms帧位移。
  • 计算了所有帧的40维MFCC特征(MFCC13+Δ+ΔΔ+能量),并堆叠成二维图像

Multitask Learning of Deep Neural Network-Based Keyword Spotting for IoT Devices

笔者还仔细阅读了Multitask Learning of Deep Neural Network-Based Keyword Spotting for IoT Devices,由于笔记手写在本子上,就没在这专门总结,大家有兴趣去可以去阅读,基于多任务的KWS方法也是不错的方向。

Leem, Seong-Gyun et al. “Multitask Learning of Deep Neural Network-Based Keyword Spotting for IoT Devices.” IEEE Transactions on Consumer Electronics 65 (2019): 188-194.

论文简介:

  • 传统的基于DNN 的关键字定位方法不能轻易地改变目标关键字
  • 在本文中,我 们提出了一种基于DNN的关键字定位系统,它可以实时改变关键字(在单个关键字定位系统中动态添加或删除),并利用三声素和单声素声学模 型,以降低计算复杂度,提高泛化性能。
  • 我们建议应用 一个多任务学习框架,利用一个单一的DNN ,同时估计特定输入语音信号的三声素和单声素的可能性。
  • 在词汇无关的关键字定位系统中, 使用多任务学习基于DNN- hmm的关键字定位是一种有效的方法

这里插两张图:

 

 

 

 

这篇关于关键词检测任务调研(Keyword Spotting)(3)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/295869

相关文章

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

什么是cron? Linux系统下Cron定时任务使用指南

《什么是cron?Linux系统下Cron定时任务使用指南》在日常的Linux系统管理和维护中,定时执行任务是非常常见的需求,你可能需要每天执行备份任务、清理系统日志或运行特定的脚本,而不想每天... 在管理 linux 服务器的过程中,总有一些任务需要我们定期或重复执行。就比如备份任务,通常会选在服务器资

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

JavaFX应用更新检测功能(在线自动更新方案)

JavaFX开发的桌面应用属于C端,一般来说需要版本检测和自动更新功能,这里记录一下一种版本检测和自动更新的方法。 1. 整体方案 JavaFX.应用版本检测、自动更新主要涉及一下步骤: 读取本地应用版本拉取远程版本并比较两个版本如果需要升级,那么拉取更新历史弹出升级控制窗口用户选择升级时,拉取升级包解压,重启应用用户选择忽略时,本地版本标志为忽略版本用户选择取消时,隐藏升级控制窗口 2.

[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别

数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2757 标注数量(xml文件个数):2757 标注数量(txt文件个数):2757 标注类别数:4 标注类别名称:["Platelets","RBC","WBC","sickle cell"] 每个类别标注的框数:

FreeRTOS学习笔记(二)任务基础篇

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、 任务的基本内容1.1 任务的基本特点1.2 任务的状态1.3 任务控制块——任务的“身份证” 二、 任务的实现2.1 定义任务函数2.2 创建任务2.3 启动任务调度器2.4 任务的运行与切换2.4.1 利用延时函数2.4.2 利用中断 2.5 任务的通信与同步2.6 任务的删除2.7 任务的通知2

Flink任务重启策略

概述 Flink支持不同的重启策略,以在故障发生时控制作业如何重启集群在启动时会伴随一个默认的重启策略,在没有定义具体重启策略时会使用该默认策略。如果在工作提交时指定了一个重启策略,该策略会覆盖集群的默认策略默认的重启策略可以通过 Flink 的配置文件 flink-conf.yaml 指定。配置参数 restart-strategy 定义了哪个策略被使用。常用的重启策略: 固定间隔 (Fixe

第49课 Scratch入门篇:骇客任务背景特效

骇客任务背景特效 故事背景:   骇客帝国特色背景在黑色中慢慢滚动着! 程序原理:  1 、 角色的设计技巧  2 、克隆体的应用及特效的使用 开始编程   1、使用 黑色的背景: ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/7d74c872f06b4d9fbc88aecee634b074.png#pic_center)   2