声音事件检测metric:PSDS

2024-02-15 05:59
文章标签 检测 事件 声音 metric psds

本文主要是介绍声音事件检测metric:PSDS,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文;A FRAMEWORK FOR THE ROBUST EVALUATION OF SOUND EVENT DETECTION

Abstract

这项工作为多声道声音事件检测(SED)系统的性能评估定义了一个新的框架,它克服了传统的collar-based事件决定、事件F-cores和事件错误率的限制。拟议的框架引入了对事件检测的定义,该定义对标签的主观性更为稳健。它还采用了多声道接收器操作特性(ROC)曲线,以提供比F1分数更全面的系统性能洞察力,并建议将这些曲线简化为单一的多声道声音检测分数(PSDS),这允许系统独立于操作点(OPs)进行比较。所提出的方法还能更好地了解不同声音类别的数据偏差和分类稳定性。此外,它可以根据不同的应用进行调整,以满足各种用户体验要求。通过重新评估DCASE 2019年任务4中的baseline和两个表现最好的系统,证明了拟议方法的好处。

Introduction

在[9,10]中提出了按事件划分的错误率和按段划分的错误率,并在最近的DCASE版本[5-8]中部署,作为以前基于帧的衡量标准[4]的一个进步。然而,他们目前的形式仍然忽略了以下关键问题。

对操作点的依赖性:在同一指标下,具有不同决策阈值的同一系统可能得到不同的性能排名。换句话说,这种指标将声音事件建模的评价与操作点调整的评价混为一谈[11]。这个问题在信号检测理论中得到了很好的研究,特别是在二元分类、关键词识别和说话人识别中[12-14],其中ROC曲线[15]、检测误差权衡(DET)曲线[16]或曲线下面积 (AUC)指标[17]被用来评估一个给定系统在一系列操作点上的整体性。然而,这种做法还没有被SED界广泛采用。

声音事件的定义:[9、10] 中定义的基于事件的指标依赖于collar,collar是对检测到的事件相对于标记的ground truth事件 [5-8] 的开始和结束时间的约束。 collar的使用本质上非常强调声音事件的开始和结束时间,而这些时间可能在人类标注员的主观反馈。 因此,为了模型的稳定性,评估标准应该为解释实时ground truth和检测时间的时间结构留出足够的空间。 在这方面,[18] 提议通过依赖实时ground truth和检测到的事件之间的交集百分比来决定时间序列数据异常检测的真阳性(TPs)和误报(FPs)

多类系统中的先验概率、假阳性和交叉触发器:交叉触发器(CTs)cross-trigger是与多类系统中另一个标记的类别相匹配的假阳性子集。将CTs的行为与FPs的原始数量区分开来,可以深入了解数据的偏差,对于声学上相似的声音类别尤其如此。事实上,多类评估数据集可能会变得有偏见,即对某些目标类的TP进行可靠评估所需的数据量可能会与现场先验不一致。例如,破窗玻璃在实践中很少发生,然而对破窗玻璃的TP的可靠评价需要大量的阳性类样本,这又可能人为地增加其他冲击性类的FP计数。因此,对CT的核算有助于分析FP是否是由数据偏差而非声学模型缺陷造成的。

Background

2.1 声音事件检测的定义

Definition1(Event-Based SED Evaluation Task)

Y = U c ∈ C Y c Y=U_{c∈C } Y_c Y=UcCYc是一个数据集,它是每个类别c∈C的ground truth子集的联合
定义为 Y c = { y i = ( t s , i , t e , i , c i ) : c i = c } Y_c = \{y_i = (t_{s,i}, t_{e,i}, c_i): c_i = c\} Yc={yi=(ts,i,te,i,ci):ci=c}
其中每个真实标签 y i y_i yi是由其类别 c i c_i ci、开始时间 t s , i t_{s,i} ts,i和结束时间 t e , i t_{e,i} te,i定义。
X ∗ = U c ∈ C X c ∗ X^{∗} = U_{c∈C} {X^∗_c} X=UcCXc是一个检测集合,是每个类别c∈C的检测子集的联合,定义为 X c ∗ = { x j = ( t s , j , t e , j , c j ) : c j = c } X^∗_c = \{xj = (t_{s,j}, t_{e,j}, c_j): c_j = c\} Xc={xj=(ts,j,te,j,cj):cj=c},其中每个检测 x j x_j xj由其类别 c j c_j cj、开始时间 t s , j t_{s,j} ts,j和结束时间 t e , j t_{e,j} te,j定义,其中星级符号∗表示对操作点参数 τ c \tau_c τc的依赖。
SED评价任务被定义为衡量系统在给定的 Y Y Y下输出 X ∗ X^∗ X的性能。

重要的是,评估中的SED系统是在给定工作点(OP)参数 τ c \tau_c τc, ∀c∈C的情况下发出检测集合。一般来说, τ c \tau_c τc的作用是调整SED系统的容许性(permissiveness)。例如,对于发出分类分数的SED系统,如类别概率, τ c \tau_c τc可能是一组与类别相关的阈值,其中较高的阈值会使系统更有控制性,即发出系统更有信心的声音检测,而较低的阈值会让更多的检测通过,从而使系统更有容许性。这里可以采用各种优化策略:一些系统可能会选择在将框架决策纳入事件检测之前优化框架分类,而其他系统可能会在优化事件级阈值之前形成事件分数。本文提出的评估方法旨在涵盖所有操作点可以改变的SED系统,无论其颗粒度如何。

2.2 传统collar-based方法的限制

collar-based方法中对于 y i y_i yi被正确检出的标准是:
∃ x i ∈ X c ∗ \exists x_i \in X^*_c xiXc such that ( t s , i − t c ) ≤ t s , j ≤ ( t s , i + t c ) (t_{s,i} − t_c) ≤ t_{s,j} ≤ (t_{s,i} + t_c) (ts,itc)ts,j(ts,i+tc)
A N D ( t e , i − t ˉ c ) ≤ t e , j ≤ ( t e , i + t ˉ c ) AND (t_{e,i} − \bar t_c) ≤ t_{e,j} ≤ (t_{e,i} + \bar t_c) AND(te,itˉc)te,j(te,i+tˉc)
t c t_c tc : collar duration
t ˉ c \bar t_c tˉc: collar duration 和 预定义比例的 ground truth duration

即:检测出的start和end在collar的限定范围内

然而,collar引入了一个限制,可能会阻碍系统评估。事实上,SED的现场应用经常遇到这样的情况:由于对声音事件的时间结构的主观解释,一个声音可以被合理地标记为一种以上的方式。例如,一只狗反复吠叫,人类听众可以合理地解释为一只狗的吠叫事件,也可以解释为几只单独的狗的吠叫事件,详尽的标签规格在实践中难以定义和执行。使用collar的效果是迫使这些解释中的一个或另一个产生分类错误,而更理想的是SED评估在设计上对这种合理的groundtruth标记的变化变得稳健。

3. PROPOSED EVALUATION FRAMEWORK

3.1 对SED任务的TPs、FPs和CTs的更有力的定义

Definition 2 (Detection Tolerance Criterion - DTC)

请添加图片描述
X D T C , c ∗ X^*_{DTC,c} XDTC,c:检出的事件的检测结果与ground truth的重合部分 / 检测结果的duration >= 阈值
False Positive: 个类别 X ˉ D T C , c ∗ \bar X^*_{DTC,c} XˉDTC,c的集合, X ˉ D T C , c ∗ \bar X^*_{DTC,c} XˉDTC,c定义为 X c ∗ X^*_{c} Xc中排除KaTeX parse error: Undefined control sequence: \X at position 1: \̲X̲^*_{DTC,c}的部分,即未达到阈值的部分。

Definition 3 (Ground Truth intersection Criterion - GTC)

请添加图片描述
GTC创建了一个正确检测到的ground truth事件集
Y G T C , c ∗ Y^*_{GTC,c} YGTC,c DTC和ground truth的重合部分 / ground truth duration >= 阈值

DTC和GTC计算ground truth标签和检测到的事件之间的交集百分比。我们的方法的不同之处在于,在计算最终的性能数字之前,对交叉点进行阈值计算,以计算TPs/FPs。在我们的工业数据集上观察到,标签者之间的分歧主要发生在事件的边界,例如,声音事件逐渐消失或由边界有待解释的单元组成,基于交集公差而不是边界领的方法本质上更稳健,如图2a所示。
回到定义2,一些FP可能是由于特定的数据偏差,可能会浮现为目标声音类别之间的混淆。因此,定义4中引入了交叉触发容忍度准则(CTTC),允许单独计算CT,如图2b所示。
请添加图片描述

Definition 4 (Cross-Trigger Tolerance Criterion - CTTC)

请添加图片描述
事件i的ground truth与事件j的检出的重合 / 事件j的检出duration >= 阈值 (i不等于j)

3.2. Performance metrics relevant to user experience

用户体验会收到FPs出现频率的影响请添加图片描述
其中 T y T_y Ty 是数据集所有音频的 total duration
TP的性能是以检测到的事件的比例来衡量的,而FP和CT的性能是每单位时间的比率。
针对已识别的声音类的交叉触发可能会引发更多的负面用户体验,effective FP rate (eFPR):请添加图片描述
参数 α c t \alpha_ct αct 代表CT在评估的SED应用中对用户体验的成本。
系统行为可能无法保证每个操作点都形成凸的或单调的类相关ROC曲线,可能会有一些操作点会较其他操作点在更高的 eFPR 生成更低的 TP 比率。
请添加图片描述
如果相邻的点能提供更好的权衡,这些点将永远不会被选为产品的实际操作,这些操作点最后会被丢弃掉以形成一个最大的best case操作点集合: O ^ c = O c − O ˉ c \hat O_c = O_c - \bar O_c O^c=OcOˉc

然而,跨类性能的稳定性是评估的重点:跨类TP比率变化小得多的系统可能更受欢迎,因为它对性能最差(或最难)的类具有更好的性能。出于这个原因,有效TP比(eTPR)使用跨类TP比的平均值和标准偏差进行定义:请添加图片描述
其中参数αST调整了所评估的SED任务的跨类不稳定成本。

Definition5(Polyphonic Sound Detection Score)

请添加图片描述

这篇关于声音事件检测metric:PSDS的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/710591

相关文章

禁止平板,iPad长按弹出默认菜单事件

通过监控按下抬起时间差来禁止弹出事件,把以下代码写在要禁止的页面的页面加载事件里面即可     var date;document.addEventListener('touchstart', event => {date = new Date().getTime();});document.addEventListener('touchend', event => {if (new

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

JavaFX应用更新检测功能(在线自动更新方案)

JavaFX开发的桌面应用属于C端,一般来说需要版本检测和自动更新功能,这里记录一下一种版本检测和自动更新的方法。 1. 整体方案 JavaFX.应用版本检测、自动更新主要涉及一下步骤: 读取本地应用版本拉取远程版本并比较两个版本如果需要升级,那么拉取更新历史弹出升级控制窗口用户选择升级时,拉取升级包解压,重启应用用户选择忽略时,本地版本标志为忽略版本用户选择取消时,隐藏升级控制窗口 2.

FreeRTOS内部机制学习03(事件组内部机制)

文章目录 事件组使用的场景事件组的核心以及Set事件API做的事情事件组的特殊之处事件组为什么不关闭中断xEventGroupSetBitsFromISR内部是怎么做的? 事件组使用的场景 学校组织秋游,组长在等待: 张三:我到了 李四:我到了 王五:我到了 组长说:好,大家都到齐了,出发! 秋游回来第二天就要提交一篇心得报告,组长在焦急等待:张三、李四、王五谁先写好就交谁的

树莓派5_opencv笔记27:Opencv录制视频(无声音)

今日继续学习树莓派5 8G:(Raspberry Pi,简称RPi或RasPi)  本人所用树莓派5 装载的系统与版本如下:  版本可用命令 (lsb_release -a) 查询: Opencv 与 python 版本如下: 今天就水一篇文章,用树莓派摄像头,Opencv录制一段视频保存在指定目录... 文章提供测试代码讲解,整体代码贴出、测试效果图 目录 阶段一:录制一段

【经验交流】修复系统事件查看器启动不能时出现的4201错误

方法1,取得『%SystemRoot%\LogFiles』文件夹和『%SystemRoot%\System32\wbem』文件夹的权限(包括这两个文件夹的所有子文件夹的权限),简单点说,就是使你当前的帐户拥有这两个文件夹以及它们的子文件夹的绝对控制权限。这是最简单的方法,不少老外说,这样一弄,倒是解决了问题。不过对我的系统,没用; 方法2,以不带网络的安全模式启动,运行命令行,输入“ne

BT天堂网站挂马事件后续:“大灰狼”远控木马分析及幕后真凶调查

9月初安全团队披露bt天堂网站挂马事件,该网站被利用IE神洞CVE-2014-6332挂马,如果用户没有打补丁或开启安全软件防护,电脑会自动下载执行大灰狼远控木马程序。 鉴于bt天堂电影下载网站访问量巨大,此次挂马事件受害者甚众,安全团队专门针对该木马进行严密监控,并对其幕后真凶进行了深入调查。 一、“大灰狼”的伪装 以下是10月30日一天内大灰狼远控的木马样本截图,可以看到该木马变种数量不

[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别

数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2757 标注数量(xml文件个数):2757 标注数量(txt文件个数):2757 标注类别数:4 标注类别名称:["Platelets","RBC","WBC","sickle cell"] 每个类别标注的框数: