人工智能老司机带你认识声音黑科技:声纹识别

2023-10-09 03:10

本文主要是介绍人工智能老司机带你认识声音黑科技:声纹识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:micos

全文共 3249 字 4 图,阅读需要 8 分钟


———— / BEGIN / ————


本文将从如下方面为你一一解读:


  1. 什么是声纹?

  2. 声纹识别的原理

  3. 声纹识别算法的技术指标

  4. 影响声纹识别水平的因素

  5. 声纹识别的应用流程

  6. 声纹识别的应用场景


一、什么是声纹?


声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱,是由波长、频率以及强度等百余种特征维度组成的生物特征,具有稳定性、可测量性、唯一性等特点。


  • 人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,发声器官–舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。

  • 每个人的语音声学特征既有相对稳定性,又有变异性,不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。

  • 尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。


声纹不如图像那样直观展现,在实际分析中,可通过波形图和语谱图进行展现,如下所示:



二、声纹识别的原理


人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异,主要体现在如下方面:


  • 共鸣方式特征:咽腔共鸣、鼻腔共鸣和口腔共鸣

  • 嗓音纯度特征:不同人的嗓音,纯度一般是不一样的,粗略地可分为高纯度(明亮)、低纯度(沙哑)和中等纯度三个等级

  • 平均音高特征:平均音高的高低就是一般所说的嗓音是高亢还是低沉

  • 音域特征:音域的高低就是通常所说的声音饱满还是干瘪


不同人的声音在语谱图中共振峰的分布情况不同,声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人,从而实现“闻声识人”的功能。



三、声纹识别算法的技术指标


声纹识别在算法层面可通过如下基本的技术指标来判断其性能,除此之外还有其它的一些指标,如:信道鲁棒性、时变鲁棒性、假冒攻击鲁棒性、群体普适性等指标,这部分后续于详细展开讲解。


  • 错误拒绝率(False Rejection Rate, FRR):分类问题中,若两个样本为同类(同一个人),却被系统误认为异类(非同一个人),则为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。


  • 错误接受率(False Acceptance Rate, FAR) :分类问题中,若两个样本为异类(非同一个人),却被系统误认为同类(同一个人),则为错误接受案例。错误接受率为错误接受案例在所有异类匹配案例的比例。


  • 等错误率(Equal Error Rate,EER):调整阈值,使得误拒绝率(False Rejection Rate,FRR)等于误接受率(False Acceptance Rate,FAR),此时的FAR与FRR的值称为等错误率。


  • 准确率(Accuracy,ACC):调整阈值,使得FAR+FRR最小,1减去这个值即为识别准确率,即ACC=1 – min(FAR+FRR)


  • 速度:(提取速度:提取声纹速度与音频时长有关、验证比对速度):Real Time Factor 实时比(衡量提取时间跟音频时长的关系,比如:1秒能够处理80s的音频,那么实时比就是1:80)。验证比对速度是指平均每秒钟能进行的声纹比对次数。


  • ROC曲线:描述FAR与FRR之间相互变化关系的曲线,X轴为FAR的值,Y轴为FRR的值。从左到右,当阈值增长期间,每一个时刻都有一对FAR和FRR的值,将这些值在图上描点连成一条曲线,就是ROC曲线。


  • 阈值:在接受/拒绝二元分类系统中,通常会设定一个阈值,分数超过该值时才做出接受决定。调节阈值可以根据业务需求平衡FAR与FRR。 当设定高阈值时,系统做出接受决定的得分要求较为严格,FAR降低,FRR升高;当设定低阈值时,系统做出接受决定的得分要求较为宽松,FAR升高,FRR降低。在不同应用场景下,调整不同的阈值,则可在安全性和方便性间平平衡,如下图所示:



四、影响声纹识别水平的因素


训练数据和算法是影响声纹识别水平的两个重要因素,在应用落地过程中,还会受很多因素的影响。


声源采样率:


人类语音的频段集中于50Hz ~ 8KHz之间,尤其在4KHz以下频段

离散信号覆盖频段为信号采样率的一半(奈奎斯特采样定理)。


采样率越高,信息量越大。


常用采样率:8KHz (即0 ~ 4KHz频段),16KHz(即0 ~ 8KHz频段)。


信噪比(SNR):


信噪比衡量一段音频中语音信号与噪声的能量比,即语音的干净程度:


  • 15dB以上(基本干净)

  • 6dB(嘈杂)

  • 0dB(非常吵)


信道:


不同的采集设备,以及通信过程会引入不同的失真。


声纹识别算法与模型需要覆盖尽可能多的信道。


手机麦克风、桌面麦克风、固话、移动通信(CDMA, TD-LTE等)、微信……


语音时长:


语音时长(包括注册语音条数)会影响声纹识别的精度。


有效语音时长越长,算法得到的数据越多,精度也会越高。


  • 短语音(1~3s)

  • 长语音(20s+)


文本内容:


通俗地说,声纹识别系统通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人。


  • 固定文本:注册与验证内容相同

  • 半固定文本:内容一样但顺序不同;文本属于固定集合

  • 自由文本


五、声纹识别的应用流程


声纹识别(VPR) ,生物识别技术的一种,也称为说话人识别 ,是从说话人发出的语音信号中提取声纹信息。


从应用上看,可分为:


  • 说话人辨认(Speaker Identification):用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;

  • 说话人确认(Speaker Verification):用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。


声纹识别在应用中分注册和验证两个主流程,根据不同的应用中,部分处理流程会存在差异,一般的声纹识别应用流程如下图所示:



六、声纹识别的应用场景


声纹识别作为生物识别技术的一种,有非常多好的应用场景,根据声音的特性,下面从公共安全、金融、社保、智能硬件四个领域介绍声纹识别的应用。


1. 公安领域


声纹作为一种生物特征,最早在刑侦和鉴识领域成功应用。


近年来,由于互联网的发展,语音案件也呈现出井喷的趋势,在这些语音案件中,声纹识别成了唯一一种有效的技术侦破手段,通过的声纹识别和声纹大数据技术进行重点人员监管、反电信诈骗、反恐、刑事案件侦破、身份查询与核验,助力公安有效遏制与打击犯罪,构建和强化安全的社会公众环境。


2. 金融


针对银行、互联网金融等各类金融及服务机构,通过声纹识别技术,提供了用户注册、远程验证、金融生物识别解决方案,大幅提高金融机构的风险防范系统安全性,强化风控能力,增加用户的安全性,防范身份欺诈。


另外在电话客服系统中,通过声纹识别技术,可实时识别出用户的身份,从而提供个性化的客户服务。


3. 社保


我国针对离退休人员,每年至少需要进行一次生存状态验证,并以此为依据进行养老金的发放,目前可通过到指定社保大厅或自助终端进行生存验证,对于一些行动不便的老人家,这种方式也是非常不便利。


声纹识别技术在远程身份验证中有着天然的优势,只需要一个电话(手机或固话都可以),即可完成生存验证,为参保人员提供了便利,同时也为国家节省大量成本,避免养老金流失。


4. 智能硬件


在智能硬件产品中,声纹识别解决了当前智能产品只能识别用户所说的内容,而不能区分说话人身份的问题,让智能产品能够区分不同的角色,实现“听声识人”。


让系统针对性对每个人提供不同的内容与服务,让人机交互更加简单,让用户享受更轻松、更具个性化、更安全的产品体验。


七、总结


声纹识别作为最前沿的生物识别技术,随着技术的成熟,将会在越来越多的应用场景下落地。


我们相信:在不久的将来,在第三代身份证上,声纹将成为继指纹、人像后又一个新增的公民身份ID。


声音将在我们未来的科技生活中扮演眼越来越重要的角色。


———— / END / ————


作者:Micos,昵称:不知道,在人工智能浪潮中推波助澜的产品经理,致力于用智能语音实现人与机器最自然的交互方式。

本文由 @Micos 原创发布于人人都是产品经理。未经许可,禁止转载


点击“阅读原文”下载APP

这篇关于人工智能老司机带你认识声音黑科技:声纹识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/169913

相关文章

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

每天认识几个maven依赖(ActiveMQ+activemq-jaxb+activesoap+activespace+adarwin)

八、ActiveMQ 1、是什么? ActiveMQ 是一个开源的消息中间件(Message Broker),由 Apache 软件基金会开发和维护。它实现了 Java 消息服务(Java Message Service, JMS)规范,并支持多种消息传递协议,包括 AMQP、MQTT 和 OpenWire 等。 2、有什么用? 可靠性:ActiveMQ 提供了消息持久性和事务支持,确保消

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展

【科技明说 | 科技热点关注】 2024戴尔科技峰会在8月如期举行,虽然因事未能抵达现场参加,我只是观看了网上在线直播,也未能采访到DTF现场重要与会者,但是通过数十年对戴尔的跟踪与观察,我觉得2024戴尔科技峰会给业界传递了6大重要信号。不妨简单聊聊:从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展? 1)退出中国的谣言不攻自破。 之前有不良媒体宣扬戴尔将退出中国的谣言,随着2

基于人工智能的智能家居语音控制系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 随着物联网(IoT)和人工智能技术的发展,智能家居语音控制系统已经成为现代家庭的一部分。通过语音控制设备,用户可以轻松实现对灯光、空调、门锁等家电的控制,提升生活的便捷性和舒适性。本文将介绍如何构建一个基于人工智能的智能家居语音控制系统,包括环境准备

树莓派5_opencv笔记27:Opencv录制视频(无声音)

今日继续学习树莓派5 8G:(Raspberry Pi,简称RPi或RasPi)  本人所用树莓派5 装载的系统与版本如下:  版本可用命令 (lsb_release -a) 查询: Opencv 与 python 版本如下: 今天就水一篇文章,用树莓派摄像头,Opencv录制一段视频保存在指定目录... 文章提供测试代码讲解,整体代码贴出、测试效果图 目录 阶段一:录制一段

从希腊神话到好莱坞大片,人工智能的七大历史时期值得铭记

本文选自historyextra,机器之心编译出品,参与成员:Angulia、小樱、柒柒、孟婷 你可能听过「技术奇点」,即本世纪某个阶段将出现超级智能,那时,技术将会以人类难以想象的速度飞速发展。同样,黑洞也是一个奇点,在其上任何物理定律都不适用;因此,技术奇点也是超越未来理解范围的一点。 然而,在我们到达那个奇点之前(假设我们能到达),还存在另一个极大的不连续问题,我将它称之

[Day 73] 區塊鏈與人工智能的聯動應用:理論、技術與實踐

AI在健康管理中的應用實例 1. 引言 隨著健康管理需求的提升,人工智能(AI)在該領域的應用越來越普遍。AI可以幫助醫療機構提升效率、精準診斷疾病、個性化治療方案,以及進行健康數據分析,從而改善病患的健康狀況。這篇文章將探討AI如何應用於健康管理,並通過具體代碼示例說明其技術實現。 2. AI在健康管理中的主要應用場景 個性化健康建議:通過分析用戶的健康數據,如飲食、運動、睡眠等,AI可