声纹识别资源汇总(不断更新)

2024-01-02 14:20

本文主要是介绍声纹识别资源汇总(不断更新),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 一、任务说明
  • 二、指标
  • 三、声纹识别研究现状
  • 四、数据集开源
    • (1)VoxCeleb:
    • (2)WSJ and LibriSpeech Corpus
    • (3)VOiCES Dataset
    • (4)English Multi-speaker Corpus for Voice Cloning
  • 五、开源代码
    • 1、Alize
    • 2、MSR Identity Toolkit
    • 3、d-vector
    • 4、LSTM with GE2E loss
    • 5、y-vector

调研关键词:Speaker Recognition/Identification/Verification/diarization

一、任务说明

Speaker Recognition是一个大方向,包含说话人验证(speaker verification),说话人辨认(speaker identification),说话人分离(diarization)等小方向,本项目中需要的是说话人辨认这个方向。
speaker identification的概念就是拍段一段语音是谁所说,说话人辨认分为开集辨认和闭集辨认,当确定说话人在注册声纹库里时,是一个N选一的有限范围选一个的闭集任务,当不确定当前音频是否在注册声纹库里时,是一个开集任务。开集比闭集的要难很多。(需要明确到底是开集辨认还是闭集辨认)

在这里插入图片描述

二、指标

参考链接:添加链接描述

三、声纹识别研究现状

声纹识别搜索关键词:Speaker Recognition/Identification/Verification
声纹识别有三个阶段:

  • machine learning:最佳基线模型iVector
  • deep learning:bottleneck feature、d-vector、x-vector、j-vector
  • attention mechanism、Learning to rank
    在这里插入图片描述
    声纹识别的主要问题在于语音时长、文本无关、开集比对、背景噪声等问题上。目前基于d-vector、x-vector的深度学习模型和TE2E/GE2E等的损失函数设计在短时长上比较占优势。传统方法的state-of-the-art是i-vector,采用pLDA信道补偿算法,所有基于深度学习的模型都会引用ivector的ERR作为baseline进行比对。以前的方法有UBM-GMM和JFA信道补偿,但是需要大量的不同信道的语料样本。传统方法的相关开源框架有Kaldi、ALIZE、SIDEKIT、pyannote-audio等。深度学习的方法有d-vector、x-vector、j-vector(文本有关)以及结合E2E损失函数的模型。还有基于GhostVlad和直接基于wave信号的SINCNET。

四、数据集开源

(1)VoxCeleb:

1、属于完全的集外数据集 in the Wild,音频全部采自YouTube,是从网上视频切除出对应的音轨,再根据说话人进行切分;
2、属于完全真实的英文语音;
3、数据集是文本无关的;
4、Speakers总数1,251,句子总数153,516,时长总数351h;
5、每句平均时长8.2s,最大时长145s,最短时长4s,短语音较多;
6、每人平均持有句子116句,最大持有250句,最小持有45句;
7、数据集男女性别较均衡,男性有690人(55%),女性有561人;
8、采样率16kHz,16bit,单声道,PCM-WAV音频格式;
9、语音带有一定真实噪声,非人造白噪声,噪声出现时间点无规律,人声有大有小;
10、噪声包括:环境突发噪声、背景人声、笑声、回声、室内噪音、录音设备噪音;
11、视频场景包括:明星红地毯、名人讲台演讲、真人节目访谈、大型体育场解说;
12、音频无静音段,但不是VAD的效果,而是截取了一个人的完整无静音音频片段;
13、说话人范围广泛,具有多样的种族,口音,职业和年龄;
14、数据集自身以划分了开发集Dev和测试集Test,可直接用于Speaker Verification(V),测试集共676句;
15、做SV的话,可参考voxceleb1_txt这个文件夹的信息,里面的Eartha_Kitt、Eddie_Griffin……Ezra_Miller等等E字母开头的speakers都是被划分为test,其他字母开头的speakers是被划分为dev;
链接:https://www.robots.ox.ac.uk/~vgg/data/voxceleb/
模型:Deep-Speaker就是基于这个数据集

(2)WSJ and LibriSpeech Corpus

数据采集自有声书网站,首先对每个句子做一遍语音识别,识别模型使用WSJ示例中的声学模型,语言模型使用二元文法,语言模型数据为语音数据对应的电子书文本。根据识别结果,统计每个说话人的WER,从低到高排序,前一半标记为clean,表示这些说话人语音比较清晰,其余标记为other。该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐,如果你正在寻找一个起点,请查看已准备好的声学模型,这些模型在kaldi-asr.org和语言模型上进行了训练,适合评估。
Link:https://www.openslr.org/12
使用该数据集的模型:d-vector

(3)VOiCES Dataset

发布时间:2018年
时长:总共15小时(3903个音频文件)
参与人数:300人
这个数据集是在复杂的环境设置(声音)语料库掩盖的声音呈现在声学挑战性条件下的音频记录。录音发生在不同大小的真实房间中,捕捉每个房间的不同背景和混响轮廓。各种类型的干扰器噪声(电视,音乐,或潺潺声)同时播放干净的讲话。在房间内精心布置的12个麦克风在远处录制音频,每个麦克风产生120小时的音频。为了模仿谈话中的人类行为,前景扬声器使用电动平台,在记录期间旋转一系列角度。
三百个不同的扬声器从LibriSpeech的“干净”的数据子集被选择作为源音频,确保50-50女性男性分组。在准备即将到来的数据挑战时,语音语料库的第一次发布将只包括200个发言者。剩下的100个发言者将被保留用于模型验证;一旦数据挑战赛被关闭,完整的语料库(300个发言者)将被释放。除了完整的数据集之外,我们还提供了一个DEV集合和一个迷你DEV集合。两者都保持了语音语料库的数据结构,但都包含了一小部分数据。DEV集包括四个随机选择的扬声器(50-50个女性男性分组)的音频文件,用于ROM-1中记录的数据。这包括所有12个麦克风的数据。迷你开发套件仅包括一个扬声器、一个房间(1号房间)和录音棚话筒.
LINK: https://voices18.github.io/downloads/
https://huggingface.co/datasets/librispeech_asr

(4)English Multi-speaker Corpus for Voice Cloning

这个CSTR VCTK语料库包含109个以不同口音的英语为母语的人的语音数据。每个说话者朗读大约400个句子,其中大部分是从报纸上选出来的。所有的语音数据记录使用相同的录音设置:一个全向头戴式麦克风(DPA 4035), 96kHz采样频率,在爱丁堡大学的半消声室。所有录音转换为16位,根据STPK下采样到48 kHz
Link:https://www.kaggle.com/datasets/mfekadu/english-multispeaker-corpus-for-voice-cloning/data
模型:LSTM with GE2E loss、y-vector

五、开源代码

1、Alize

主要包括GMM-UBM、i-vector、JFA三种传统的方法,C++版,简单易用。
可以用来生成基线算法。
Link:https://alize.univ-avignon.fr/

2、MSR Identity Toolkit

微软开源的工具箱,MATLAB版本,包含GMM-UBM和i-vector的demo,简单易用。
Link:https://www.microsoft.com/en-us/research/publication/msr-identity-toolbox-v1-0-a-matlab-toolbox-for-speaker-recognition-research-2/

3、d-vector

Data: WSJ and LibriSpeech Corpus
Link: https://github.com/rajathkmp/speaker-verification
(一个简单的教程)https://medium.com/saarthi-ai/using-d-vector-for-speaker-recognition-and-diarization-4a3450dd8a01

4、LSTM with GE2E loss

https://www.kaggle.com/code/mnitin59/tensorflow-speaker-verification

5、y-vector

Link:https://www.kaggle.com/code/mariasamorodova/y-vector-identification
https://github.com/gzhu06/Y-vector

Link:https://github.com/Janghyun1230/Speaker_Verification
Paper: https://arxiv.org/pdf/1710.10467.pdf
一个很好地代码:有噪声
https://www.kaggle.com/code/auishikpyne/speaker-identification/notebook
一些代码资源(之后逐个排查)
http://www-lium.univ-lemans.fr/sidekit/
https://alize.univ-avignon.fr/
http://www.kaldi-asr.org/
https://github.com/rajathkmp/speaker-verification
https://github.com/wangleiai/dVectorSpeakerRecognition
https://github.com/Janghyun1230/Speaker_Verification
https://github.com/pyannote/pyannote-audio
https://github.com/WeidiXie/VGG-Speaker-Recognition
https://github.com/mravanelli/SincNet

resemblyzer
这个里面有一个demo 02识别了一个youtube视频中的三个人的声音
有一个演示视频,感觉效果很不错
在这里插入图片描述

这篇关于声纹识别资源汇总(不断更新)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/562702

相关文章

解读静态资源访问static-locations和static-path-pattern

《解读静态资源访问static-locations和static-path-pattern》本文主要介绍了SpringBoot中静态资源的配置和访问方式,包括静态资源的默认前缀、默认地址、目录结构、访... 目录静态资源访问static-locations和static-path-pattern静态资源配置

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Java 枚举的常用技巧汇总

《Java枚举的常用技巧汇总》在Java中,枚举类型是一种特殊的数据类型,允许定义一组固定的常量,默认情况下,toString方法返回枚举常量的名称,本文提供了一个完整的代码示例,展示了如何在Jav... 目录一、枚举的基本概念1. 什么是枚举?2. 基本枚举示例3. 枚举的优势二、枚举的高级用法1. 枚举

49个权威的网上学习资源网站

艺术与音乐 Dave Conservatoire — 一个完全免费的音乐学习网站,口号是“让每一个人都可以接受世界级的音乐教育”,有视频,有练习。 Drawspace — 如果你想学习绘画,或者提高自己的绘画技能,就来Drawspace吧。 Justin Guitar — 超过800节免费的吉他课程,有自己的app,还有电子书、DVD等实用内容。 数学,数据科学与工程 Codecad

【Kubernetes】常见面试题汇总(三)

目录 9.简述 Kubernetes 的缺点或当前的不足之处? 10.简述 Kubernetes 相关基础概念? 9.简述 Kubernetes 的缺点或当前的不足之处? Kubernetes 当前存在的缺点(不足)如下: ① 安装过程和配置相对困难复杂; ② 管理服务相对繁琐; ③ 运行和编译需要很多时间; ④ 它比其他替代品更昂贵; ⑤ 对于简单的应用程序来说,可能不

【Kubernetes】常见面试题汇总(一)

目录 1.简述 etcd 及其特点? 2.简述 etcd 适应的场景? 3.简述什么是Kubernetes? 4.简述 Kubernetes和 Docker的关系? 1.简述 etcd 及其特点? (1)etcd 是Core0s 团队发起的开源项目,是一个管理配置信息和服务发现(service discovery)的项目,它的目标是构建一个高可用的分布式键值(keyvalue)数据

汇编:嵌入式软件架构学习资源

成为嵌入式软件架构设计师需要掌握多方面的知识,包括嵌入式系统、实时操作系统、硬件接口、软件设计模式等。 以下是一些推荐的博客和网站,可以帮助你深入学习嵌入式软件架构设计: ### 1. **Embedded.com**    - **网址**: [Embedded.com](https://www.embedded.com/)    - **简介**: 这是一个专注于嵌入式系统设计的专业网

IEEE会议投稿资料汇总http://cadcg2015.nwpu.edu.cn/index.htm

最近投了篇IEEE的顶级会议文章,一下是比较有用的一些资料,以供参考。 1.会议主页:http://cadcg2015.nwpu.edu.cn/index.htm     (The 14th International Conference on Computer-Aided Design and Computer Graphics (CAD/Graphics 2015)) 2.I

Unity 资源 之 Super Confetti FX:点亮项目的璀璨粒子之光

Unity 资源 之 Super Confetti FX:点亮项目的璀璨粒子之光 一,前言二,资源包内容三,免费获取资源包 一,前言 在创意的世界里,每一个细节都能决定一个项目的独特魅力。今天,要向大家介绍一款令人惊艳的粒子效果包 ——Super Confetti FX。 二,资源包内容 💥充满活力与动态,是 Super Confetti FX 最显著的标签。它宛如一位