【AI视野·今日Sound 声学论文速览 第四十一期】Thu, 4 Jan 2024

2024-01-08 14:20

本文主要是介绍【AI视野·今日Sound 声学论文速览 第四十一期】Thu, 4 Jan 2024,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AI视野·今日CS.Sound 声学论文速览
Thu, 4 Jan 2024
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Multichannel blind speech source separation with a disjoint constraint source model
Authors Jianyu Wang, Shanzheng Guan
多通道卷积盲语音源分离是指在没有太多关于混合系统的先验信息的情况下从观察到的多通道混合中分离不同语音源的问题。多通道非负矩阵分解MNMF已被证明是最强大的分离框架之一,其代表算法如MNMF和独立低秩矩阵分析ILRMA都表现出了出色的性能。然而,在这样的框架中没有充分考虑语音源信号的稀疏特性。众所周知,语音信号本质上是稀疏的,本工作考虑这一点以提高分离性能。具体来说,我们利用 Bingham 和 Laplace 分布来制定不相交约束正则化器,随后将其合并到 MNMF 和 ILRMA 中。然后,我们推导出用于更新与源模型相关的参数的主化最小化规则,从而开发了两种增强算法 MNMF 和 ILRMA。

Independent low-rank matrix analysis based on the Sinkhorn divergence source model for blind source separation
Authors Jianyu Wang, Shanzheng Guan, Jingdong Chen, Jacob Benesty
所谓的独立低秩矩阵分析ILRMA已经展示了处理音频和语音信号的确定盲源分离BSS问题的巨大潜力。该方法假设不同频段的频谱是独立的,并且任意频段的频谱系数均服从高斯分布。然后使用 Itakura Saito 散度来估计源模型相关参数。但实际上,不同频段的频谱系数可能是相关的,而现有的ILRMA算法并未考虑这一点。本文提出了 ILRMA 的改进版本,该版本考虑了不同频段的频谱系数之间的相关性。然后利用 Sinkhorn 散度来优化源模型参数。由于使用跨带信息,BSS性能得到改善。但需要估计的参数数量也显着增加,计算复杂度也显着增加。为了降低算法复杂度,我们应用克罗内克乘积将建模矩阵分解为多个维数更小的矩阵的乘积。

Incremental FastPitch: Chunk-based High Quality Text to Speech
Authors Muyang Du, Chuan Liu, Junjie Lai
并行文本语音模型已广泛应用于实时语音合成,与传统的自回归模型相比,它们提供了更多的可控性和更快的合成过程。尽管并行模型在很多方面都有好处,但由于其完全并行的架构(例如 Transformer),它们自然不适合增量综合。在这项工作中,我们提出了 Incremental FastPitch,一种新颖的 FastPitch 变体,能够通过使用基于块的 FFT 块改进架构、使用感受野约束块注意掩模进行训练以及使用固定大小的过去模型状态进行推理来增量生成高质量的 Mel 块。

Exploring Multi-Modal Control in Music-Driven Dance Generation
Authors Ronghui Li, Yuqin Dai, Yachao Zhang, Jun Li, Jian Yang, Jie Guo, Xiu Li
现有的音乐驱动的3D舞蹈生成方法主要集中于高质量的舞蹈生成,但在生成过程中缺乏足够的控制。为了解决这些问题,我们提出了一个统一的框架,能够生成高质量的舞蹈动作并支持多模态控制,包括流派控制、语义控制和空间控制。首先,我们将舞蹈生成网络与舞蹈控制网络解耦,从而避免添加额外控制信息时舞蹈质量的下降。其次,针对不同的控制信息设计具体的控制策略,并将其整合到一个统一的框架中。

CoMoSVC: Consistency Model-based Singing Voice Conversion
Authors Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
基于扩散的歌声转换 SVC 方法取得了显着的性能,产生了与目标音色高度相似的自然音频。然而,迭代采样过程导致推理速度缓慢,因此加速变得至关重要。在本文中,我们提出了 CoMoSVC,一种基于一致性模型的 SVC 方法,旨在实现高质量生成和高速采样。首先专门为SVC设计了基于扩散的教师模型,并在自一致性特性下进一步提炼出学生模型以实现一步采样。在单个 NVIDIA GTX4090 GPU 上的实验表明,尽管 CoMoSVC 的推理速度明显快于最先进的基于 SOTA 扩散的 SVC 系统,但它仍然根据主观和客观指标实现了相当或更高的转换性能。

Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models
Authors Rita Frieske, Bertram E. Shi
幻觉是深度神经网络产生的一种输出错误。虽然这已经在自然语言处理中进行了研究,但之前还没有在自动语音识别中进行过研究。在这里,我们将 ASR 中的幻觉定义为由模型生成的转录,这些转录在语义上与源话语无关,但仍然流畅且连贯。幻觉与模型可能的自然语言输出的相似性会产生欺骗的危险并影响系统的可信度。我们表明,常用的指标(例如单词错误率)无法区分幻觉模型和非幻觉模型。为了解决这个问题,我们提出了一种基于扰动的方法,用于评估自动语音识别 ASR 模型在测试时对幻觉的敏感性,该方法不需要访问训练数据集。我们证明,这种方法有助于区分具有相似基线错误率的幻觉模型和非幻觉模型。我们进一步探索 ASR 错误类型与数据集噪声类型之间的关系,以确定哪些类型的噪声最有可能产生幻觉输出。我们设计了一个框架,通过分析幻觉与真实情况的语义联系及其流畅性来识别幻觉。

Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction
Authors Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Semin Kim, Joun Yeop Lee, Nam Soo Kim
我们提出了一种以神经换能器为中心的新型文本到语音 TTS 框架。我们的方法利用从 wav2vec2.0 嵌入获得的离散语义标记,将整个 TTS 管道划分为语义级序列到序列 seq2seq 建模和细粒度声学建模阶段。为了实现鲁棒且高效的对齐建模,我们采用了名为令牌转换器的神经转换器来进行语义令牌预测,受益于其硬单调对齐约束。随后,非自回归 NAR 语音生成器根据这些语义标记有效地合成波形。此外,参考语音控制每个阶段的时间动态和声学条件。这种解耦框架降低了 TTS 训练的复杂性,同时允许每个阶段专注于语义和声学建模。我们在零样本自适应 TTS 上的实验结果表明,我们的模型在语音质量和说话者相似度方面(无论是客观还是主观)都超过了基线。

Self-supervised Reflective Learning through Self-distillation and Online Clustering for Speaker Representation Learning
Authors Danwei Cai, Zexin Cai, Ming Li
说话人表征学习对于现代语音识别系统至关重要。虽然监督学习技术需要大量标记数据,但无监督方法可以利用大量未标记的语料库,提供可扩展的解决方案。本文介绍了自监督反思学习 SSRL,这是一种简化现有迭代无监督框架的新颖范式。 SSRL 将自监督知识蒸馏与在线聚类相结合,以细化伪标签并在没有迭代瓶颈的情况下训练模型。具体来说,教师模型通过在线聚类不断细化伪标签,提供动态监督信号来训练学生模型。学生模型使用输入和模型噪声进行噪声学生训练,以提高其建模能力。教师模型通过学生的指数移动平均值进行更新,充当过去迭代的集合。此外,伪标签队列保留历史标签以保持一致性,而噪声标签建模将学习引导到干净的样本。 VoxCeleb 上的实验表明 SSRL 相对于当前迭代方法的优越性,仅在单轮训练中就超越了 5 轮方法的性能。消融研究验证了噪声标签建模和伪标签队列等关键组件的贡献。此外,伪标记的持续改进和簇计数的收敛证明了 SSRL 在破译未标记数据方面的有效性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

这篇关于【AI视野·今日Sound 声学论文速览 第四十一期】Thu, 4 Jan 2024的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/583745

相关文章

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

Spring AI集成DeepSeek实现流式输出的操作方法

《SpringAI集成DeepSeek实现流式输出的操作方法》本文介绍了如何在SpringBoot中使用Sse(Server-SentEvents)技术实现流式输出,后端使用SpringMVC中的S... 目录一、后端代码二、前端代码三、运行项目小天有话说题外话参考资料前面一篇文章我们实现了《Spring

Spring AI与DeepSeek实战一之快速打造智能对话应用

《SpringAI与DeepSeek实战一之快速打造智能对话应用》本文详细介绍了如何通过SpringAI框架集成DeepSeek大模型,实现普通对话和流式对话功能,步骤包括申请API-KEY、项目搭... 目录一、概述二、申请DeepSeek的API-KEY三、项目搭建3.1. 开发环境要求3.2. mav

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20