【AI视野·今日Sound 声学论文速览 第四十一期】Thu, 4 Jan 2024

2024-01-08 14:20

本文主要是介绍【AI视野·今日Sound 声学论文速览 第四十一期】Thu, 4 Jan 2024,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AI视野·今日CS.Sound 声学论文速览
Thu, 4 Jan 2024
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Multichannel blind speech source separation with a disjoint constraint source model
Authors Jianyu Wang, Shanzheng Guan
多通道卷积盲语音源分离是指在没有太多关于混合系统的先验信息的情况下从观察到的多通道混合中分离不同语音源的问题。多通道非负矩阵分解MNMF已被证明是最强大的分离框架之一,其代表算法如MNMF和独立低秩矩阵分析ILRMA都表现出了出色的性能。然而,在这样的框架中没有充分考虑语音源信号的稀疏特性。众所周知,语音信号本质上是稀疏的,本工作考虑这一点以提高分离性能。具体来说,我们利用 Bingham 和 Laplace 分布来制定不相交约束正则化器,随后将其合并到 MNMF 和 ILRMA 中。然后,我们推导出用于更新与源模型相关的参数的主化最小化规则,从而开发了两种增强算法 MNMF 和 ILRMA。

Independent low-rank matrix analysis based on the Sinkhorn divergence source model for blind source separation
Authors Jianyu Wang, Shanzheng Guan, Jingdong Chen, Jacob Benesty
所谓的独立低秩矩阵分析ILRMA已经展示了处理音频和语音信号的确定盲源分离BSS问题的巨大潜力。该方法假设不同频段的频谱是独立的,并且任意频段的频谱系数均服从高斯分布。然后使用 Itakura Saito 散度来估计源模型相关参数。但实际上,不同频段的频谱系数可能是相关的,而现有的ILRMA算法并未考虑这一点。本文提出了 ILRMA 的改进版本,该版本考虑了不同频段的频谱系数之间的相关性。然后利用 Sinkhorn 散度来优化源模型参数。由于使用跨带信息,BSS性能得到改善。但需要估计的参数数量也显着增加,计算复杂度也显着增加。为了降低算法复杂度,我们应用克罗内克乘积将建模矩阵分解为多个维数更小的矩阵的乘积。

Incremental FastPitch: Chunk-based High Quality Text to Speech
Authors Muyang Du, Chuan Liu, Junjie Lai
并行文本语音模型已广泛应用于实时语音合成,与传统的自回归模型相比,它们提供了更多的可控性和更快的合成过程。尽管并行模型在很多方面都有好处,但由于其完全并行的架构(例如 Transformer),它们自然不适合增量综合。在这项工作中,我们提出了 Incremental FastPitch,一种新颖的 FastPitch 变体,能够通过使用基于块的 FFT 块改进架构、使用感受野约束块注意掩模进行训练以及使用固定大小的过去模型状态进行推理来增量生成高质量的 Mel 块。

Exploring Multi-Modal Control in Music-Driven Dance Generation
Authors Ronghui Li, Yuqin Dai, Yachao Zhang, Jun Li, Jian Yang, Jie Guo, Xiu Li
现有的音乐驱动的3D舞蹈生成方法主要集中于高质量的舞蹈生成,但在生成过程中缺乏足够的控制。为了解决这些问题,我们提出了一个统一的框架,能够生成高质量的舞蹈动作并支持多模态控制,包括流派控制、语义控制和空间控制。首先,我们将舞蹈生成网络与舞蹈控制网络解耦,从而避免添加额外控制信息时舞蹈质量的下降。其次,针对不同的控制信息设计具体的控制策略,并将其整合到一个统一的框架中。

CoMoSVC: Consistency Model-based Singing Voice Conversion
Authors Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
基于扩散的歌声转换 SVC 方法取得了显着的性能,产生了与目标音色高度相似的自然音频。然而,迭代采样过程导致推理速度缓慢,因此加速变得至关重要。在本文中,我们提出了 CoMoSVC,一种基于一致性模型的 SVC 方法,旨在实现高质量生成和高速采样。首先专门为SVC设计了基于扩散的教师模型,并在自一致性特性下进一步提炼出学生模型以实现一步采样。在单个 NVIDIA GTX4090 GPU 上的实验表明,尽管 CoMoSVC 的推理速度明显快于最先进的基于 SOTA 扩散的 SVC 系统,但它仍然根据主观和客观指标实现了相当或更高的转换性能。

Hallucinations in Neural Automatic Speech Recognition: Identifying Errors and Hallucinatory Models
Authors Rita Frieske, Bertram E. Shi
幻觉是深度神经网络产生的一种输出错误。虽然这已经在自然语言处理中进行了研究,但之前还没有在自动语音识别中进行过研究。在这里,我们将 ASR 中的幻觉定义为由模型生成的转录,这些转录在语义上与源话语无关,但仍然流畅且连贯。幻觉与模型可能的自然语言输出的相似性会产生欺骗的危险并影响系统的可信度。我们表明,常用的指标(例如单词错误率)无法区分幻觉模型和非幻觉模型。为了解决这个问题,我们提出了一种基于扰动的方法,用于评估自动语音识别 ASR 模型在测试时对幻觉的敏感性,该方法不需要访问训练数据集。我们证明,这种方法有助于区分具有相似基线错误率的幻觉模型和非幻觉模型。我们进一步探索 ASR 错误类型与数据集噪声类型之间的关系,以确定哪些类型的噪声最有可能产生幻觉输出。我们设计了一个框架,通过分析幻觉与真实情况的语义联系及其流畅性来识别幻觉。

Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction
Authors Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Semin Kim, Joun Yeop Lee, Nam Soo Kim
我们提出了一种以神经换能器为中心的新型文本到语音 TTS 框架。我们的方法利用从 wav2vec2.0 嵌入获得的离散语义标记,将整个 TTS 管道划分为语义级序列到序列 seq2seq 建模和细粒度声学建模阶段。为了实现鲁棒且高效的对齐建模,我们采用了名为令牌转换器的神经转换器来进行语义令牌预测,受益于其硬单调对齐约束。随后,非自回归 NAR 语音生成器根据这些语义标记有效地合成波形。此外,参考语音控制每个阶段的时间动态和声学条件。这种解耦框架降低了 TTS 训练的复杂性,同时允许每个阶段专注于语义和声学建模。我们在零样本自适应 TTS 上的实验结果表明,我们的模型在语音质量和说话者相似度方面(无论是客观还是主观)都超过了基线。

Self-supervised Reflective Learning through Self-distillation and Online Clustering for Speaker Representation Learning
Authors Danwei Cai, Zexin Cai, Ming Li
说话人表征学习对于现代语音识别系统至关重要。虽然监督学习技术需要大量标记数据,但无监督方法可以利用大量未标记的语料库,提供可扩展的解决方案。本文介绍了自监督反思学习 SSRL,这是一种简化现有迭代无监督框架的新颖范式。 SSRL 将自监督知识蒸馏与在线聚类相结合,以细化伪标签并在没有迭代瓶颈的情况下训练模型。具体来说,教师模型通过在线聚类不断细化伪标签,提供动态监督信号来训练学生模型。学生模型使用输入和模型噪声进行噪声学生训练,以提高其建模能力。教师模型通过学生的指数移动平均值进行更新,充当过去迭代的集合。此外,伪标签队列保留历史标签以保持一致性,而噪声标签建模将学习引导到干净的样本。 VoxCeleb 上的实验表明 SSRL 相对于当前迭代方法的优越性,仅在单轮训练中就超越了 5 轮方法的性能。消融研究验证了噪声标签建模和伪标签队列等关键组件的贡献。此外,伪标记的持续改进和簇计数的收敛证明了 SSRL 在破译未标记数据方面的有效性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

这篇关于【AI视野·今日Sound 声学论文速览 第四十一期】Thu, 4 Jan 2024的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/583745

相关文章

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学