【AI视野·今日Sound 声学论文速览 第三十九期】Tue, 2 Jan 2024

2024-01-06 19:28

本文主要是介绍【AI视野·今日Sound 声学论文速览 第三十九期】Tue, 2 Jan 2024,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AI视野·今日CS.Sound 声学论文速览
Tue, 2 Jan 2024
Totally 7 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Enhancing Pre-trained ASR System Fine-tuning for Dysarthric Speech Recognition using Adversarial Data Augmentation
Authors Huimeng Wang, Zengrui Jin, Mengzhe Geng, Shujie Hu, Guinan Li, Tianzi Wang, Haoning Xu, Xunying Liu
迄今为止,构音障碍语音的自动识别仍然是一项极具挑战性的任务。神经运动状况和同时发生的身体残疾给 ASR 系统开发的大规模数据收集带来了困难。通过数据密集型参数微调,使 SSL 预训练的 ASR 模型适应有限的构音障碍语音,会导致泛化能力较差。为此,本文对各种数据增强方法进行了广泛的比较研究,以提高预训练的 ASR 模型对构音障碍语音进行微调的鲁棒性。这些包括对受损语音的传统说话人独立扰动、与说话人相关的速度扰动、或基于 GAN 的正常控制语音的对抗性扰动(基于与并行构音障碍语音的时间对齐)、基于谱基础的 GAN 对非并行数据进行对抗性数据增强。在 UASpeech 语料库上进行的实验表明,基于 GAN 的数据增强始终优于微调的 Wav2vec2.0 和 HuBERT 模型,在不同的数据扩展操作点上不使用数据增强和速度扰动,字错误率 WER 降低了统计显着性,分别达到 2.01 和 0.96 绝对值 9.03 和4.63 相对于 16 个构音障碍说话者的 UASpeech 测试集。

E-chat: Emotion-sensitive Spoken Dialogue System with Large Language Models
Authors Hongfei Xue, Yuhao Liang, Bingshen Mu, Shiliang Zhang, Qian Chen, Lei Xie
本研究重点关注人机语音交互中的情感敏感口语对话。随着大型语言模型法学硕士的进步,对话系统可以处理包括音频在内的多模态数据。最近的模型通过整合各种音频事件增强了对复杂音频信号的理解。然而,他们无法根据情绪化的言语产生适当的反应。为了解决这个问题,我们引入了情感聊天模型 E 聊天,这是一种新颖的口语对话系统,能够理解并响应语音传达的情感。该模型利用语音编码器提取的情感嵌入,并结合 LLM,使其能够根据不同的情感上下文做出响应。此外,我们还介绍了 E chat200 数据集,该数据集专为情感敏感的口语对话而设计。

Sounding Out Reconstruction Error-Based Evaluation of Generative Models of Expressive Performance
Authors Silvan David Peter, Carlos Eduardo Cancino Chac n, Emmanouil Karystinaios, Gerhard Widmer
通常通过将其预测与参考人类演奏进行比较来评估富有表现力的钢琴演奏的生成模型。如果生成算法产生的性能更接近人类参考性能,则该生成算法被认为比竞争算法更好。然而,专业的人类表演者可以并且确实以不同的方式解释音乐,从而提供不同的可能参考,并且定量的接近度不一定与感知相似性一致,这引发了人们对这种评估方法有效性的担忧。在这项工作中,我们提出了一些实验来阐明这个问题。使用精确测量的古典钢琴音乐的高质量演奏,我们进行了听力测试,结果表明听众有时可以察觉到在定量评估中被忽视的细微演奏差异。我们进一步提出的测试表明,这种评估框架在不同的参考表演和作品中表现出可靠性和有效性的很大差异。

Online Symbolic Music Alignment with Offline Reinforcement Learning
Authors Silvan David Peter
符号音乐对齐是将演奏的 MIDI 音符与相应乐谱音符进行匹配的过程。在本文中,我们介绍了一种基于强化学习的在线符号音乐对齐技术。强化学习代理是一种基于注意力的神经网络,根据本地得分和表现上下文迭代地估计当前得分位置。对于这个符号对齐任务,可以对环境状态进行详尽的采样,并且奖励是密集的,从而将公式呈现为简化的离线强化学习问题。我们通过三种方式评估训练有素的代理。首先,它能够为采样的测试上下文识别正确的乐谱位置;其次,作为符号在线音符对齐的完整算法的核心技术;最后,作为实时符号乐谱跟随器。我们进一步研究用作代理输入的基于音高的分数和表现表示。为此,我们开发了第二个模型,即基于两步动态时间规整 DTW 的离线对齐算法,利用相同的输入表示。

AI and Tempo Estimation: A Review
Authors Geoff Luck
作者在本文中的目标是探索如何利用人工智能来帮助我们理解和大规模估计音乐创造力和音乐节奏的关键方面的能力。节奏对音乐创造力的核心重要性可以体现在如何使用它来表达特定的情感 Eerola 和 Vuoskoski 2013 、提出特定的音乐风格 Li 和 Chan 2011 、影响表达的感知 Webster 和 Weir 2005 以及调解移动的冲动。身体随着音乐的节奏伯格等人。 2014年。传统的节奏估计方法通常使用振幅包络的某种形式的自相关来检测反映音乐的潜在节奏结构的信号周期性Lartillot and Toiviainen 2007。最近,基于人工智能的方法利用卷积或循环神经网络 CNN、RNN 来表示音频信号的频谱,其准确性得到了显着提高 Aarabi 和 Peeters 2022。常见的基于人工智能的技术包括基于概率的技术(例如贝叶斯方法、隐马尔可夫模型 HMM)、分类和统计学习(例如支持向量机 SVM)以及人工神经网络 ANN(例如自组织映射 SOM、CNN、RNN、深度学习 DL)。本文的目的是概述一些更常见的基于人工智能的节奏估计算法,并阐明每种算法的显着优点和潜在缺点。

Ultraspherical/Gegenbauer polynomials to unify 2D/3D Ambisonic directivity designs
Authors Franz Zotter
这份关于轴对称超球面 Gegenbauer 多项式及其在 2D 和 3D 立体混响指向性设计中的应用的报告提出了另一种数学形式,可以在我和 Matthias Frank 的 Ambisonics 书籍或 J r me Daniel 的论文(Gary Elko)中阅读。

Boosting Large Language Model for Speech Synthesis: An Empirical Study
Authors Hongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu, Rui Wang, Furu Wei
大型语言模型法学硕士在自然语言处理方面取得了重大进展,同时将语言能力扩展到其他模式,例如语音和视觉。然而,之前的大部分工作都集中在培养法学硕士的听觉理解等感知能力,而增强法学硕士语音合成能力的有效方法仍然不明确。在本文中,我们通过结合预训练的LLM LLaMA OPT和文本到语音合成模型VALL E,对提升LLM生成语音的能力进行了全面的实证探索。我们比较了LLM和语音合成模型之间的三种集成方法,包括直接微调 LLM、LLM 和 VALL E 的叠加层,以及使用 LLM 作为强大的文本编码器耦合 LLM 和 VALL E。实验结果表明,直接使用LoRA方法微调LLM来提升语音合成能力的效果并不理想,而叠加LLM和VALL E可以在说话人相似度和误词率WER两方面提高生成语音的质量。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

这篇关于【AI视野·今日Sound 声学论文速览 第三十九期】Tue, 2 Jan 2024的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/577358

相关文章

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技