【AI视野·今日Sound 声学论文速览 第三十期】Fri, 20 Oct 2023

2023-10-24 22:29

本文主要是介绍【AI视野·今日Sound 声学论文速览 第三十期】Fri, 20 Oct 2023,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AI视野·今日CS.Sound 声学论文速览
Fri, 20 Oct 2023
Totally 7 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述


Interesting:

📚Loop Copilot,基于对话模型的作曲助理 (from 伦敦大学玛丽女王学院)
在这里插入图片描述
website:https://sites.google.com/view/loop-copilot



Daily Sound Papers

Uncertainty Quantification of Bandgaps in Acoustic Metamaterials with Stochastic Geometric Defects and Material Properties
Authors Han Zhang, Rayehe Karimi Mahabadi, Cynthia Rudin, Johann Guilleminot, L. Catherine Brinson
本文研究了不确定性量化技术(即谱投影和多项式混沌展开)的实用性,以减少在给定随机材料特性和几何缺陷的情况下表征声学超材料色散带响应的采样需求。在输入空间概率分布的形成中展示了一种以可解释的、与分辨率无关的方式编码几何缺陷的新方法。

Audio Editing with Non-Rigid Text Prompts
Authors Francesco Paissan, Zhepei Wang, Mirco Ravanelli, Paris Smaragdis, Cem Subakan
在本文中,我们探讨了非刚性文本编辑的音频编辑。我们表明,所提出的编辑管道能够创建忠实于输入音频的音频编辑。我们探索执行加法、风格转换和绘画的文本提示。我们定量和定性地表明,这些编辑能够获得优于 Audio LDM(最近发布的文本提示音频生成模型)的结果。

EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks
Authors Hanan Hamza, Fiza Gafoor, Fathima Sithara, Gayathri Anil, V. S. Anoop
在先进人工智能和人机交互的时代,识别口语中的情感至关重要。这项研究探索了深度学习技术在语音情感识别中的集成,为与说话人分类和情感识别相关的挑战提供了全面的解决方案。它引入了一个框架,该框架结合了现有的说话人二值化管道和基于卷积神经网络 CNN 构建的情绪识别模型,以实现更高的精度。所提出的模型使用来自五个语音情感数据集的数据进行训练,即 RAVDESS、CREMA D、SAVEE、TESS 和 Movie Clips,其中后者是专门为本研究创建的语音情感数据集。从每个样本中提取的特征包括梅尔频率倒谱系数 MFCC 、过零率 ZCR 、均方根 RMS 以及各种数据增强算法,例如音调、噪声、拉伸和移位。这种特征提取方法旨在提高预测精度,同时降低计算复杂度。

Energy-Based Models For Speech Synthesis
Authors Wanli Sun, Zehai Tu, Anton Ragni
最近,人们对用于语音合成的非自回归非 AR 模型产生了很大的兴趣,例如 FastSpeech 2 和扩散模型。与 AR 模型不同,这些模型的输出之间不存在自回归依赖性,这使得推理更加高效。本文通过另一个称为基于能量的模型 EBM 的成员扩展了可用的非 AR 模型的范围。该论文描述了如何使用噪声对比估计(依赖于正样本和负样本之间的比较)来训练 EBM。它提出了多种生成有效负样本的策略,包括使用高性能 AR 模型。它还描述了如何使用 Langevin Markov Chain Monte Carlo MCMC 执行 EBM 采样。 Langevin MCMC 的使用能够在 EBM 和当前流行的扩散模型之间建立联系。

Loop Copilot: Conducting AI Ensembles for Music Generation and Iterative Editing
Authors Yixiao Zhang, Akira Maezawa, Gus Xia, Kazuhiko Yamamoto, Simon Dixon
创作音乐是迭代的,每个阶段都需要不同的方法。然而,现有的人工智能音乐系统在协调多个子系统以满足不同需求方面存在不足。为了解决这一差距,我们推出了 Loop Copilot,这是一种新颖的系统,使用户能够通过交互式多轮对话界面生成并迭代地完善音乐。该系统使用大型语言模型来解释用户意图并选择合适的AI模型来执行任务。每个后端模型专门用于特定任务,并且它们的输出被聚合以满足用户的要求。为了确保音乐的连贯性,基本属性都保存在一个集中的表中。

The CHiME-7 Challenge: System Description and Performance of NeMo Team's DASR System
Authors Tae Jin Park, He Huang, Ante Jukic, Kunal Dhawan, Krishna C. Puvvada, Nithin Koluguri, Nikolay Karpov, Aleksandr Laptev, Jagadeesh Balam, Boris Ginsburg
我们在第七届 CHiME 挑战赛远程自动语音识别 DASR 任务中展示 NVIDIA NeMo 团队的多通道语音识别系统,重点开发多通道、多说话人语音识别系统,专门用于转录分布式麦克风和麦克风阵列的语音。该系统主要由以下几个集成模块组成:扬声器分类模块、多通道音频前端处理模块和ASR模块。这些组件共同建立了一个级联系统,精心处理多通道和多扬声器音频输入。此外,本文还重点介绍了显着提高我们系统性能的综合优化过程。

Property-Aware Multi-Speaker Data Simulation: A Probabilistic Modelling Technique for Synthetic Data Generation
Authors Tae Jin Park, He Huang, Coleman Hooper, Nithin Koluguri, Kunal Dhawan, Ante Jukic, Jagadeesh Balam, Boris Ginsburg
我们引入了一个复杂的多扬声器语音数据模拟器,专门用于生成多扬声器语音录音。该模拟器的一个显着特点是它能够通过调整统计参数来调节静音和重叠的分布。此功能提供了定制的训练环境,用于开发适合说话者分类和语音活动检测的神经模型。获取用于说话人分类的大量数据集通常会带来重大挑战,特别是在多说话人场景中。此外,语音数据的精确时间戳注释是训练说话人分类和语音活动检测的关键因素。我们提出的多扬声器模拟器通过生成大规模音频混合物来解决这些问题,该混合物保持与输入参数紧密一致的统计属性。我们证明了所提出的多扬声器模拟器生成的音频混合物具有与现实世界统计数据得出的输入参数密切相关的统计属性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

这篇关于【AI视野·今日Sound 声学论文速览 第三十期】Fri, 20 Oct 2023的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/278173

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU