【AI视野·今日Sound 声学论文速览 第四十期】Wed, 3 Jan 2024

2024-01-08 01:36

本文主要是介绍【AI视野·今日Sound 声学论文速览 第四十期】Wed, 3 Jan 2024,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AI视野·今日CS.Sound 声学论文速览
Wed, 3 Jan 2024
Totally 4 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation
Authors Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
扩散模型和大型语言模型法学硕士的最新进展极大地推动了 AIGC 领域的发展。 Text to Audio TTA 是一个新兴的 AIGC 应用程序,旨在根据自然语言提示生成音频,正在吸引越来越多的关注。然而,现有的 TTA 研究经常在生成质量和文本音频对齐方面遇到困难,尤其是对于复杂的文本输入。从最先进的文本到图像 T2I 扩散模型中汲取灵感,我们引入了 Auffusion,这是一个 TTA 系统,通过有效利用其固有的生成优势和精确的跨模态对齐,将 T2I 模型框架适应 TTA 任务。我们的客观和主观评估表明,Auffusion 超越了之前使用有限数据和计算资源的 TTA 方法。此外,T2I 之前的研究认识到编码器选择对跨模式对齐(例如细粒度细节和对象绑定)的重大影响,而之前的 TTA 工作中缺乏类似的评估。通过全面的消融研究和创新的交叉注意力图可视化,我们为 TTA 中的文本音频对齐提供了富有洞察力的评估。我们的研究结果揭示了 Auffusion 在生成准确匹配文本描述的音频方面的卓越能力,这在几个相关任务中得到了进一步证明,例如音频风格转换、修复和其他操作。

HAAQI-Net: A non-intrusive neural music quality assessment model for hearing aids
Authors Dyah A. M. G. Wisnu, Epri Pratiwi, Stefano Rini, Ryandhimas E. Zezario, Hsin Min Wang, Yu Tsao
本文介绍了HAAQI Net,这是一种专为助听器用户量身定制的用于音乐质量评估的非侵入式深度学习模型。与助听器音频质量指数 HAAQI 等传统方法相比,HAAQI Net 采用带有注意力的双向长短期记忆 BLSTM。它以评估的音乐样本和听力损失模式作为输入,生成预测的 HAAQI 分数。该模型采用来自 Audio Transformers BEAT 的预训练双向编码器表示来进行声学特征提取。将预测分数与真实分数进行比较,HAAQI Net 的纵向一致性相关性 LCC 为 0.9257,斯皮尔曼等级相关系数 SRCC 为 0.9394,均方误差 MSE 为 0.0080。

The role of direct sound spherical harmonics representation in externalization using binaural reproduction
Authors Eran Miller, Boaz Rafaely
直达声中的信息对人类空间声源感知的重要性是一个正在进行的研究课题。直达声和扩散声或混响声之间的分类构成了空间音频领域众多研究的基础。特别地,参数空间音频表示方法使用这种分类并采用信号处理来增强再现时的音频质量。然而,当前的文献没有提供关于在高保真度立体声响复制的背景下理想的直接声音表征对外化的影响的信息。本文旨在评估使用双耳再现时直达声中的空间信息在声场外化中的重要性。这是在球谐函数 SH 域中完成的,其中模拟了高保真度立体声响复制信号中的理想直接声音表示,并在正式的听力测试中评估其感知的外化。

Detecting the presence of sperm whales echolocation clicks in noisy environments
Authors Guy Gubnitsky, Roee Diamant
抹香鲸在水下航行时会发出一系列脉冲般的咔嗒声,称为回声定位咔嗒声。这些咔嗒声的特征是多脉冲结构 MPS,它充当独特的模式。在这项工作中,我们使用 MPS 的稳定性作为检测指标,用于识别和分类噪声环境中点击的存在。为了区分噪声瞬变并处理来自多头抹香鲸的同时发射,我们的方法对 MPS 测量的时间序列进行聚类,同时消除不满足点击间隔、持续时间和频谱限制的潜在点击。因此,我们的方法可以处理高噪声瞬态和低信噪比。我们的检测方法的性能使用三个数据集进行检查,其中包括来自地中海七个月的记录,其中包含手动验证的环境噪声,以及从多米尼加岛收集的几天的手动标记数据,其中包含来自多条抹香鲸的约 40,000 次点击,以及来自巴哈马的数据集,其中包含来自单个抹香鲸的 1,203 个标记点击。与两个基准检测器的结果相比,可以观察到精确度和召回率之间更好的权衡,并且错误检测率显着降低,尤其是在嘈杂的环境中。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

这篇关于【AI视野·今日Sound 声学论文速览 第四十期】Wed, 3 Jan 2024的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/581910

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/