【AI视野·今日Sound 声学论文速览 第四十期】Wed, 3 Jan 2024

2024-01-08 01:36

本文主要是介绍【AI视野·今日Sound 声学论文速览 第四十期】Wed, 3 Jan 2024,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AI视野·今日CS.Sound 声学论文速览
Wed, 3 Jan 2024
Totally 4 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation
Authors Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
扩散模型和大型语言模型法学硕士的最新进展极大地推动了 AIGC 领域的发展。 Text to Audio TTA 是一个新兴的 AIGC 应用程序,旨在根据自然语言提示生成音频,正在吸引越来越多的关注。然而,现有的 TTA 研究经常在生成质量和文本音频对齐方面遇到困难,尤其是对于复杂的文本输入。从最先进的文本到图像 T2I 扩散模型中汲取灵感,我们引入了 Auffusion,这是一个 TTA 系统,通过有效利用其固有的生成优势和精确的跨模态对齐,将 T2I 模型框架适应 TTA 任务。我们的客观和主观评估表明,Auffusion 超越了之前使用有限数据和计算资源的 TTA 方法。此外,T2I 之前的研究认识到编码器选择对跨模式对齐(例如细粒度细节和对象绑定)的重大影响,而之前的 TTA 工作中缺乏类似的评估。通过全面的消融研究和创新的交叉注意力图可视化,我们为 TTA 中的文本音频对齐提供了富有洞察力的评估。我们的研究结果揭示了 Auffusion 在生成准确匹配文本描述的音频方面的卓越能力,这在几个相关任务中得到了进一步证明,例如音频风格转换、修复和其他操作。

HAAQI-Net: A non-intrusive neural music quality assessment model for hearing aids
Authors Dyah A. M. G. Wisnu, Epri Pratiwi, Stefano Rini, Ryandhimas E. Zezario, Hsin Min Wang, Yu Tsao
本文介绍了HAAQI Net,这是一种专为助听器用户量身定制的用于音乐质量评估的非侵入式深度学习模型。与助听器音频质量指数 HAAQI 等传统方法相比,HAAQI Net 采用带有注意力的双向长短期记忆 BLSTM。它以评估的音乐样本和听力损失模式作为输入,生成预测的 HAAQI 分数。该模型采用来自 Audio Transformers BEAT 的预训练双向编码器表示来进行声学特征提取。将预测分数与真实分数进行比较,HAAQI Net 的纵向一致性相关性 LCC 为 0.9257,斯皮尔曼等级相关系数 SRCC 为 0.9394,均方误差 MSE 为 0.0080。

The role of direct sound spherical harmonics representation in externalization using binaural reproduction
Authors Eran Miller, Boaz Rafaely
直达声中的信息对人类空间声源感知的重要性是一个正在进行的研究课题。直达声和扩散声或混响声之间的分类构成了空间音频领域众多研究的基础。特别地,参数空间音频表示方法使用这种分类并采用信号处理来增强再现时的音频质量。然而,当前的文献没有提供关于在高保真度立体声响复制的背景下理想的直接声音表征对外化的影响的信息。本文旨在评估使用双耳再现时直达声中的空间信息在声场外化中的重要性。这是在球谐函数 SH 域中完成的,其中模拟了高保真度立体声响复制信号中的理想直接声音表示,并在正式的听力测试中评估其感知的外化。

Detecting the presence of sperm whales echolocation clicks in noisy environments
Authors Guy Gubnitsky, Roee Diamant
抹香鲸在水下航行时会发出一系列脉冲般的咔嗒声,称为回声定位咔嗒声。这些咔嗒声的特征是多脉冲结构 MPS,它充当独特的模式。在这项工作中,我们使用 MPS 的稳定性作为检测指标,用于识别和分类噪声环境中点击的存在。为了区分噪声瞬变并处理来自多头抹香鲸的同时发射,我们的方法对 MPS 测量的时间序列进行聚类,同时消除不满足点击间隔、持续时间和频谱限制的潜在点击。因此,我们的方法可以处理高噪声瞬态和低信噪比。我们的检测方法的性能使用三个数据集进行检查,其中包括来自地中海七个月的记录,其中包含手动验证的环境噪声,以及从多米尼加岛收集的几天的手动标记数据,其中包含来自多条抹香鲸的约 40,000 次点击,以及来自巴哈马的数据集,其中包含来自单个抹香鲸的 1,203 个标记点击。与两个基准检测器的结果相比,可以观察到精确度和召回率之间更好的权衡,并且错误检测率显着降低,尤其是在嘈杂的环境中。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

这篇关于【AI视野·今日Sound 声学论文速览 第四十期】Wed, 3 Jan 2024的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/581910

相关文章

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Spring AI ectorStore的使用流程

《SpringAIectorStore的使用流程》SpringAI中的VectorStore是一种用于存储和检索高维向量数据的数据库或存储解决方案,它在AI应用中发挥着至关重要的作用,本文给大家介... 目录一、VectorStore的基本概念二、VectorStore的核心接口三、VectorStore的

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

Spring AI集成DeepSeek实现流式输出的操作方法

《SpringAI集成DeepSeek实现流式输出的操作方法》本文介绍了如何在SpringBoot中使用Sse(Server-SentEvents)技术实现流式输出,后端使用SpringMVC中的S... 目录一、后端代码二、前端代码三、运行项目小天有话说题外话参考资料前面一篇文章我们实现了《Spring

Spring AI与DeepSeek实战一之快速打造智能对话应用

《SpringAI与DeepSeek实战一之快速打造智能对话应用》本文详细介绍了如何通过SpringAI框架集成DeepSeek大模型,实现普通对话和流式对话功能,步骤包括申请API-KEY、项目搭... 目录一、概述二、申请DeepSeek的API-KEY三、项目搭建3.1. 开发环境要求3.2. mav

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

SpringBoot整合DeepSeek实现AI对话功能

《SpringBoot整合DeepSeek实现AI对话功能》本文介绍了如何在SpringBoot项目中整合DeepSeekAPI和本地私有化部署DeepSeekR1模型,通过SpringAI框架简化了... 目录Spring AI版本依赖整合DeepSeek API key整合本地化部署的DeepSeek