【AI视野·今日Sound 声学论文速览 第四十二期】Fri, 5 Jan 2024

2024-01-08 13:44

本文主要是介绍【AI视野·今日Sound 声学论文速览 第四十二期】Fri, 5 Jan 2024,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AI视野·今日CS.Sound 声学论文速览
Fri, 5 Jan 2024
Totally 10 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

PosCUDA: Position based Convolution for Unlearnable Audio Datasets
Authors Vignesh Gokul, Shlomo Dubnov
深度学习模型需要大量干净的数据才能获得良好的性能。为了避免昂贵的数据采集成本,研究人员使用互联网上提供的丰富数据。这引发了严重的隐私问题,即未经授权可能滥用个人数据进行模型训练。最近的工作(例如 CUDA)提出了这个问题的解决方案,通过添加类模糊来使数据集变得不可学习,即模型永远不能使用获取的数据集进行学习。然而,这些方法通常会降低数据的质量,使其在实际应用中毫无用处。我们引入了 PosCUDA,一种基于位置的卷积,用于创建不可学习的音频数据集。 PosCUDA 在小块音频上使用类明智卷积。补丁的位置基于每个类的私钥,因此模型学习位置模糊和标签之间的关系,但无法泛化。我们凭经验证明 PosCUDA 可以在保持原始音频数据集质量的同时实现不可学习性。

Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations
Authors Yejin Jeon, Yunsu Kim, Gary Geunbae Lee
零样本多扬声器 TTS 旨在将语音与所选目标扬声器的声音进行合成,而无需任何微调。然而,流行的方法在适应域外设置的新说话人方面遇到了限制,这主要是由于说话人解缠不充分和内容泄漏。为了克服这些限制,我们提出了一种创新的否定特征学习范例,该范例通过利用减法运算将解耦的说话人属性建模为与完整音频表示的偏差。通过从说话者表示中消除多余的内容信息,我们的否定方案不仅减轻了内容泄漏,从而增强了合成的鲁棒性,而且还提高了说话者的保真度。此外,为了促进不同说话者属性的学习,我们利用多流 Transformer,它保留多个假设并发起类似于集成学习的训练范例。为了统一这些假设并实现最终的说话人表示,我们采用了注意力池。最后,鉴于以所需语音生成目标文本话语的必要性,我们采用自适应层归一化来有效地将先前生成的说话者表示与目标文本表示融合,而不是仅仅连接文本和音频模态。

Generating Rhythm Game Music with Jukebox
Authors Nicholas Yan
音乐一直被认为是人类的努力,当赞美一首音乐时,我们强调作曲家的创造力和音乐所唤起的情感。由于音乐也严重依赖于反复出现的旋律主题和和弦进行形式的模式和重复,因此人工智能越来越能够以类似人类的方式复制音乐。这项研究调查了 Jukebox(一种开源商用神经网络)的能力,以准确复制节奏游戏中常见的两种音乐类型:艺术核心音乐和管弦乐。 Google Colab 笔记本提供了采样和扩展两种流派的总共 16 种钢琴编曲所需的计算资源。一项包含选定样本的调查被分发给当地的一个青年管弦乐队,以衡量人们对人工智能和人类生成的音乐的音乐性的看法。尽管人类更喜欢人类生成的音乐,但 Jukebox 的稍高评级表明它在某种程度上能够模仿这两种流派的风格。

Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition
Authors David M. Chan, Shalini Ghosh, Hitesh Tulsiani, Ariya Rastrow, Bj rn Hoffmeister
尽管自动语音识别 ASR 系统的单词错误率持续下降,但基于 ASR 系统构建的自然语言理解 NLU 应用程序仍然将大量失败归因于低质量的语音识别结果。现有的助理系统收集大量此类不成功的交互,但这些系统通常无法从这些交互中学习,即使是以离线方式也是如此。在这项工作中,我们介绍了 CLC 对话对比学习,这是一系列以自我监督的方式对模型进行对比微调的方法,利用与助手不成功的对话中容易检测到的伪影。我们证明,我们的 CLC 系列方法可以将 OD3(面向音频任务的对话的新公共大规模半合成元数据集)上 ASR 模型的性能提高高达 19.2 。这些收益也转移到现实世界的系统中,我们表明 CLC 可以帮助将性能比基线提高多达 6.7 个。

Direction of Arrival Estimation Using Microphone Array Processing for Moving Humanoid Robots
Authors Vladimir Tourbabin, Boaz Rafaely
近年来,人形机器人的听觉系统受到越来越多的关注。该系统通常通过麦克风阵列来获取周围的声场。然后使用各种方法处理阵列采集的信号。广泛应用的方法之一是到达方向估计。传统的到达方向估计方法假设在估计期间阵列固定在给定位置。然而,对于安装在移动人形机器人上的阵列来说,情况不一定如此。如果没有适当考虑阵列运动,可能会在估计的到达方向上引入显着的误差。当前的论文提出了一种考虑运动的信号模型。基于该模型,提出了两种处理方法。第一个补偿机器人的运动。第二种方法适用于周期性信号,并利用运动来将性能提高到超出固定阵列的水平。提供了数值模拟和实验研究,证明运动补偿方法几乎消除了与运动相关的误差。

Optimal Real-Weighted Beamforming With Application to Linear and Spherical Arrays
Authors V. Tourbabin, M. Agmon, B. Rafaely, J. Tabrikian
传感器阵列的用途之一是用于空间滤波或波束形成。当前的数字信号处理方法有利于复杂的加权波束形成,为阵列设计提供了灵活性。先前的研究提出使用实值波束成形权重,虽然降低了设计的灵活性,但可以提供一系列好处,例如简化的波束成形器实现或高效的波束成形算法。本文提出了一种设计具有实值权重的数组的新方法,该方法实现了最大方向性,为数组权重提供了封闭形式的解决方案。该方法针对线性和球形阵列进行了研究,结果表明,刚性球形阵列特别适合实重设计,因为它们不会受到栅瓣的影响,而栅瓣是具有实重的线性阵列的主要特征。

Listening broadband physical model for microphones: a first step
Authors Laurent Millot IDEAT , Antoine Valette, Manuel Lopes, G rard Pel IDEAT , Mohammed Elliq, Dominique Lambert IDEAT
我们将展示麦克风宽带物理模型设计的第一步。在所提出的模型中,经典的方向性模式全向、双向和心形系列被重新发现为极限情况单色激励、低频和远场近似。单声道音乐片段被用作模型的源,因此我们可以通过 Max MSP 应用程序实时聆听相关录制声场的模拟。收听和子带分析表明方向性是频率子带和源位置的函数。该模型还表现出有趣的邻近效应。

PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques
Authors Tzu Han Lin, How Shing Wang, Hao Yung Weng, Kuang Chen Peng, Zih Ching Chen, Hung yi Lee
参数高效微调 PEFT 越来越被认为是语音处理中的有效方法。然而,PEFT 方法的最佳方法和放置仍然没有定论。我们的研究进行了广泛的实验来比较不同的 PEFT 方法及其采用可微架构搜索 DARTS 的分层布局。我们还探索使用集成学习来利用不同的 PEFT 策略。结果表明,DARTS 的性能并不优于基线方法,后者涉及将相同的 PEFT 方法插入到自监督学习 SSL 模型的所有层中。相比之下,集成学习方法,特别是采用多数投票的方法,表现出优越的性能。我们的统计证据表明,不同的 PEFT 方法以不同的方式学习。

CLAPP: Contrastive Language-Audio Pre-training in Passive Underwater Vessel Classification
Authors Zeyu Li, Jingsheng Gao, Tong Yu, Suncheng Xiang, Jiacheng Ruan, Ting Liu, Yuzhuo Fu
现有的音频分类研究在识别被动水下船舶场景的属性方面面临挑战,并且由于数据隐私问题而缺乏注释良好的数据集。在本研究中,我们介绍了被动水下船舶分类中的 CLAPP 对比语言音频预训练,这是一种新颖的模型。我们的目标是使用从远洋船舶数据集中获得的各种船舶音频和船舶状态文本对来训练神经网络。 CLAPP 能够直接从原始船舶音频数据中学习,并在可用时从精心策划的标签中学习,从而提高对被动水下船舶场景中船舶属性的识别。模型的零射击功能允许预测给定船舶音频的最相关的船舶状态描述,而无需直接优化任务。我们的方法旨在解决船舶音频文本分类和被动水下船舶音频属性识别的两个挑战。

CTC Blank Triggered Dynamic Layer-Skipping for Efficient CTC-based Speech Recognition
Authors Junfeng Hou, Peiyao Wang, Jincheng Zhang, Meng Yang, Minwei Feng, Jingcheng Yin
尽管性能令人印象深刻,但在计算资源有限的情况下部署端到端语音识别模型仍然具有挑战性。鉴于模型规模的逐渐增加和模型应用的广泛,针对不同输入选择性地执行模型组件以提高推理效率非常有意义。在本文中,我们提出了一种动态跳层方法,该方法利用中间层的 CTC 空白输出来触发跳过具有高空白概率的帧的最后几个编码器层。此外,我们对CTC输出分布进行因子分解,并对中间层进行知识蒸馏,以减少计算量并提高识别精度。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

这篇关于【AI视野·今日Sound 声学论文速览 第四十二期】Fri, 5 Jan 2024的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/583647

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/