【AI视野·今日Sound 声学论文速览 第二十五期】Fri, 13 Oct 2023

2023-11-27 07:30

本文主要是介绍【AI视野·今日Sound 声学论文速览 第二十五期】Fri, 13 Oct 2023,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AI视野·今日CS.Sound 声学论文速览
Fri, 13 Oct 2023
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Impact of time and note duration tokenizations on deep learning symbolic music modeling
Authors Nathan Fradet, Nicolas Gutowski, Fabien Chhel, Jean Pierre Briot
符号音乐广泛应用于各种深度学习任务,包括生成、转录、合成和音乐信息检索 MIR 。它主要用于像变形金刚这样的离散模型,这些模型需要将音乐标记化,即格式化为称为标记的不同元素的序列。标记化可以通过不同的方式执行。由于 Transformer 在推理方面可能会遇到困难,但可以更轻松地捕获显式信息,因此研究此类模型的信息表示方式如何影响其性能非常重要。在这项工作中,我们分析了常见的标记化方法,并对时间和音符持续时间表示进行了实验。我们比较了这两个有影响力的标准在多项任务上的表现,包括作曲家和情感分类、音乐生成和序列表示学习。

Crowdsourced and Automatic Speech Prominence Estimation
Authors Max Morrison, Pranav Pawar, Nathan Pruyne, Jennifer Cole, Bryan Pardo
口语单词的突出程度是指普通母语听众认为该单词相对于其上下文而言突出或强调的程度。语音重要性估计是为话语中每个单词的重要性分配数值的过程。这些突出标签对于语言分析以及训练自动化系统以执行重点控制的文本到语音或情感识别非常有用。手动注释突出性既耗时又昂贵,这促使了语音突出性估计自动化方法的开发。然而,使用机器学习方法开发这样的自动化系统需要人工注释的训练数据。使用我们的系统来获取此类人工注释,我们收集并开源 LibriTTS 数据集一部分的众包注释。我们使用这些注释作为基本事实来训练神经语音突出估计器,该估计器可以推广到看不见的说话者、数据集和说话风格。

A cry for help: Early detection of brain injury in newborns
Authors Charles C. Onu, Samantha Latremouille, Arsenii Gorin, Junhao Wang, Uchenna Ekwochi, Peter O. Ubuane, Omolara A. Kehinde, Muhammad A. Salisu, Datonye Briggs, Yoshua Bengio, Doina Precup
自 20 世纪 60 年代以来,新生儿临床医生已经知道,患有某些神经系统疾病的新生儿会表现出哭泣模式的改变,例如出生窒息时的高亢哭声。尽管每年有超过 150 万婴儿死亡和残疾,但早期发现窒息引起的新生儿脑损伤仍然是一项挑战,特别是在发展中国家,因为大多数新生儿的出生都没有经过培训的医生接生。在这里,我们报告了第一个洲际临床研究,证明可以使用我们称为 Roseline 的人工智能算法从记录的婴儿哭声中可靠地确定新生儿脑损伤。之前和最近的工作因缺乏大型、高质量的哭泣记录临床数据库而受到限制,限制了最先进的机器学习的应用。我们为基于音频的病理检测模型开发了一种新的训练方法,并在从 3 大洲的 5 家不同地理位置的医院获取的新生儿哭声大型数据库上评估该系统。我们的系统提取可解释的声学生物标志物,支持临床决策,并能够准确检测新生儿哭声引起的神经损伤,AUC 灵敏度为 92.5 88.7,特异性为 80。基于哭泣的神经系统监测为低成本、易于使用、非侵入性和无接触式高危婴儿筛查打开了大门,特别是当集成到智能手机或新生儿 ICU 监视器等简单设备中时。这将在没有其他选择的情况下提供可靠的工具,同时也减少了定期对新生儿进行体力消耗或辐射暴露评估(例如脑部 CT 扫描)的需要。

Multimodal Variational Auto-encoder based Audio-Visual Segmentation
Authors Yuxin Mao, Jing Zhang, Mochu Xiang, Yiran Zhong, Yuchao Dai
我们提出了一种用于视听分割AVS的显式条件多模变分自动编码器ECMVAE,旨在分割视频序列中的声源。现有的 AVS 方法侧重于隐式特征融合策略,其中模型经过训练以适应数据集中的离散样本。由于数据集有限且多样性较低,所得到的性能通常不能令人满意。相反,我们从有效表示学习的角度解决这个问题,旨在明确地建模每种模态的贡献。具体来说,我们发现音频包含声音产生者的关键类别信息,视觉数据提供候选声音产生者。他们共享的信息对应于视觉数据中显示的目标声音产生者。在这种情况下,跨模态共享表示学习对于 AVS 尤为重要。为了实现这一目标,我们的 ECMVAE 将每种模态的表示分解为模态共享表示和模态特定表示。在共享表示和特定表示之间应用正交性约束,以维持因式分解的潜在代码的排他属性。此外,引入了互信息最大化正则化器来实现对每种模态的广泛探索。

A Single Speech Enhancement Model Unifying Dereverberation, Denoising, Speaker Counting, Separation, and Extraction
Authors Kohei Saijo, Wangyou Zhang, Zhong Qiu Wang, Shinji Watanabe, Tetsunori Kobayashi, Tetsuji Ogawa
我们提出了一种多任务通用语音增强 MUSE 模型,该模型可以执行五种语音增强 SE 任务:去混响、去噪、语音分离 SS、目标说话人提取 TSE 和说话人计数。这是通过将两个模块集成到 SE 模型中来实现的:1 一个内部分离模块,负责说话者计数和分离;2 一个 TSE 模块,使用目标说话者提示从内部分离输出中提取目标语音。如果给出目标说话者提示,则训练模型执行 TSE,否则执行 SS。通过训练模型去除噪声和混响,我们允许模型用单个模型解决上述五个任务,但目前尚未完成。

Fast Word Error Rate Estimation Using Self-Supervised Representations For Speech And Text
Authors Chanho Park, Chengsong Lu, Mingjie Chen, Thomas Hain
自动语音识别 ASR 的质量通常通过单词错误率 WER 来衡量。 WER 估计是一项旨在在给定语音和转录的情况下预测 ASR 系统的 WER 的任务。随着先进的 ASR 系统接受大量数据的训练,这项任务越来越受到关注。在这种情况下,WER 估计在许多场景中变得必要,例如,选择转录质量未知的训练数据或估计没有真实转录的 ASR 系统的测试性能。面对大量数据,WER估计器的计算效率在实际应用中变得至关重要。然而,以前的作品通常没有将其视为优先事项。本文介绍了一种使用自监督学习表示 SSLR 的快速 WER 估计器 Fe WER。该估计器建立在通过平均池聚合的 SSLR 之上。结果表明,Fe WER 在 Ted Lium3 上的均方根误差和皮尔逊相关系数两个评估指标上分别比 e WER3 基线高出 19.69 和 7.16。此外,当目标为 10.88 时,按持续时间加权的估计为 10.43 。

On the Relevance of Phoneme Duration Variability of Synthesized Training Data for Automatic Speech Recognition
Authors Nick Rossenbach, Benedikt Hilmes, Ralf Schl ter
文本转语音 TTS 系统生成的合成数据可用于改进低资源或域不匹配任务中的自动语音识别 ASR 系统。事实证明,TTS 生成的输出仍然不具有与真实数据相同的质量。在这项工作中,我们重点关注合成数据的时间结构及其与 ASR 训练的关系。通过使用新颖的预言机设置,我们展示了非自回归 NAR TTS 中的持续时间建模对合成数据质量下降的影响有多大。为了获得参考音素持续时间,我们使用两种常见的对齐方法:隐马尔可夫高斯混合模型 HMM GMM 对齐器和神经联结时间分类 CTC 对齐器。

Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and Textually Described Voices
Authors Matthew Baas, Herman Kamper
语音转换旨在以目标说话人的录音为参考,将源语音转换为目标语音。较新的模型正在产生越来越真实的输出。但是,当模型输入非标准数据(例如来自有语言障碍的用户的语音)时会发生什么我们研究了最近的语音转换模型在非标准下游语音转换任务上的执行情况。我们使用一种简单但稳健的方法,称为 k 最近邻语音转换 kNN VC 。我们看一下四种非标准应用程序:口吃语音转换、跨语言语音转换、乐器转换和文本到语音转换。后者涉及转换为通过文本描述指定的目标语音,例如一个声音高亢的年轻人。与已建立的基线相比,我们发现 kNN VC 在口吃和跨语言语音转换方面保留了高性能。乐器和文本到语音转换任务的结果更加复杂。例如,kNN VC 在鼓等某些乐器上效果很好,但在其他乐器上效果不佳。尽管如此,这表明语音转换模型,尤其是 kNN VC 越来越适用于一系列非标准下游任务。但当样本距离训练分布很远时,仍然存在局限性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

这篇关于【AI视野·今日Sound 声学论文速览 第二十五期】Fri, 13 Oct 2023的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/427292

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

Java进阶13讲__第12讲_1/2

多线程、线程池 1.  线程概念 1.1  什么是线程 1.2  线程的好处 2.   创建线程的三种方式 注意事项 2.1  继承Thread类 2.1.1 认识  2.1.2  编码实现  package cn.hdc.oop10.Thread;import org.slf4j.Logger;import org.slf4j.LoggerFactory

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU