UNSUPERVISED PRETRAINING TRANSFERS WELL ACROSS LANGUAGES

2023-12-15 06:20

本文主要是介绍UNSUPERVISED PRETRAINING TRANSFERS WELL ACROSS LANGUAGES,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

UNSUPERVISED PRETRAINING TRANSFERS WELL ACROSS LANGUAGES

1. 论文思路:

作者基于CPC的自监督预训练方法提出了改进版本,解决了原CPC配置中encoder通过batch normalization 泄露信息的问题,并用一层Transformer layer 提升了phoneme 的表征能力。最终得出的主要结论是:通过改进版cpc学习到的表征可以跨语音使用,并能够取得甚至超过有监督预训练的效果。

2. 模型改进

  • CPC
    将输入T时间长度的音频序列过一个encoder (五层卷积网络) 得到 z t z_t zt, 然后将 z t z_t zt经过一个序列模型得到最终的表征 c t c_t ct (公式中用 z t z_t zt表示.
    在这里插入图片描述
    基于contrast loss利用 c t c_t ct去预估未来K时间步的 z t z_t zt.
    在这里插入图片描述
  • 改进版CPC
    问题:
    (1)原CPC的训练不稳定,经常出现收敛问题,主要是因为encoder 中层与层之间采用batch normalization,encoder 在sequence中是共享的,这样在过去和未来的窗口存在参数信息的泄露。改用channel-wise normalization.->layer nomalization.
    在这里插入图片描述
    (2)在做contrast loss 的时候采用了线性的分类器,因此学到的phonemes embedding 编码也倾向于是线性可分的。但是实际上的表征应该是包含时间窗的。因此可以采用其他替代的方法,比如将future representations 再过一个sequence model 比如transformer,不同结构的对比结果为:
    在这里插入图片描述

3.实验结果

实验配置:将编码后的特征经过线性分类器做音素分类。
评判标准:ABX score 通过估计不同语音片段彼此接近的概率来衡量不同音素之间的可分性。

  • Within language
    在这里插入图片描述
    取得了在within language下 within 和 across speaker 实验优于CPC的实验结果,并且与一些专注音素识别的无监督模型结果相当。
  • Cross-lingual
    在这里插入图片描述
    在这里插入图片描述
    在target language 的训练数据只有1h的条件下,改进版CPC这种自监督方法表现良好,超过CPC 5.4个PER,仅比有监督模型低1.3个点。同时基本超过了其他无监督模型的结果。
    在这里插入图片描述
    模型不冻住做finetune的结果更好。

文章总结:
通过改进版CPC编码的向量可在跨语言的数据集上均取得不错的效果,解决了一些小语种训练数据少的问题。

这篇关于UNSUPERVISED PRETRAINING TRANSFERS WELL ACROSS LANGUAGES的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/495422

相关文章

Stripe data files across multiple physical devices and locations

Stripe data files across multiple physical devices and locations 如果在没有做条带的磁盘(即从存储到OS没有做raid),那么就需要手工去做I/O的分布。切记,不应该将频繁使用的table和其index分开,这样会正大I/O; 针对tables、indexes、temp tablespace,首先调优SQL,其次如果真心无法再

配置aop报错: Pointcut is not well-formed: expecting 'name pattern' at character position

切入点表达式的使用规则: execution(modifiers-pattern? ret-type-pattern declaring-type-pattern? name-pattern(param-pattern) throws-pattern?) 有“?”号的部分表示可省略的,modifers-pattern表示修饰符如public、protected等,ret-type-patter

Structure-Aware Feature Fusion for Unsupervised Domain Adaptation

Structure-Aware Feature Fusion for Unsupervised Domain Adaptation 摘要引言相关工作UDA中的分布匹配方法 Model 摘要 无监督域适应(Unsupervised Domain Adaptation,UDA)旨在从有标注的源域中学习并迁移通用特征到无任何标注的目标域。现有的方法仅对高层次的表示进行对齐,却没有利

Language Models are Unsupervised Multitask Learners

摘要 自然语言处理任务,如问答、机器翻译、阅读理解和摘要,通常在任务特定的数据集上使用监督学习来处理。当在一个名为WebText的数百万网页的新数据集上训练时,我们证明了语言模型在没有任何明确监督的情况下开始学习这些任务。在不使用127,000多个训练示例的情况下,当以文档和问题为条件时,语言模型生成的答案在CoQA数据集上达到55的F1值 -匹配或超过4个基线系统中的3个的性能。语言模型的能力

[MOCO] Momentum Contrast for Unsupervised Visual Representation Learning

1、目的         无监督表示学习在自然图像领域已经很成功,因为语言任务有离散的信号空间(words, sub-word units等),便于构建tokenized字典         现有的无监督视觉表示学习方法可以看作是构建动态字典,字典的“keys”则是从数据(images or patches)中采样得到的,并用编码网络来代表         构建的字典需要满足large和co

UNSUPERVISED CROSS-DOMAIN IMAGE GENERATION

本文提出了一个域转换网络(domain transfer network,DTN),网络的作用是,对于给定两个域S,T,我们希望学习一个生成函数G,将S域的样本映射到域T,这样,对于一个给定函数f,不管f的输入为来自域S或T,f的输出会保持不变. 网络结构如下: 生成网络包括函数f,g.f用于提取输入图像的特征,得到一个特征向量.g的输入为f的输出,输出为目标风格的图像.训练数据为为无监督

Unsupervised Domain Adaptation by Backpropagation 阅读笔记

链接:Unsupervised Domain Adaptation by Backpropagation笔记

PHP“well”运动健身APP-计算机毕业设计源码87702

【摘要】 随着互联网的趋势的到来,各行各业都在考虑利用互联网将自己的信息推广出去,最好方式就是建立自己的平台信息,并对其进行管理,随着现在智能手机的普及,人们对于智能手机里面的应用“well”运动健身app也在不断的使用,本文首先分析了“well”运动健身app应用程序的需求,从系统开发环境、系统目标、设计流程、功能设计等几个方面对系统进行了系统设计。开发出本“well”运动健身app,主要实现

3D 论文阅读 PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding简记

PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding 摘要PointContrast Pre-training实验结果 摘要 简单记一下Charles R. Qi的新作 PointContrast: Unsupervised Pre-training for 3D Point Clou

【Unity游戏制作】地精寻宝Gnome‘s Well That Ends Well卷轴动作游戏【一】场景搭建

👨‍💻个人主页:@元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 专栏交流🧧🟥Unity100个实战基础✨🎁🟦 Unity100个精华一记✨🎁🟩 Unity50个demo案例教程✨🎁🟨 Unity100个精华细节BUG✨🎁 文章目录 ⭐前言⭐🎶(==1==) 开