什么是Data-dismatch problem?如何甄别及处理?

2024-01-14 02:59

本文主要是介绍什么是Data-dismatch problem?如何甄别及处理?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本篇文章为本人基于Andrew Ng的深度学习课程进行的总结,加上一些个人的感悟和认识。有误之处,还望海涵。

目录

        • 1 数据集划分的常规方法及常见问题
        • 2 开发新系统时可能遇到的数据困难
        • 3 什么是 data-dismatch problem?
        • 4 通过train-dev set 甄别数据不匹配错误
        • 5 如何改善数据不匹配问题?
        • 6 小结



1 数据集划分的常规方法及常见问题

数据集划分:
在进行机器学习系统开发时我们最常使用的数据集划分方式即为:
“训练集(train_set),开发集(dev_set/cross_validation_set),测试集(test_set)”。三者在模型训练中的功能各不相同,在这里不详细叙述,感兴趣的同学可以自行检索。

常见问题:

  • high bias 问题:high bias 问题主要指训练集误差与“人类水平”(或bayes optimal error)之间存在较大差距的状况。遇此类问题说明目前的机器学习系统仍然有很大的进步空间,可通过设计更复杂的模型,调节参数等进行改善。
  • high variance 问题:high variance 问题指训练集误差与开发集误差之间存在较大的差距。与此类问题可以说明可能存在过拟合现象,可以尝试通过正则化或增加数据集等方式来解决

2 开发新系统时可能遇到的数据困难

假设现在需要开发一个“车载导航语音助手”(接收用户的语音输入,输出规划路径),输入为用户语料信息。开发这样一个语言处理系统需要大量的语料数据进行支撑,但事实上我们可能很难收集到大量“车载导航”背景下的语料信息,这时如何解决?
一种可能的解决方式是:结合其他背景下的语料信息进行训练。假设目前我们手头有“家庭生活语料信息”,那么我们可以结合这些语料信息,加上目前收集到的“车载导航”背景语料信息共同进行模型训练。
面对这种情况,常规的数据集划分方式有两种:

  • 混合所有语料信息(shuffle),并按照常规Train-Dev-Test方式进行划分。
    这种方式显然是不合理的。在进行机器学习系统开发时,最关键的环节之一是明确目标(target),如果训练目标都不准确,那么即使进行了大量的训练也不会取得良好的实用效果。
    为什么说这种划分方式可能出现目标偏差呢?
    在“车载导航”系统的背景下其实这是显而易见的,如果我们混合了其他语料背景下的信息作为 dev 以及 test set 的数据,那么我们就存在偏离目标的可能。(因为通常评估一个模型的优劣是基于模型在 dev 以及 test 数据集上的表现来判断的)
  • 将“车载导航”语料背景下的数据划分为两部分,一部分作为 dev 以及 test 数据集,另一部分加入 train 数据集中。
    这样解决了前面提到的目标偏差的问题,但是很显然这样同样是存在问题的,见下小节

3 什么是 data-dismatch problem?

在上一小节中我们提出了两种数据集划分方式,针对第一种数据集划分方式我们提出了其问题,那么对于第二种数据集划分方式又存在什么问题呢?
事实上,如果仅仅只是加入了少量其他背景下的语料信息那么第二种数据集划分方式是合理的,但是假设以下状况:其他背景下的语料信息共有500,000条,而“车载导航”背景下的语料信息仅有10,000条。在这种偏差巨大的情况下,由于数据集偏差引发的问题就凸显出来了:我们可能在 train set 上表现良好,但是当迁移到 dev 或者 test 数据集上时则表现急剧下降。这就是我们所说的data-dismatch problem.


4 通过train-dev set 甄别数据不匹配错误

解决问题的前提是能够准确的发现问题,只有证明问题的存在我们才能够对症下药,不浪费宝贵的开发时间。

  • 通过 train-dev set 甄别数据不匹配错误

首先什么是train-dev set?简单而言就是将原来的 train set 作进一步的划分,分解为 train set 与 train-dev set 两部分。
数据集划分
那么 train-dev set 是如何甄别数据不匹配错误的呢?这里引用一张Anderw Ng授课PPT:
Andrew Ng
模型的训练仍然仅在 train set 上进行,而 train-dev set 则充当了常规模型训练时的 dev set 的作用,用来衡量 variance 的大小。而 train-dev set 与 dev set 的对比则成为了甄别数据不匹配问题的关键。如果两者差距较大则说明数据偏差较大需要进一步改善,否则说明该问题并不关键。


5 如何改善数据不匹配问题?

完成了问题的甄别如何改善呢?事实上,截止目前为止仍然没有较为系统的解决办法,以下为可供参考的解决方案:

  • 人工差别分析:当我们甄别到存在数据不匹配问题时则说明 train set 与 dev/test set 之间存在较大的差别。基于以上观点,我们可以观察这些数据差别究竟在哪里并为后面的工作指明方向。
  • 制造数据:基于差别分析我们可以认识到数据差异在何处。还是以之前的“车载导航”系统为例,假设经过分析我们认识当其他语料背景下的信息与车载语料背景下信息的最大差异在于车载语料背景存在很多的噪音。在这种情况下,我们可以通过信息合成的手段(synthesis)制造符合分布期望的数据集。需要注意的是,如果我们的制造方式不合理可能出现其他问题,如对特定的噪声特别敏感等等

6 小结

以上即为本篇文章的全部内容,感谢大家阅读。
求赞求收藏!!

转载请注明出处,感谢!

这篇关于什么是Data-dismatch problem?如何甄别及处理?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/603715

相关文章

使用C++将处理后的信号保存为PNG和TIFF格式

《使用C++将处理后的信号保存为PNG和TIFF格式》在信号处理领域,我们常常需要将处理结果以图像的形式保存下来,方便后续分析和展示,C++提供了多种库来处理图像数据,本文将介绍如何使用stb_ima... 目录1. PNG格式保存使用stb_imagephp_write库1.1 安装和包含库1.2 代码解

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

Spring Boot 整合 ShedLock 处理定时任务重复执行的问题小结

《SpringBoot整合ShedLock处理定时任务重复执行的问题小结》ShedLock是解决分布式系统中定时任务重复执行问题的Java库,通过在数据库中加锁,确保只有一个节点在指定时间执行... 目录前言什么是 ShedLock?ShedLock 的工作原理:定时任务重复执行China编程的问题使用 Shed

Redis如何使用zset处理排行榜和计数问题

《Redis如何使用zset处理排行榜和计数问题》Redis的ZSET数据结构非常适合处理排行榜和计数问题,它可以在高并发的点赞业务中高效地管理点赞的排名,并且由于ZSET的排序特性,可以轻松实现根据... 目录Redis使用zset处理排行榜和计数业务逻辑ZSET 数据结构优化高并发的点赞操作ZSET 结

微服务架构之使用RabbitMQ进行异步处理方式

《微服务架构之使用RabbitMQ进行异步处理方式》本文介绍了RabbitMQ的基本概念、异步调用处理逻辑、RabbitMQ的基本使用方法以及在SpringBoot项目中使用RabbitMQ解决高并发... 目录一.什么是RabbitMQ?二.异步调用处理逻辑:三.RabbitMQ的基本使用1.安装2.架构

一文详解Python中数据清洗与处理的常用方法

《一文详解Python中数据清洗与处理的常用方法》在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战,本文总结了多种数据清洗与处理方法,文中的示例代码简洁易懂,有需要的小伙伴可以参考下... 目录缺失值处理重复值处理异常值处理数据类型转换文本清洗数据分组统计数据分箱数据标准化在数据处理与分析过

mysql外键创建不成功/失效如何处理

《mysql外键创建不成功/失效如何处理》文章介绍了在MySQL5.5.40版本中,创建带有外键约束的`stu`和`grade`表时遇到的问题,发现`grade`表的`id`字段没有随着`studen... 当前mysql版本:SELECT VERSION();结果为:5.5.40。在复习mysql外键约

Go语言使用Buffer实现高性能处理字节和字符

《Go语言使用Buffer实现高性能处理字节和字符》在Go中,bytes.Buffer是一个非常高效的类型,用于处理字节数据的读写操作,本文将详细介绍一下如何使用Buffer实现高性能处理字节和... 目录1. bytes.Buffer 的基本用法1.1. 创建和初始化 Buffer1.2. 使用 Writ

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

Python结合requests和Cheerio处理网页内容的操作步骤

《Python结合requests和Cheerio处理网页内容的操作步骤》Python因其简洁明了的语法和强大的库支持,成为了编写爬虫程序的首选语言之一,requests库是Python中用于发送HT... 目录一、前言二、环境搭建三、requests库的基本使用四、Cheerio库的基本使用五、结合req