什么是Data-dismatch problem?如何甄别及处理?

2024-01-14 02:59

本文主要是介绍什么是Data-dismatch problem?如何甄别及处理?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本篇文章为本人基于Andrew Ng的深度学习课程进行的总结,加上一些个人的感悟和认识。有误之处,还望海涵。

目录

        • 1 数据集划分的常规方法及常见问题
        • 2 开发新系统时可能遇到的数据困难
        • 3 什么是 data-dismatch problem?
        • 4 通过train-dev set 甄别数据不匹配错误
        • 5 如何改善数据不匹配问题?
        • 6 小结



1 数据集划分的常规方法及常见问题

数据集划分:
在进行机器学习系统开发时我们最常使用的数据集划分方式即为:
“训练集(train_set),开发集(dev_set/cross_validation_set),测试集(test_set)”。三者在模型训练中的功能各不相同,在这里不详细叙述,感兴趣的同学可以自行检索。

常见问题:

  • high bias 问题:high bias 问题主要指训练集误差与“人类水平”(或bayes optimal error)之间存在较大差距的状况。遇此类问题说明目前的机器学习系统仍然有很大的进步空间,可通过设计更复杂的模型,调节参数等进行改善。
  • high variance 问题:high variance 问题指训练集误差与开发集误差之间存在较大的差距。与此类问题可以说明可能存在过拟合现象,可以尝试通过正则化或增加数据集等方式来解决

2 开发新系统时可能遇到的数据困难

假设现在需要开发一个“车载导航语音助手”(接收用户的语音输入,输出规划路径),输入为用户语料信息。开发这样一个语言处理系统需要大量的语料数据进行支撑,但事实上我们可能很难收集到大量“车载导航”背景下的语料信息,这时如何解决?
一种可能的解决方式是:结合其他背景下的语料信息进行训练。假设目前我们手头有“家庭生活语料信息”,那么我们可以结合这些语料信息,加上目前收集到的“车载导航”背景语料信息共同进行模型训练。
面对这种情况,常规的数据集划分方式有两种:

  • 混合所有语料信息(shuffle),并按照常规Train-Dev-Test方式进行划分。
    这种方式显然是不合理的。在进行机器学习系统开发时,最关键的环节之一是明确目标(target),如果训练目标都不准确,那么即使进行了大量的训练也不会取得良好的实用效果。
    为什么说这种划分方式可能出现目标偏差呢?
    在“车载导航”系统的背景下其实这是显而易见的,如果我们混合了其他语料背景下的信息作为 dev 以及 test set 的数据,那么我们就存在偏离目标的可能。(因为通常评估一个模型的优劣是基于模型在 dev 以及 test 数据集上的表现来判断的)
  • 将“车载导航”语料背景下的数据划分为两部分,一部分作为 dev 以及 test 数据集,另一部分加入 train 数据集中。
    这样解决了前面提到的目标偏差的问题,但是很显然这样同样是存在问题的,见下小节

3 什么是 data-dismatch problem?

在上一小节中我们提出了两种数据集划分方式,针对第一种数据集划分方式我们提出了其问题,那么对于第二种数据集划分方式又存在什么问题呢?
事实上,如果仅仅只是加入了少量其他背景下的语料信息那么第二种数据集划分方式是合理的,但是假设以下状况:其他背景下的语料信息共有500,000条,而“车载导航”背景下的语料信息仅有10,000条。在这种偏差巨大的情况下,由于数据集偏差引发的问题就凸显出来了:我们可能在 train set 上表现良好,但是当迁移到 dev 或者 test 数据集上时则表现急剧下降。这就是我们所说的data-dismatch problem.


4 通过train-dev set 甄别数据不匹配错误

解决问题的前提是能够准确的发现问题,只有证明问题的存在我们才能够对症下药,不浪费宝贵的开发时间。

  • 通过 train-dev set 甄别数据不匹配错误

首先什么是train-dev set?简单而言就是将原来的 train set 作进一步的划分,分解为 train set 与 train-dev set 两部分。
数据集划分
那么 train-dev set 是如何甄别数据不匹配错误的呢?这里引用一张Anderw Ng授课PPT:
Andrew Ng
模型的训练仍然仅在 train set 上进行,而 train-dev set 则充当了常规模型训练时的 dev set 的作用,用来衡量 variance 的大小。而 train-dev set 与 dev set 的对比则成为了甄别数据不匹配问题的关键。如果两者差距较大则说明数据偏差较大需要进一步改善,否则说明该问题并不关键。


5 如何改善数据不匹配问题?

完成了问题的甄别如何改善呢?事实上,截止目前为止仍然没有较为系统的解决办法,以下为可供参考的解决方案:

  • 人工差别分析:当我们甄别到存在数据不匹配问题时则说明 train set 与 dev/test set 之间存在较大的差别。基于以上观点,我们可以观察这些数据差别究竟在哪里并为后面的工作指明方向。
  • 制造数据:基于差别分析我们可以认识到数据差异在何处。还是以之前的“车载导航”系统为例,假设经过分析我们认识当其他语料背景下的信息与车载语料背景下信息的最大差异在于车载语料背景存在很多的噪音。在这种情况下,我们可以通过信息合成的手段(synthesis)制造符合分布期望的数据集。需要注意的是,如果我们的制造方式不合理可能出现其他问题,如对特定的噪声特别敏感等等

6 小结

以上即为本篇文章的全部内容,感谢大家阅读。
求赞求收藏!!

转载请注明出处,感谢!

这篇关于什么是Data-dismatch problem?如何甄别及处理?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/603715

相关文章

Go语言使用Buffer实现高性能处理字节和字符

《Go语言使用Buffer实现高性能处理字节和字符》在Go中,bytes.Buffer是一个非常高效的类型,用于处理字节数据的读写操作,本文将详细介绍一下如何使用Buffer实现高性能处理字节和... 目录1. bytes.Buffer 的基本用法1.1. 创建和初始化 Buffer1.2. 使用 Writ

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

Python结合requests和Cheerio处理网页内容的操作步骤

《Python结合requests和Cheerio处理网页内容的操作步骤》Python因其简洁明了的语法和强大的库支持,成为了编写爬虫程序的首选语言之一,requests库是Python中用于发送HT... 目录一、前言二、环境搭建三、requests库的基本使用四、Cheerio库的基本使用五、结合req

使用Python处理CSV和Excel文件的操作方法

《使用Python处理CSV和Excel文件的操作方法》在数据分析、自动化和日常开发中,CSV和Excel文件是非常常见的数据存储格式,ython提供了强大的工具来读取、编辑和保存这两种文件,满足从基... 目录1. CSV 文件概述和处理方法1.1 CSV 文件格式的基本介绍1.2 使用 python 内

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

SpringBoot操作spark处理hdfs文件的操作方法

《SpringBoot操作spark处理hdfs文件的操作方法》本文介绍了如何使用SpringBoot操作Spark处理HDFS文件,包括导入依赖、配置Spark信息、编写Controller和Ser... 目录SpringBoot操作spark处理hdfs文件1、导入依赖2、配置spark信息3、cont

MyBatis延迟加载的处理方案

《MyBatis延迟加载的处理方案》MyBatis支持延迟加载(LazyLoading),允许在需要数据时才从数据库加载,而不是在查询结果第一次返回时就立即加载所有数据,延迟加载的核心思想是,将关联对... 目录MyBATis如何处理延迟加载?延迟加载的原理1. 开启延迟加载2. 延迟加载的配置2.1 使用

Android WebView的加载超时处理方案

《AndroidWebView的加载超时处理方案》在Android开发中,WebView是一个常用的组件,用于在应用中嵌入网页,然而,当网络状况不佳或页面加载过慢时,用户可能会遇到加载超时的问题,本... 目录引言一、WebView加载超时的原因二、加载超时处理方案1. 使用Handler和Timer进行超

Python中处理NaN值的技巧分享

《Python中处理NaN值的技巧分享》在数据科学和数据分析领域,NaN(NotaNumber)是一个常见的概念,它表示一个缺失或未定义的数值,在Python中,尤其是在使用pandas库处理数据时,... 目录NaN 值的来源和影响使用 pandas 的 isna()和 isnull()函数直接比较 Na

详解Python中通用工具类与异常处理

《详解Python中通用工具类与异常处理》在Python开发中,编写可重用的工具类和通用的异常处理机制是提高代码质量和开发效率的关键,本文将介绍如何将特定的异常类改写为更通用的ValidationEx... 目录1. 通用异常类:ValidationException2. 通用工具类:Utils3. 示例文