什么是Data-dismatch problem?如何甄别及处理?

2024-01-14 02:59

本文主要是介绍什么是Data-dismatch problem?如何甄别及处理?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本篇文章为本人基于Andrew Ng的深度学习课程进行的总结,加上一些个人的感悟和认识。有误之处,还望海涵。

目录

        • 1 数据集划分的常规方法及常见问题
        • 2 开发新系统时可能遇到的数据困难
        • 3 什么是 data-dismatch problem?
        • 4 通过train-dev set 甄别数据不匹配错误
        • 5 如何改善数据不匹配问题?
        • 6 小结



1 数据集划分的常规方法及常见问题

数据集划分:
在进行机器学习系统开发时我们最常使用的数据集划分方式即为:
“训练集(train_set),开发集(dev_set/cross_validation_set),测试集(test_set)”。三者在模型训练中的功能各不相同,在这里不详细叙述,感兴趣的同学可以自行检索。

常见问题:

  • high bias 问题:high bias 问题主要指训练集误差与“人类水平”(或bayes optimal error)之间存在较大差距的状况。遇此类问题说明目前的机器学习系统仍然有很大的进步空间,可通过设计更复杂的模型,调节参数等进行改善。
  • high variance 问题:high variance 问题指训练集误差与开发集误差之间存在较大的差距。与此类问题可以说明可能存在过拟合现象,可以尝试通过正则化或增加数据集等方式来解决

2 开发新系统时可能遇到的数据困难

假设现在需要开发一个“车载导航语音助手”(接收用户的语音输入,输出规划路径),输入为用户语料信息。开发这样一个语言处理系统需要大量的语料数据进行支撑,但事实上我们可能很难收集到大量“车载导航”背景下的语料信息,这时如何解决?
一种可能的解决方式是:结合其他背景下的语料信息进行训练。假设目前我们手头有“家庭生活语料信息”,那么我们可以结合这些语料信息,加上目前收集到的“车载导航”背景语料信息共同进行模型训练。
面对这种情况,常规的数据集划分方式有两种:

  • 混合所有语料信息(shuffle),并按照常规Train-Dev-Test方式进行划分。
    这种方式显然是不合理的。在进行机器学习系统开发时,最关键的环节之一是明确目标(target),如果训练目标都不准确,那么即使进行了大量的训练也不会取得良好的实用效果。
    为什么说这种划分方式可能出现目标偏差呢?
    在“车载导航”系统的背景下其实这是显而易见的,如果我们混合了其他语料背景下的信息作为 dev 以及 test set 的数据,那么我们就存在偏离目标的可能。(因为通常评估一个模型的优劣是基于模型在 dev 以及 test 数据集上的表现来判断的)
  • 将“车载导航”语料背景下的数据划分为两部分,一部分作为 dev 以及 test 数据集,另一部分加入 train 数据集中。
    这样解决了前面提到的目标偏差的问题,但是很显然这样同样是存在问题的,见下小节

3 什么是 data-dismatch problem?

在上一小节中我们提出了两种数据集划分方式,针对第一种数据集划分方式我们提出了其问题,那么对于第二种数据集划分方式又存在什么问题呢?
事实上,如果仅仅只是加入了少量其他背景下的语料信息那么第二种数据集划分方式是合理的,但是假设以下状况:其他背景下的语料信息共有500,000条,而“车载导航”背景下的语料信息仅有10,000条。在这种偏差巨大的情况下,由于数据集偏差引发的问题就凸显出来了:我们可能在 train set 上表现良好,但是当迁移到 dev 或者 test 数据集上时则表现急剧下降。这就是我们所说的data-dismatch problem.


4 通过train-dev set 甄别数据不匹配错误

解决问题的前提是能够准确的发现问题,只有证明问题的存在我们才能够对症下药,不浪费宝贵的开发时间。

  • 通过 train-dev set 甄别数据不匹配错误

首先什么是train-dev set?简单而言就是将原来的 train set 作进一步的划分,分解为 train set 与 train-dev set 两部分。
数据集划分
那么 train-dev set 是如何甄别数据不匹配错误的呢?这里引用一张Anderw Ng授课PPT:
Andrew Ng
模型的训练仍然仅在 train set 上进行,而 train-dev set 则充当了常规模型训练时的 dev set 的作用,用来衡量 variance 的大小。而 train-dev set 与 dev set 的对比则成为了甄别数据不匹配问题的关键。如果两者差距较大则说明数据偏差较大需要进一步改善,否则说明该问题并不关键。


5 如何改善数据不匹配问题?

完成了问题的甄别如何改善呢?事实上,截止目前为止仍然没有较为系统的解决办法,以下为可供参考的解决方案:

  • 人工差别分析:当我们甄别到存在数据不匹配问题时则说明 train set 与 dev/test set 之间存在较大的差别。基于以上观点,我们可以观察这些数据差别究竟在哪里并为后面的工作指明方向。
  • 制造数据:基于差别分析我们可以认识到数据差异在何处。还是以之前的“车载导航”系统为例,假设经过分析我们认识当其他语料背景下的信息与车载语料背景下信息的最大差异在于车载语料背景存在很多的噪音。在这种情况下,我们可以通过信息合成的手段(synthesis)制造符合分布期望的数据集。需要注意的是,如果我们的制造方式不合理可能出现其他问题,如对特定的噪声特别敏感等等

6 小结

以上即为本篇文章的全部内容,感谢大家阅读。
求赞求收藏!!

转载请注明出处,感谢!

这篇关于什么是Data-dismatch problem?如何甄别及处理?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/603715

相关文章

Python实现批量CSV转Excel的高性能处理方案

《Python实现批量CSV转Excel的高性能处理方案》在日常办公中,我们经常需要将CSV格式的数据转换为Excel文件,本文将介绍一个基于Python的高性能解决方案,感兴趣的小伙伴可以跟随小编一... 目录一、场景需求二、技术方案三、核心代码四、批量处理方案五、性能优化六、使用示例完整代码七、小结一、

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》:本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法(1)多个e

PHP应用中处理限流和API节流的最佳实践

《PHP应用中处理限流和API节流的最佳实践》限流和API节流对于确保Web应用程序的可靠性、安全性和可扩展性至关重要,本文将详细介绍PHP应用中处理限流和API节流的最佳实践,下面就来和小编一起学习... 目录限流的重要性在 php 中实施限流的最佳实践使用集中式存储进行状态管理(如 Redis)采用滑动

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

Python自动化处理PDF文档的操作完整指南

《Python自动化处理PDF文档的操作完整指南》在办公自动化中,PDF文档处理是一项常见需求,本文将介绍如何使用Python实现PDF文档的自动化处理,感兴趣的小伙伴可以跟随小编一起学习一下... 目录使用pymupdf读写PDF文件基本概念安装pymupdf提取文本内容提取图像添加水印使用pdfplum

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

基于Redis自动过期的流处理暂停机制

《基于Redis自动过期的流处理暂停机制》基于Redis自动过期的流处理暂停机制是一种高效、可靠且易于实现的解决方案,防止延时过大的数据影响实时处理自动恢复处理,以避免积压的数据影响实时性,下面就来详... 目录核心思路代码实现1. 初始化Redis连接和键前缀2. 接收数据时检查暂停状态3. 检测到延时过

Java利用@SneakyThrows注解提升异常处理效率详解

《Java利用@SneakyThrows注解提升异常处理效率详解》这篇文章将深度剖析@SneakyThrows的原理,用法,适用场景以及隐藏的陷阱,看看它如何让Java异常处理效率飙升50%,感兴趣的... 目录前言一、检查型异常的“诅咒”:为什么Java开发者讨厌它1.1 检查型异常的痛点1.2 为什么说

Python利用PySpark和Kafka实现流处理引擎构建指南

《Python利用PySpark和Kafka实现流处理引擎构建指南》本文将深入解剖基于Python的实时处理黄金组合:Kafka(分布式消息队列)与PySpark(分布式计算引擎)的化学反应,并构建一... 目录引言:数据洪流时代的生存法则第一章 Kafka:数据世界的中央神经系统消息引擎核心设计哲学高吞吐

Go语言使用Gin处理路由参数和查询参数

《Go语言使用Gin处理路由参数和查询参数》在WebAPI开发中,处理路由参数(PathParameter)和查询参数(QueryParameter)是非常常见的需求,下面我们就来看看Go语言... 目录一、路由参数 vs 查询参数二、Gin 获取路由参数和查询参数三、示例代码四、运行与测试1. 测试编程路