本文主要是介绍机器学习和数据挖掘(4):噪声与误差,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
噪声与误差
噪音(Noise)
实际应用中的数据基本都是有干扰的,还是用信用卡发放问题举例子:
噪声产生原因:
- 标记错误:应该发卡的客户标记成不发卡,或者两个数据相同的客户一个发卡一个不发卡;
- 输入错误:用户的数据本身就有错误,例如年收入少写一个0、性别写反了什么的。
目标分布(Target Distribution)
上述两个原因导致数据信息不精准,产生噪声数据。那机器学习算法应该如何处理噪声的数据呢?
以那个从罐子里拿球的实验为例:
之前我们规定凡是 h(x)≠f(x) 的数据(小球),就把他漆成橘色,否则绿色。橘色小球在所有小球中占据的比重就是错误率。
但是现在有干扰了,一条数据可能有
这篇关于机器学习和数据挖掘(4):噪声与误差的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!