浅谈K-Fold Target Encoding

2023-10-28 11:50
文章标签 浅谈 target encoding fold

本文主要是介绍浅谈K-Fold Target Encoding,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

浅谈K-Fold Target Encoding

公众号: ChallengeHub
在这里插入图片描述

1.Target Encoding概念
单热编码,标签编码,频率编码,目标编码等是非常常见的技巧,通常在特征工程中使用以提高模型在数据集预测的准确性。

不同的特征工程技巧可以从不同角度来丰富特征。当数据中,某些分类变量的不数量不是很多时,独热编码(One Hot encoder)或伪编码(Dummy Encoder)是一种不错的方法。但是,当要数据中分类变量的数量增加时,它可能会失效,因为这种编码方式导致数据集的维度急剧增加。此外,类别编码(Label Encoder)也具有局限性,因为可能导致特征的顺序变得随机,并且,标签编码和目标之间没有相关性。

目标编码是特征工程中最强大的方法之一,在比赛中屡试不爽,已被广泛应用并出现了多种目标编码方式。在本文中,我们将讨论和实现样本数据集的k折目标编码。基本上,k倍目标编码的目标可以是通过向均值编码添加正则化来减少均值目标编码中的过拟合。

训练集和测试数据集如图1所示。为简单起见,我们考虑仅含有两个类别变量A和B的“Feature”列,“Target”列是二进制变量:0或1。测试数据集也包含“Feature”列;但是,它没有“Target”列。注意,如果目标是一个连续变量,此方法也可以同样适用。

图1 训练集合测试集
图1 训练集合测试集

k-flod 目标编码的基本思想源自均值目标编码。在均值目标编码中,分类变量由对应于它们的目标均值替换。从图2中可以看出,“Feature”时目标的平均值为:A = 0.6和B = 0.3。因此,A和B将分别替换为0.6和0.3。此时新“Feature”可能与目标更相关。但是,当训练集特征和测试数据集中分类变量的分布有很大差异时,此方法可能会出现严重过拟合的糟糕情况😰。
在这里插入图片描述
目标编码/均值编码

因此,可以应用K-Flod目标编码来减少过拟合。在这种方法中,我们将数据集分为k折,这里我们采用5折。图3显示了5折交叉验证的第一轮。我们计算第2、3、4和5折的均值目标,并使用计算出的值mean_A = 0.556和mean_B = 0.285来估计第1折的均值编码。
在这里插入图片描述

5-flod目标编码, 我们使用2、3、4、5折来估算第一折

之后,我们可以计算出第二折,如图4所示。
在这里插入图片描述

现在接下来的部分是在测试数据集中创建“ Feature_Kfold_Target_Enc”列。该列值可以通过获取训练集中的分类变量“ A”和“ B”的“ Feature_Kfold_mean_Enc”的平均值来获得。
图片图片

尽管k折目标编码是一种可靠的特征工程方法,但不能保证它始终是提高准确性的最佳方法。因此我们需要尝试各种特征工程,以便测试哪个特征能给我们带来更好的性能。

代码
让我们编写k-flod目标编码的代码。KFoldTargetEncoderTrain类参数包括特征列名,目标列名,折的数量。它返回一个包含“ Feature_Kfold_mean_Enc”列的dataframe。注意,如果某折不包括某个类别变量值,例如,“ B”类别变量,则会导致NAN,我们用目标的整体均值填充NAN。

class KFoldTargetEncoderTrain(base.BaseEstimator,base.TransformerMixin):def __init__(self,colnames,targetName,n_fold=5, verbosity=True,discardOriginal_col=False):self.colnames = colnamesself.targetName = targetNameself.n_fold = n_foldself.verbosity = verbosityself.discardOriginal_col = discardOriginal_coldef fit(self, X, y=None):return selfdef transform(self,X):assert(type(self.targetName) == str)assert(type(self.colnames) == str)assert(self.colnames in X.columns)assert(self.targetName in X.columns)mean_of_target = X[self.targetName].mean()kf = KFold(n_splits = self.n_fold,shuffle = False, random_state=2019)col_mean_name = self.colnames + '_' + 'Kfold_Target_Enc'X[col_mean_name] = np.nanfor tr_ind, val_ind in kf.split(X):X_tr, X_val = X.iloc[tr_ind], X.iloc[val_ind]X.loc[X.index[val_ind], col_mean_name] =    X_val[self.colnames].map(X_tr.groupby(self.colnames)[self.targetName].mean())X[col_mean_name].fillna(mean_of_target, inplace = True)if self.verbosity:encoded_feature = X[col_mean_name].valuesprint('Correlation between the new feature, {} and, {} is {}.'.format(col_mean_name,self.targetName,                    np.corrcoef(X[self.targetName].values,encoded_feature)[0][1]))if self.discardOriginal_col:X = X.drop(self.targetName, axis=1)return X

使用代码如下:

targetc = KFoldTargetEncoderTrain('Feature','Target',n_fold=5)
new_train = targetc.fit_transform(train)

测试集如下

class KFoldTargetEncoderTest(base.BaseEstimator, base.TransformerMixin):def __init__(self,train,colNames,encodedName):self.train = trainself.colNames = colNamesself.encodedName = encodedNamedef fit(self, X, y=None):return selfdef transform(self,X):mean =  self.train[[self.colNames,self.encodedName]].groupby(self.colNames).mean().reset_index() dd = {}for index, row in mean.iterrows():dd[row[self.colNames]] = row[self.encodedName]X[self.encodedName] = X[self.colNames]X = X.replace({self.encodedName: dd})return X

使用如下:

test_targetc = KFoldTargetEncoderTest(new_train,'Feature','Feature_Kfold_Target_Enc')
new_test = test_targetc.fit_transform(test)

完整代码:https://github.com/pourya-ir/Medium/tree/master/K-fold-target-enc

原文英文链接:https://medium.com/@pouryaayria/k-fold-target-encoding-dfe9a594874b

欢迎扫码关注ChallengeHub公众号
在这里插入图片描述
欢迎加入ChallengeHub学习交流群
在这里插入图片描述

这篇关于浅谈K-Fold Target Encoding的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/293021

相关文章

Spring核心思想之浅谈IoC容器与依赖倒置(DI)

《Spring核心思想之浅谈IoC容器与依赖倒置(DI)》文章介绍了Spring的IoC和DI机制,以及MyBatis的动态代理,通过注解和反射,Spring能够自动管理对象的创建和依赖注入,而MyB... 目录一、控制反转 IoC二、依赖倒置 DI1. 详细概念2. Spring 中 DI 的实现原理三、

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

浅谈PHP5中垃圾回收算法(Garbage Collection)的演化

前言 PHP是一门托管型语言,在PHP编程中程序员不需要手工处理内存资源的分配与释放(使用C编写PHP或Zend扩展除外),这就意味着PHP本身实现了垃圾回收机制(Garbage Collection)。现在如果去PHP官方网站(php.net)可以看到,目前PHP5的两个分支版本PHP5.2和PHP5.3是分别更新的,这是因为许多项目仍然使用5.2版本的PHP,而5.3版本对5.2并不是完

浅谈java向上转型和乡下转型

首先学习每一种知识都需要弄明白这知识是用来干什么使用的 简单理解:当对象被创建时,它可以被传递给这些方法中的任何一个,这意味着它依次被向上转型为每一个接口,由于java中这个设计接口的模式,使得这项工作不需要程序员付出任何特别的努力。 向上转型的作用:1、为了能够向上转型为多个基类型(由此而带来的灵活性) 2、使用接口的第二个原因却是与使用抽象基类相同,防止客户端创建该类的对象,并确保这仅仅

【前端安全】浅谈XSS攻击和防范

定义 XSS是跨站脚本攻击(Cross Site Scripting),为不和层叠样式表(Cascading Style Sheets, CSS)的缩写混淆,故将跨站脚本攻击缩写为XSS。 恶意攻击者往Web页面里插入恶意Script代码,当用户浏览该页之时,嵌入其中Web里面的Script代码会被执行,从而达到恶意攻击用户的目的。 分类 大分类小分类原理非存储DOM型① 不需要经过服务器

访问controller404:The origin server did not find a current representation for the target resource

ider build->rebuild project。Rebuild:对选定的目标(Project),进行强制性编译,不管目标是否是被修改过。由于 Rebuild 的目标只有 Project,所以 Rebuild 每次花的时间会比较长。 参考:资料

水处理过滤器运行特性及选择原则浅谈

过滤属于流体的净化过程中不可缺的处理环节,主要用于去除流体中的颗粒物或其他悬浮物。水处理过滤器的原理是利用有孔介质,从流体中去除污染物,使流体达到所需的洁净度水平。         水处理过滤器的滤壁是有一定厚度的,也就是说过滤器材具有深度,以“弯曲通 道”的形式对去除污染物起到了辅助作用。过滤器是除去液体中少量固体颗粒的设备,当流体进入置有一定规格滤网的滤筒后,其杂质被阻挡,而

浅谈NODE的NPM命令和合约测试开发工具HARDHAT

$ npm install yarn -g  # 将模块yarn全局安装 $ npm install moduleName # 安装模块到项目目录下 默认跟加参数 --save 一样 会在package文件的dependencies节点写入依赖。   $ npm install -g moduleName # -g 的意思是将模块安装到全局,具体安装到磁盘哪个位置,要看 npm root -g

浅谈SOC片上系统LoRa-STM32WLE5数据安全防御机制

随着物联网设备的普及,数以亿计的设备正在通过无线网络进行通信,传输大量的敏感数据。这种大规模的设备联网带来了便捷性,但也伴随着巨大的安全风险。SoC片上系统通过将无线通信、处理器、存储和安全机制集成在同一个芯片中,为物联网应用提供了高度集成的解决方案。这种设计大大简化了硬件开发流程,同时提高了设备的整体性能和安全性。SoC不仅能够满足长距离、低功耗的无线通信需求,还能通过先进的加密技术,确保数据在

浅谈RabbitMQ的基石—高级消息队列协议(AMQP)

点击上方蓝色字体,选择“设为星标” 回复”资源“获取更多资源 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 大数据真好玩 点击右侧关注,大数据真好玩!     前言 自从去年做了不少流式系统(Flink也好,Spark Streaming也好)对接RabbitMQ的实时作业。之前一直都在Kafka的领域里摸爬滚打,对RabbitMQ只是有浅薄的了解而已。随着自己逐渐把R