本文主要是介绍浅谈K-Fold Target Encoding,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
浅谈K-Fold Target Encoding
公众号: ChallengeHub
1.Target Encoding概念
单热编码,标签编码,频率编码,目标编码等是非常常见的技巧,通常在特征工程中使用以提高模型在数据集预测的准确性。
不同的特征工程技巧可以从不同角度来丰富特征。当数据中,某些分类变量的不数量不是很多时,独热编码(One Hot encoder)或伪编码(Dummy Encoder)是一种不错的方法。但是,当要数据中分类变量的数量增加时,它可能会失效,因为这种编码方式导致数据集的维度急剧增加。此外,类别编码(Label Encoder)也具有局限性,因为可能导致特征的顺序变得随机,并且,标签编码和目标之间没有相关性。
目标编码是特征工程中最强大的方法之一,在比赛中屡试不爽,已被广泛应用并出现了多种目标编码方式。在本文中,我们将讨论和实现样本数据集的k折目标编码。基本上,k倍目标编码的目标可以是通过向均值编码添加正则化来减少均值目标编码中的过拟合。
训练集和测试数据集如图1所示。为简单起见,我们考虑仅含有两个类别变量A和B的“Feature”列,“Target”列是二进制变量:0或1。测试数据集也包含“Feature”列;但是,它没有“Target”列。注意,如果目标是一个连续变量,此方法也可以同样适用。
图1 训练集合测试集
k-flod 目标编码的基本思想源自均值目标编码。在均值目标编码中,分类变量由对应于它们的目标均值替换。从图2中可以看出,“Feature”时目标的平均值为:A = 0.6和B = 0.3。因此,A和B将分别替换为0.6和0.3。此时新“Feature”可能与目标更相关。但是,当训练集特征和测试数据集中分类变量的分布有很大差异时,此方法可能会出现严重过拟合的糟糕情况😰。
目标编码/均值编码
因此,可以应用K-Flod目标编码来减少过拟合。在这种方法中,我们将数据集分为k折,这里我们采用5折。图3显示了5折交叉验证的第一轮。我们计算第2、3、4和5折的均值目标,并使用计算出的值mean_A = 0.556和mean_B = 0.285来估计第1折的均值编码。
5-flod目标编码, 我们使用2、3、4、5折来估算第一折
之后,我们可以计算出第二折,如图4所示。
现在接下来的部分是在测试数据集中创建“ Feature_Kfold_Target_Enc”列。该列值可以通过获取训练集中的分类变量“ A”和“ B”的“ Feature_Kfold_mean_Enc”的平均值来获得。
尽管k折目标编码是一种可靠的特征工程方法,但不能保证它始终是提高准确性的最佳方法。因此我们需要尝试各种特征工程,以便测试哪个特征能给我们带来更好的性能。
代码
让我们编写k-flod目标编码的代码。KFoldTargetEncoderTrain类参数包括特征列名,目标列名,折的数量。它返回一个包含“ Feature_Kfold_mean_Enc”列的dataframe。注意,如果某折不包括某个类别变量值,例如,“ B”类别变量,则会导致NAN,我们用目标的整体均值填充NAN。
class KFoldTargetEncoderTrain(base.BaseEstimator,base.TransformerMixin):def __init__(self,colnames,targetName,n_fold=5, verbosity=True,discardOriginal_col=False):self.colnames = colnamesself.targetName = targetNameself.n_fold = n_foldself.verbosity = verbosityself.discardOriginal_col = discardOriginal_coldef fit(self, X, y=None):return selfdef transform(self,X):assert(type(self.targetName) == str)assert(type(self.colnames) == str)assert(self.colnames in X.columns)assert(self.targetName in X.columns)mean_of_target = X[self.targetName].mean()kf = KFold(n_splits = self.n_fold,shuffle = False, random_state=2019)col_mean_name = self.colnames + '_' + 'Kfold_Target_Enc'X[col_mean_name] = np.nanfor tr_ind, val_ind in kf.split(X):X_tr, X_val = X.iloc[tr_ind], X.iloc[val_ind]X.loc[X.index[val_ind], col_mean_name] = X_val[self.colnames].map(X_tr.groupby(self.colnames)[self.targetName].mean())X[col_mean_name].fillna(mean_of_target, inplace = True)if self.verbosity:encoded_feature = X[col_mean_name].valuesprint('Correlation between the new feature, {} and, {} is {}.'.format(col_mean_name,self.targetName, np.corrcoef(X[self.targetName].values,encoded_feature)[0][1]))if self.discardOriginal_col:X = X.drop(self.targetName, axis=1)return X
使用代码如下:
targetc = KFoldTargetEncoderTrain('Feature','Target',n_fold=5)
new_train = targetc.fit_transform(train)
测试集如下
class KFoldTargetEncoderTest(base.BaseEstimator, base.TransformerMixin):def __init__(self,train,colNames,encodedName):self.train = trainself.colNames = colNamesself.encodedName = encodedNamedef fit(self, X, y=None):return selfdef transform(self,X):mean = self.train[[self.colNames,self.encodedName]].groupby(self.colNames).mean().reset_index() dd = {}for index, row in mean.iterrows():dd[row[self.colNames]] = row[self.encodedName]X[self.encodedName] = X[self.colNames]X = X.replace({self.encodedName: dd})return X
使用如下:
test_targetc = KFoldTargetEncoderTest(new_train,'Feature','Feature_Kfold_Target_Enc')
new_test = test_targetc.fit_transform(test)
完整代码:https://github.com/pourya-ir/Medium/tree/master/K-fold-target-enc
原文英文链接:https://medium.com/@pouryaayria/k-fold-target-encoding-dfe9a594874b
欢迎扫码关注ChallengeHub公众号
欢迎加入ChallengeHub学习交流群
这篇关于浅谈K-Fold Target Encoding的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!