factorize专题

pd.get_dummies()与pd.factorize()详解

pandas.get_dummies (将类别变量转换为one-hot编码,使用pandas方法实现,相当于sklearn的one-hot编码)   离散特征的编码分为两种情况: 1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码 2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL

pandas(二):factorize实现标称型数据数值化

一、factorize() 官网说明 This method is useful for obtaining a numeric representation of an array when all that matters is identifying distinct values. factorize is available as both a top-level function