本文主要是介绍pyspark.ml.feature特征工程常用方法(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
本篇博文主要是对pyspark.ml.feature模块的函数进行介绍,也可以直接看官网文档。其中博文的数据皆来自官方文档中例子。官方文档地址: http://spark.apache.org/docs/latest/api/python/pyspark.ml.html
pyspark.ml.feature 函数概括:
__all__ = ['Binarizer', 'Bucketizer', 'CountVectorizer', 'CountVectorizerModel', 'DCT',
'ElementwiseProduct', 'HashingTF', 'IDF', 'IDFModel', 'IndexToString', 'MinMaxScaler',
'MinMaxScalerModel', 'NGram', 'Normalizer', 'OneHotEncoder', 'PCA', 'PCAModel',
'PolynomialExpansion', 'RegexTokenizer', 'RFormula', 'RFormulaModel', 'SQLTransformer',
'StandardScaler', 'StandardScalerModel', 'StopWordsRemover', 'StringIndexer',
'StringIndexerModel', 'Tokenizer', 'VectorAssembler', 'VectorIndexer', 'VectorSlicer',
'Word2Vec', 'Word2VecModel']
1、Binarizer(threshold=1.0, inputCol="values", outputCol="features")
作用:根据给定阈值,二值化连续特征的某一列。
from pyspark.ml.feature import Binarizer
>>> df = sqlContext.createDataFrame([(0.5,)], ["values"])
>>> binarizer = Binarizer(threshold=1.0, inputCol="values", outputCol="features")
>>> binarizer.transform(df).head().features
0.0
>>> binarizer.setParams(outputCol="freqs").transform(df).head().freqs
0.0
>>> params = {binarizer.threshold: -0.5, binarizer.outputCol: "vector"}
>>> binarizer.transform(df, params).head().vector
2、ChiSqSelector(numTopFeatures=50, featuresCol='features', outputCol=None, labelCol='label', selectorType='numTopFeatures', percentile=0.1, fpr=0.05, fdr=0.05, fwe=0.05)
特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成更“精简”的特征向量的过程。它在高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习器的性能。特征选择方法和分类方法一样,也主要分为有监督(Supervised)和无监督(Unsupervised)两种,卡方选择则是统计学上常用的一种有监督特征选择方法,它通过对特征和真实标签之间进行卡方检验,来判断该特征和真实标签的关联程度,进而确定是否对其进行选择。和ML库中的大多数学习方法一样,ML中的卡方选择也是以estimator+transformer的形式出现的。
ChiSqSelector是pyspark中的特征选择函数,依据卡方检验,一般在分类问题中选择类别特征。支持不同的选择方法:numTopFeatures, percentile, fpr, fdr, few。
numTopFeatures:根据卡方检验选择固定数量的TOP特征。
Percentile:跟numTopFeatures类似,但按比例选择所有特征的一部分,而不是固定数量。
fpr:选择特征p-value值低于阈值的所有特征,从而控制选择的假阳性率。
默认情况下,选择方法是numTopFeatures,默认的topK特征数量设置为50。
>>> from pyspark.ml.feature import ChiSqSelector
>>> from pyspark.ml.linalg import Vectors
>>>
df = spark.createDataFrame([(Vectors.dense([0.0, 0.0, 18.0, 1.0]), 1.0),(Vectors.dense([0.0, 1.0, 12.0, 0.0]), 0.0),(Vectors.dense([1.0, 0.0, 15.0, 0.1]), 0.0)],["features", "label"])
>>> selector = ChiSqSelector(numTopFeatures=2, outputCol="selectedFeatures")
>>> model = selector.fit(df)
>>> model.transform(df).head().selectedFeatures
DenseVector([18.0, 1.0])
>>> model.selectedFeatures
[2, 3]
>>> chiSqSelectorPath = temp_path + "/chi-sq-selector"
>>> selector.save(chiSqSelectorPath)
>>> loadedSelector = ChiSqSelector.load(chiSqSelectorPath)
>>> loadedSelector.getNumTopFeatures() == selector.getNumTopFeatures()
True
>>> modelPath = temp_path + "/chi-sq-selector-model"
>>> model.save(modelPath)
>>> loadedModel = ChiSqSelectorModel.load(modelPath)
>>> loadedModel.selectedFeatures == model.selectedFeatures
True
其中,selectedFeatures为选择出来的特征,model.selectedFeatures则为选择出来的特征所对应的列。
3、StringIndexer(inputCol=None, outputCol=None, handleInvalid='error', stringOrderType='frequencyDesc')
StringIndexer转换器可以把一列类别型的特征(或标签)进行编码,使其数值化,索引的范围从0开始,该过程可以使得相应的特征索引化。索引构建的顺序为标签的频率,优先编码频率较大的标签,所以出现频率最高的标签为0号。如果输入的是数值型的,我们会把它转化成字符型,然后再对其进行编码。
作用:使得某些无法接受类别型特征的算法可以使用,并提高诸如决策树等机器学习算法的效率。
from pyspark.ml.feature import StringIndexer
from pyspark.ml.feature import IndexToStringstringIndDf = spark.createDataFrame([(0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (5, "c")],["id", "label"])
#StringIndexer的使用
stringIndexer = StringIndexer(inputCol="label", outputCol="indexed", handleInvalid="error",stringOrderType="frequencyDesc")
model = stringIndexer.fit(stringIndDf)
td = model.transform(stringIndDf)
sorted(set([(i[0], i[1]) for i in td.select(td.id, td.indexed).collect()]),key=lambda x: x[0])
[(0, 0.0), (1, 2.0), (2, 1.0), (3, 0.0), (4, 0.0), (5, 1.0)]#IndexToString的使用
>>> inverter = IndexToString(inputCol="indexed", outputCol="label2", labels=model.labels)
>>> itd = inverter.transform(td)
>>> sorted(set([(i[0], str(i[1])) for i in itd.select(itd.id, itd.label2).collect()]),
... key=lambda x: x[0])
[(0, 'a'), (1, 'b'), (2, 'c'), (3, 'a'), (4, 'a'), (5, 'c')]#
>>> stringIndexerPath = temp_path + "/string-indexer"
>>> stringIndexer.save(stringIndexerPath)
>>> loadedIndexer = StringIndexer.load(stringIndexerPath)
>>> loadedIndexer.getHandleInvalid() == stringIndexer.getHandleInvalid()
True
>>> modelPath = temp_path + "/string-indexer-model"
>>> model.save(modelPath)
>>> loadedModel = StringIndexerModel.load(modelPath)
>>> loadedModel.labels == model.labels
True
>>> indexToStringPath = temp_path + "/index-to-string"
>>> inverter.save(indexToStringPath)
>>> loadedInverter = IndexToString.load(indexToStringPath)
>>> loadedInverter.getLabels() == inverter.getLabels()
True
注:针对训练集中没有出现的字符串值,spark提供了几种处理的方法:
1、error,直接抛出异常
2、skip,跳过该样本数据
3、keep,使用一个新的最大索引,来表示所有未出现的值
4、VectorAssembler
(inputCols=None, outputCol=None, handleInvalid='error')
将多列聚合成一个向量列,这个多列就会变成DenseVector形式
from pyspark.ml.feature import VectorAssemblerdf = spark.createDataFrame([(1, 0, 3)], ["a", "b", "c"])
vecAssembler = VectorAssembler(inputCols=["a", "b", "c"], outputCol="features")
vecAssembler.transform(df).head().features
DenseVector([1.0, 0.0, 3.0])>>> vecAssembler.setParams(outputCol="freqs").transform(df).head().freqs
DenseVector([1.0, 0.0, 3.0])#只聚合“a”“b”两列
>>> params = {vecAssembler.inputCols: ["b", "a"], vecAssembler.outputCol: "vector"}
>>> vecAssembler.transform(df, params).head().vector
DenseVector([0.0, 1.0])
这篇关于pyspark.ml.feature特征工程常用方法(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!