pyspark.ml.feature特征工程常用方法（一）

本文主要是介绍pyspark.ml.feature特征工程常用方法（一），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

本篇博文主要是对pyspark.ml.feature模块的函数进行介绍，也可以直接看官网文档。其中博文的数据皆来自官方文档中例子。官方文档地址： http://spark.apache.org/docs/latest/api/python/pyspark.ml.html

pyspark.ml.feature 函数概括：

__all__ = ['Binarizer', 'Bucketizer', 'CountVectorizer', 'CountVectorizerModel', 'DCT',

'ElementwiseProduct', 'HashingTF', 'IDF', 'IDFModel', 'IndexToString', 'MinMaxScaler',

'MinMaxScalerModel', 'NGram', 'Normalizer', 'OneHotEncoder', 'PCA', 'PCAModel',

'PolynomialExpansion', 'RegexTokenizer', 'RFormula', 'RFormulaModel', 'SQLTransformer',

'StandardScaler', 'StandardScalerModel', 'StopWordsRemover', 'StringIndexer',

'StringIndexerModel', 'Tokenizer', 'VectorAssembler', 'VectorIndexer', 'VectorSlicer',

'Word2Vec', 'Word2VecModel']

1、Binarizer(threshold=1.0, inputCol="values", outputCol="features")

作用：根据给定阈值，二值化连续特征的某一列。

from pyspark.ml.feature import Binarizer
>>> df = sqlContext.createDataFrame([(0.5,)], ["values"])
>>> binarizer = Binarizer(threshold=1.0, inputCol="values", outputCol="features")
>>> binarizer.transform(df).head().features
0.0
>>> binarizer.setParams(outputCol="freqs").transform(df).head().freqs
0.0
>>> params = {binarizer.threshold: -0.5, binarizer.outputCol: "vector"}
>>> binarizer.transform(df, params).head().vector

2、ChiSqSelector(numTopFeatures=50, featuresCol='features', outputCol=None, labelCol='label', selectorType='numTopFeatures', percentile=0.1, fpr=0.05, fdr=0.05, fwe=0.05)

特征选择（Feature Selection）指的是在特征向量中选择出那些“优秀”的特征，组成更“精简”的特征向量的过程。它在高维数据分析中十分常用，可以剔除掉“冗余”和“无关”的特征，提升学习器的性能。特征选择方法和分类方法一样，也主要分为有监督（Supervised）和无监督（Unsupervised）两种，卡方选择则是统计学上常用的一种有监督特征选择方法，它通过对特征和真实标签之间进行卡方检验，来判断该特征和真实标签的关联程度，进而确定是否对其进行选择。和ML库中的大多数学习方法一样，ML中的卡方选择也是以estimator+transformer的形式出现的。

ChiSqSelector是pyspark中的特征选择函数，依据卡方检验，一般在分类问题中选择类别特征。支持不同的选择方法：numTopFeatures, percentile, fpr, fdr, few。

numTopFeatures：根据卡方检验选择固定数量的TOP特征。

Percentile：跟numTopFeatures类似，但按比例选择所有特征的一部分，而不是固定数量。

fpr：选择特征p-value值低于阈值的所有特征，从而控制选择的假阳性率。

默认情况下，选择方法是numTopFeatures，默认的topK特征数量设置为50。

>>> from pyspark.ml.feature import ChiSqSelector
>>> from pyspark.ml.linalg import Vectors
>>> 
df = spark.createDataFrame([(Vectors.dense([0.0, 0.0, 18.0, 1.0]), 1.0),(Vectors.dense([0.0, 1.0, 12.0, 0.0]), 0.0),(Vectors.dense([1.0, 0.0, 15.0, 0.1]), 0.0)],["features", "label"])
>>> selector = ChiSqSelector(numTopFeatures=2, outputCol="selectedFeatures")
>>> model = selector.fit(df)
>>> model.transform(df).head().selectedFeatures
DenseVector([18.0, 1.0])
>>> model.selectedFeatures
[2, 3]
>>> chiSqSelectorPath = temp_path + "/chi-sq-selector"
>>> selector.save(chiSqSelectorPath)
>>> loadedSelector = ChiSqSelector.load(chiSqSelectorPath)
>>> loadedSelector.getNumTopFeatures() == selector.getNumTopFeatures()
True
>>> modelPath = temp_path + "/chi-sq-selector-model"
>>> model.save(modelPath)
>>> loadedModel = ChiSqSelectorModel.load(modelPath)
>>> loadedModel.selectedFeatures == model.selectedFeatures
True

其中,selectedFeatures为选择出来的特征，model.selectedFeatures则为选择出来的特征所对应的列。

3、StringIndexer(inputCol=None, outputCol=None, handleInvalid='error', stringOrderType='frequencyDesc')

StringIndexer转换器可以把一列类别型的特征（或标签）进行编码，使其数值化，索引的范围从0开始，该过程可以使得相应的特征索引化。索引构建的顺序为标签的频率，优先编码频率较大的标签，所以出现频率最高的标签为0号。如果输入的是数值型的，我们会把它转化成字符型，然后再对其进行编码。

作用：使得某些无法接受类别型特征的算法可以使用，并提高诸如决策树等机器学习算法的效率。

from pyspark.ml.feature import StringIndexer
from pyspark.ml.feature import IndexToStringstringIndDf = spark.createDataFrame([(0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (5, "c")],["id", "label"])
#StringIndexer的使用
stringIndexer = StringIndexer(inputCol="label", outputCol="indexed", handleInvalid="error",stringOrderType="frequencyDesc")
model = stringIndexer.fit(stringIndDf)
td = model.transform(stringIndDf)
sorted(set([(i[0], i[1]) for i in td.select(td.id, td.indexed).collect()]),key=lambda x: x[0])
[(0, 0.0), (1, 2.0), (2, 1.0), (3, 0.0), (4, 0.0), (5, 1.0)]#IndexToString的使用
>>> inverter = IndexToString(inputCol="indexed", outputCol="label2", labels=model.labels)
>>> itd = inverter.transform(td)
>>> sorted(set([(i[0], str(i[1])) for i in itd.select(itd.id, itd.label2).collect()]),
...     key=lambda x: x[0])
[(0, 'a'), (1, 'b'), (2, 'c'), (3, 'a'), (4, 'a'), (5, 'c')]#
>>> stringIndexerPath = temp_path + "/string-indexer"
>>> stringIndexer.save(stringIndexerPath)
>>> loadedIndexer = StringIndexer.load(stringIndexerPath)
>>> loadedIndexer.getHandleInvalid() == stringIndexer.getHandleInvalid()
True
>>> modelPath = temp_path + "/string-indexer-model"
>>> model.save(modelPath)
>>> loadedModel = StringIndexerModel.load(modelPath)
>>> loadedModel.labels == model.labels
True
>>> indexToStringPath = temp_path + "/index-to-string"
>>> inverter.save(indexToStringPath)
>>> loadedInverter = IndexToString.load(indexToStringPath)
>>> loadedInverter.getLabels() == inverter.getLabels()
True

注：针对训练集中没有出现的字符串值，spark提供了几种处理的方法：

1、error，直接抛出异常

2、skip，跳过该样本数据

3、keep，使用一个新的最大索引，来表示所有未出现的值

`4、VectorAssembler`(inputCols=None, outputCol=None, handleInvalid='error')

将多列聚合成一个向量列，这个多列就会变成DenseVector形式

from pyspark.ml.feature import VectorAssemblerdf = spark.createDataFrame([(1, 0, 3)], ["a", "b", "c"])
vecAssembler = VectorAssembler(inputCols=["a", "b", "c"], outputCol="features")
vecAssembler.transform(df).head().features
DenseVector([1.0, 0.0, 3.0])>>> vecAssembler.setParams(outputCol="freqs").transform(df).head().freqs
DenseVector([1.0, 0.0, 3.0])#只聚合“a”“b”两列
>>> params = {vecAssembler.inputCols: ["b", "a"], vecAssembler.outputCol: "vector"}
>>> vecAssembler.transform(df, params).head().vector
DenseVector([0.0, 1.0])