机器学习入门实例-加州房价预测-2(数据整理)

2023-10-31 10:51

本文主要是介绍机器学习入门实例-加州房价预测-2(数据整理),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

计算相关性

使用corr()计算standard correlation coefficient(Pearson’s r)。矩阵不是很方便观察,可以直接排序median_house_value列,可以看出median_house_value与median_income的相关性挺大的。

	corr_matrix = visual_data.corr()print(corr_matrix)# 这句是直接排序了,降序print(corr_matrix["median_house_value"].sort_values(ascending=False))[9 rows x 9 columns]
median_house_value    1.000000
median_income         0.687151
total_rooms           0.135140
housing_median_age    0.114146
households            0.064590
total_bedrooms        0.047781
population           -0.026882
longitude            -0.047466
latitude             -0.142673
Name: median_house_value, dtype: float64

绘图也可以看到这种相关性:

	from pandas.plotting import scatter_matrix# 因为其它属性的相关性值比较小,同时因为空间有限,所以只选4个绘制图像attributes = ["median_house_value", "median_income", "total_rooms","housing_median_age"]scatter_matrix(visual_data[attributes], figsize=(12, 8))plt.show()

在这里插入图片描述
因为total_rooms相关性不太显著,考虑引入几个新特性:

	visual_data["rooms_per_household"] = visual_data["total_rooms"] / visual_data["households"]visual_data["bedrooms_per_room"] = visual_data["total_bedrooms"] / visual_data["total_rooms"]visual_data["population_per_household"] = visual_data["population"] / visual_data["households"]corr_matrix = visual_data.corr()print(corr_matrix["median_house_value"].sort_values(ascending=False))median_house_value          1.000000
median_income               0.687151
rooms_per_household         0.146255
total_rooms                 0.135140
housing_median_age          0.114146
households                  0.064590
total_bedrooms              0.047781
population_per_household   -0.021991
population                 -0.026882
longitude                  -0.047466
latitude                   -0.142673
bedrooms_per_room          -0.259952
Name: median_house_value, dtype: float64

可以看到rooms_per_household比total_rooms和households的相关性都要高一点,bedrooms_per_room也是,但是population_per_household反而变差了,大概是不适合这种特征组合方式。

数据整理

取得数据和标签

housing = train_set.drop("median_house_value", axis=1)
housing_labels = train_set["median_house_value"].copy()

处理有空缺值的列
三种常见方法:

# 第一种,去掉有空缺值的行
housing.dropna(subset=["total_bedrooms"])# 第二种,去掉有空缺值的列
housing.drop("total_bedrooms", axis=1)# 第三种,使用某种方法获得一个值,填入空缺位置。这里使用中位数
median = housing["total_bedrooms"].median()
housing["total_bedrooms"].fillna(median, inplace=True)

使用scikit learn的方法:

	from sklearn.impute import SimpleImputerimputer = SimpleImputer(strategy="median")# median不能计算非数据列,ocean_p是字符串housing_num = housing.drop("ocean_proximity", axis=1)imputer.fit(housing_num)# 此时imputer会计算每一列的中位数。因为实时运行时可能不止total_bedrooms列有空缺,所以最好直接全部计算# imputer.statistics_中存放了各列的中位数,与housing_num.median().values是完全一致的# print(imputer.statistics_)# print(housing_num.median().values)X = imputer.transform(housing_num)housing_tr = pd.DataFrame(X, columns=housing_num.columns, index=housing_num.index)

Imputer的说明

  • Estimators
    基于某个数据集估算参数的对象称为estimator,使用时用fit()函数进行估算,它本身的参数称为hyperparameter。比如SimpleImputer就是estimator,strategy就是它的hyperparameter。
  • Transformers
    某些estimator可以修改数据集,所以也叫transformer,使用时用transform()进行修改。比如SimpleImputer就是。Transformer有一个函数fit_transform(),等于先fit()再transform(),有时候比俩函数写在一起更快。
  • Predictiors
    某些estimator可以进行预测,使用predict()进行预测,使用score()计算预测质量。
  • 规定
    所有estimator的超参数都是公共属性,比如imputer.strategy,所有估算完的参数也是公共属性,以下划线结尾,比如imputer.statistics_

处理字符串类型列
ocean_proximity这列只包含几个有限字符串值,为了进行处理,需要把字符串转换为数字,比如0,1,2…

	housing_cat = housing[["ocean_proximity"]]from sklearn.preprocessing import OrdinalEncoderordinal_encoder = OrdinalEncoder()housing_cat_encoded = ordinal_encoder.fit_transform(housing_cat)print(ordinal_encoder.categories_)[array(['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'],dtype=object)]

one-hot encoding:其实就是二进制表示。比如INLAND就是01000,ISLAND是00100,这样把原本1列变成5列,新属性也被称为dummy attributes。scikit learn也提供了这种方法:

	from sklearn.preprocessing import OneHotEncodercat_encoder = OneHotEncoder()housing_cat_1hot = cat_encoder.fit_transform(housing_cat)print(housing_cat_1hot)# (0, 1)	1.0# (1, 4)	1.0# ... 该类型是稀疏矩阵,因为里面大部分是0,所以只存储了1的位置。(row, col)# toarray()可以转为二维数组print(housing_cat_1hot.toarray())

但如果这列有非常多种标签,one-hot方式就会引入大量数据。此时应该改为数字型编号,或者干脆改成数字型的列,比如ocean_proximity就可以改成与海洋之间的距离。

自定义Estimator

rooms_ix, bedrooms_ix, population_ix, households_ix = 3, 4, 5, 6class CombinedAttributesAdder(BaseEstimator, TransformerMixin):def __init__(self, add_bedrooms_per_room=True):self.add_bedrooms_per_room = add_bedrooms_per_roomdef fit(self, X, y=None):return selfdef transform(self, X):return selfdef fit_transform(self, X, y=None):rooms_per_household = X[:, rooms_ix] / X[:, households_ix]population_per_household = X[:, population_ix] / X[:, households_ix]if self.add_bedrooms_per_room:bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]return np.c_[X, rooms_per_household, population_per_household, bedrooms_per_room]else:return np.c_[X, rooms_per_household, population_per_household]
...
#使用:
attr_adder = CombinedAttributesAdder(add_bedrooms_per_room=False)
housing_extra_attrs = attr_adder.fit_transform(housing.values)

注意

  1. fit和transform虽然没有实现,但也要写,不然后面组装成pipeline运行时会报错:
    TypeError: All intermediate steps should be transformers and implement fit and transform or be the string ‘passthrough’ ‘CombinedAttributesAdder()’
  2. fit_transform要写y参数,不然pipeline中也会报错:
    TypeError: fit_transform() takes 2 positional arguments but 3 were given

当然,如果不组装pipeline,只是单独调用的话,这两点可以忽略掉。

特征缩放
Feature Scaling:如果两列的数据范围差距很大(比如total_rooms在6~39320之间,但income_median只在0 ~ 15之间),机器学习算法的表现可能受影响。

  1. min-max scaling:也叫normalization,指将数据压缩到0-1之间,原理是减去最小值,再除以最大值与最小值的差。scikit learn提供了一个transformer叫MinMaxScaler,其超参数feature_range可以指定非0-1的范围。
  2. standardization:原理是减去均值,然后除以标准差。scikit learn提供一个transformer叫StandardScaler

组装pipeline
如果很多列需要相似的处理流程,那可以组装成一个pipeline,然后把数据整个扔进去。

    from sklearn.pipeline import Pipelinefrom sklearn.preprocessing import StandardScaler# 每个元组的格式为:(name, estimator object),最后一个必须是transformer,即要有fit_transform()# name要求唯一且不能包含双下划线__。要求有名称是为了后期可以调整超参数num_pipeline = Pipeline([('imputer', SimpleImputer(strategy='median')),('attribs_adder', CombinedAttributesAdder()),('std_scaler', StandardScaler()),])housing_num_tr = num_pipeline.fit_transform(housing_num)#print(housing_num_tr)

其中housing_num = housing.drop(“ocean_proximity”, axis=1),就是纯数据列。

更高级的pipeline则可以包含Pipeline对象和estimator。

    from sklearn.compose import ColumnTransformer# 这实际是列名listnum_attribs = list(housing_num)cat_attribs = ["ocean_proximity"]drop_attribs = ["longitude"]# 每行指定name、pipeline或者estimator对象和列名# 也可以使用drop或passthrough处理某些列。drop表示直接删除,passthrough是不做处理# 对于没有经过full_pipeline处理的列,默认是会被删除的,但是可以给任意transformer# 设置超参数 remainder="passthrough"full_pipeline = ColumnTransformer([# ("dr", "drop", drop_attribs),# ("pass", "passthrough", drop_attribs),("num", num_pipeline, num_attribs),("cat", OneHotEncoder(), cat_attribs),])housing_prepared = full_pipeline.fit_transform(housing)print(housing_prepared)

总结数据整理:

def transform_data(housing):from sklearn.pipeline import Pipelinefrom sklearn.impute import SimpleImputerfrom sklearn.preprocessing import StandardScalerfrom sklearn.compose import ColumnTransformerfrom sklearn.preprocessing import OneHotEncoder# 自定义pipelinenum_pipeline = Pipeline([('imputer', SimpleImputer(strategy='median')),('attribs_adder', CombinedAttributesAdder()),('std_scaler', StandardScaler()),])# 制作列名listhousing_num = housing.drop("ocean_proximity", axis=1)num_attribs = list(housing_num)cat_attribs = ["ocean_proximity"]# 构造总pipelinefull_pipeline = ColumnTransformer([("num", num_pipeline, num_attribs),("cat", OneHotEncoder(), cat_attribs),])housing_prepared = full_pipeline.fit_transform(housing)return housing_prepared

这篇关于机器学习入门实例-加州房价预测-2(数据整理)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/314844

相关文章

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集(如UTF-8)的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1:计算字符串

Javaee多线程之进程和线程之间的区别和联系(最新整理)

《Javaee多线程之进程和线程之间的区别和联系(最新整理)》进程是资源分配单位,线程是调度执行单位,共享资源更高效,创建线程五种方式:继承Thread、Runnable接口、匿名类、lambda,r... 目录进程和线程进程线程进程和线程的区别创建线程的五种写法继承Thread,重写run实现Runnab

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

从入门到精通MySQL联合查询

《从入门到精通MySQL联合查询》:本文主要介绍从入门到精通MySQL联合查询,本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下... 目录摘要1. 多表联合查询时mysql内部原理2. 内连接3. 外连接4. 自连接5. 子查询6. 合并查询7. 插入查询结果摘要前面我们学习了数据库设计时要满

从入门到精通C++11 <chrono> 库特性

《从入门到精通C++11<chrono>库特性》chrono库是C++11中一个非常强大和实用的库,它为时间处理提供了丰富的功能和类型安全的接口,通过本文的介绍,我们了解了chrono库的基本概念... 目录一、引言1.1 为什么需要<chrono>库1.2<chrono>库的基本概念二、时间段(Durat

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查