【python数据分析】北京房租数据分析

2023-12-24 17:28

本文主要是介绍【python数据分析】北京房租数据分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

北京租房数据分析
下图展示的北京链家租房的数据,请针对以下数据进行数据清洗及展开数据分析,具体要求:

  1. 运用数据清洗等常规方法对数据进行预处理;
  2. 针对出租屋不同的户型、房屋面积、房屋所属区域分别进行租金分析,并用可视化的图表进行展示;
  3. 针对出租屋的地理位置进行地图的可视化展示(在地图上展示出房屋的数量和价格);
  4. 建议运用预测算法模型对租房价格进行预测,可以选取其中一部分作为测试数据,以检验算法模型的效果。
import pandas as pd
import matplotlib.pyplot as plt
# 设置字体为SimHei以支持汉字
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False# 加载数据
df = pd.read_csv('链家北京租房数据.csv',encoding='gbk')
print(type(df))
dfdf.describe()print(df.loc[:,'面积(㎡)'])
print(type(df.loc[:,'面积(㎡)']))# 转换面积列为数值类型
df.loc[:,'面积(㎡)'] = df.loc[:,'面积(㎡)'].str.replace('平米','').astype(float)
df.loc[:,'面积(㎡)']#把户型表达方式统一
df.loc[:,'户型'] = df.loc[:,'户型'].str.replace('房间','室')df.loc[:,'价格(元/月)']#数据预处理完进行去重操作
df = df.drop_duplicates()
dfdf.describe()#按照户型进行分类并取得每个户型的平均房价
df_hx = df.groupby('户型')['价格(元/月)'].mean()
df_hx#设置图像大小
plt.figure(figsize=(16,9)) 
#将x轴文本竖向展示
plt.xticks(rotation=90)
#绘制折线图
plt.plot(df_hx.index,df_hx)
#设置标题
plt.title('不同户型的平均租金')
plt.xlabel('户型')
plt.ylabel('平均租金 (元/月)')
plt.show()# 2. 房屋面积与租金的关系
plt.figure(figsize=(10, 6))
plt.scatter(df.loc[:,'面积(㎡)'], df.loc[:,'价格(元/月)'])
plt.title('房屋面积与租金的关系')
plt.xlabel('面积 (㎡)')
plt.ylabel('租金 (元/月)')
plt.show()df_qy = df.groupby('区域')['价格(元/月)'].mean()
df_qy#设置图像大小
plt.figure(figsize=(16,9)) 
#将x轴文本竖向展示
plt.xticks(rotation=90)
#绘制折线图
plt.bar(df_qy.index,df_qy)
#设置标题
plt.title('不同区域的平均租金')
plt.xlabel('区域')
plt.ylabel('平均租金 (元/月)')
plt.show()df.loc[:,'区域'].drop_duplicates()print(df.groupby('区域')['区域'].count())import folium
from folium.plugins import MarkerCluster# 北京各区域的中心点坐标
coords = {'东城': [39.917, 116.416],'丰台': [39.8585, 116.2868],'亦庄开发':[39.795,116.505],'大兴':[39.73,116.33],'房山':[39.75,116.13],'昌平':[40.22072,116.2312],'朝阳': [39.9219, 116.4435],'海淀': [39.9561, 116.3103],'石景山': [39.9067, 116.2220],'西城': [39.912, 116.366],'通州': [39.9092, 116.6572],'门头沟': [39.9405, 116.1020],'顺义': [40.1301, 116.6546]
}# 创建地图对象,设置北京市为中心点
map = folium.Map(location=[39.9168, 116.4543], zoom_start=10)# 使用MarkerCluster插件创建一个聚类对象,并将其添加到地图上
marker_cluster = MarkerCluster().add_to(map)# 在地图上添加标记
# 1 逐行遍历#iterrows(): 将DataFrame迭代为(insex, Series)对。
for index, row in df.iterrows():
# 2 判断区域位置if row['区域'] in coords:s = f'小区名称:{row["小区名称"]}\n户型:{row["户型"]}\n租金: {row["价格(元/月)"]}元/月\n面积: {row["面积(㎡)"]}平米'folium.Marker(location=coords[row['区域']], #用于确定标记部件的经纬位置popup=folium.Popup(s,max_width=160) #添加标记提示信息,设置宽度).add_to(marker_cluster) # 将标记添加到聚类对象中# 显示地图
map.save('北京租房地图2.html')from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer# 特征选择
features = ['区域', '面积(㎡)', '户型']# 划分特征和目标变量
X = df[features]
y = df.loc[:,'价格(元/月)']# 对分类特征进行独热编码
# 这些特征值并不是连续的,而是离散的,无序的。需要对其进行特征数字化。
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), ['区域', '户型'])],remainder='passthrough' #将未被处理的列保持原样,默认是删除未被处理的列
)#对独热编码的数据进行转换
X_encoded = ct.fit_transform(X) from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
from sklearn.metrics import r2_score# 划分训练集和测试集
# X_train 和 y_train 是训练集的特征和目标变量,X_test 和 y_test 是测试集的特征和目标变量。
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)linear_reg1 = LinearRegression()
linear_reg1.fit(X_train,y_train)y_pred1 = linear_reg1.predict(X_test)#评估性能模型
print(f'R2系数:{r2_score(y_test, y_pred1)}')# 训练集的散点图
plt.scatter(y_train, linear_reg1.predict(X_train), color='blue', label='训练集')# 测试集的散点图
plt.scatter(y_test, y_pred1, color='red', label='测试集')
plt.plot(y_test, y_test, linestyle='-.', color='black', linewidth=2)
plt.title('实际租金vs预测租金')
plt.xlabel('实际租金(元/月)')
plt.ylabel('预测租金(元/月)')
plt.legend()
plt.show()# 划分训练集和测试集
# X_train 和 y_train 是训练集的特征和目标变量,X_test 和 y_test 是测试集的特征和目标变量。
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)# 创建包含多项式特征的模型增加模型对数据的拟合能力
poly_features  = PolynomialFeatures(degree=2)
# 转换特征
X_train_poly = poly_features.fit_transform(X_train) #对训练集特征转换
X_test_poly = poly_features.transform(X_test) #对测试集进行相同的转换#线性拟合
linear_reg2 = LinearRegression()
linear_reg2.fit(X_train_poly, y_train)y_pred2 = linear_reg2.predict(X_test_poly)#评估性能模型
print(f'R2系数:{r2_score(y_test, y_pred2)}')# 训练集的散点图
plt.scatter(y_train, linear_reg2.predict(X_train_poly), color='blue', label='训练集')# 测试集的散点图
plt.scatter(y_test, y_pred2, color='red', label='测试集')
plt.plot(y_test, y_test, linestyle='--', color='black', linewidth=2)
plt.title('实际租金vs预测租金')
plt.xlabel('实际租金(元/月)')
plt.ylabel('预测租金(元/月)')
plt.legend()
plt.show()from sklearn.metrics import r2_score
#评估性能模型
print(f'R2系数:{r2_score(y_test, y_pred2)}')from sklearn.ensemble import RandomForestRegressor# 使用随机森林回归模型
rf_reg = RandomForestRegressor(n_estimators=100, random_state=42)
rf_reg.fit(X_train_poly, y_train)# 在测试集上进行预测
y_pred_rf = rf_reg.predict(X_test_poly)# 评估性能模型
r2_score_rf = r2_score(y_test, y_pred_rf)
print(f'R2系数(随机森林回归):{r2_score_rf}')

这篇关于【python数据分析】北京房租数据分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/532545

相关文章

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

python 字典d[k]中key不存在的解决方案

《python字典d[k]中key不存在的解决方案》本文主要介绍了在Python中处理字典键不存在时获取默认值的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录defaultdict:处理找不到的键的一个选择特殊方法__missing__有时候为了方便起见,

使用Python绘制可爱的招财猫

《使用Python绘制可爱的招财猫》招财猫,也被称为“幸运猫”,是一种象征财富和好运的吉祥物,经常出现在亚洲文化的商店、餐厅和家庭中,今天,我将带你用Python和matplotlib库从零开始绘制一... 目录1. 为什么选择用 python 绘制?2. 绘图的基本概念3. 实现代码解析3.1 设置绘图画

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

python实现自动登录12306自动抢票功能

《python实现自动登录12306自动抢票功能》随着互联网技术的发展,越来越多的人选择通过网络平台购票,特别是在中国,12306作为官方火车票预订平台,承担了巨大的访问量,对于热门线路或者节假日出行... 目录一、遇到的问题?二、改进三、进阶–展望总结一、遇到的问题?1.url-正确的表头:就是首先ur

基于Python实现PDF动画翻页效果的阅读器

《基于Python实现PDF动画翻页效果的阅读器》在这篇博客中,我们将深入分析一个基于wxPython实现的PDF阅读器程序,该程序支持加载PDF文件并显示页面内容,同时支持页面切换动画效果,文中有详... 目录全部代码代码结构初始化 UI 界面加载 PDF 文件显示 PDF 页面页面切换动画运行效果总结主