用户行为价值购买率预测——二分类问题(1)

2023-10-29 10:50

本文主要是介绍用户行为价值购买率预测——二分类问题(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:

作者此次参加了全国大学生数据分析与统计比赛,选择的是此次B题目:用户消费行为价值分析以及预测用户购买率。在此想记录一下此次比赛所做项目的整个过程。
比赛任务:
任务 1:获取数据并进行预处理,提高数据质量;
任务 2:对用户的各城市分布情况、登录情况进行分析,并分别
将结果进行多种形式的可视化展现;
任务 3:构建模型判断用户最终是否会下单购买或下单购买的概
率,并将模型结果输出为 csv 文件(参照结果输出样例
sample_output.csv)。要求模型的效果达到 85%以上;
任务 4:通过用户消费行为价值分析,给企业提出合理的建议。

**

正文:

本次我所用的学习框架是tensorflow,工具是anaconda中的jupyter notebook,环境是base。
首先导入一些基本的包:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

如果遇到运行时no model .(包名)…错误的话,请打开anaconda prompt,切换到你正在使用的环境,如我正在使用的是base,在命令行中输入acttvate base,再输入命令行,conda install XX(你所缺失的包)
接着读取数据集:

train1=pd.read_csv('C:/Users/admin/Desktop/datafc/sampleB/data/user_info.csv')
train3=pd.read_csv('C:/Users/admin/Desktop/datafc/sampleB/data/visit_info.csv')
train2=pd.read_csv('C:/Users/admin/Desktop/datafc/sampleB/data/login_day.csv')
train4=pd.read_csv('C:/Users/admin/Desktop/datafc/sampleB/data/result.csv')

查看数据集的字段属性和前五个数据:

train1.head()
train2.head()
train3.head()
train4.head()

train1数据集
train2数据
train3数据
train4数据

通过简单的观察可以看出,train1数据集和train2,train3数据集是有关联的,但比较维度发现,train1数据集多出来351条数据。train4则是一些购买了该产品的用户,只有4639人。没有给出测试数据集。
进一步分析数据:

train1.city_num.describe()
train1.info()

在这里插入图片描述
注意到train1中city_num字段存在空值:

train1.isnull().sum()#查看是否有空值

在这里插入图片描述
对空值进行处理:

train1['city_num']=train1['city_num'].replace('error','')
train1=train1.fillna(method="ffill",axis=0)#邻近填充法

接下来的是将这四个数据集进行合并,通过user_id来对应,并将train1中多出的无效数据进行删除,对train2和train3,train4中重复的user_id删除,首先将train1中多余数据进行删除:

train1_d=train1.drop(labels=range(135617,135967),axis=0)#对于多出来的数据进行删除法
train1_d=train1_d.drop(labels=135967,axis=0)

对train2和train3,train4中重复的user_id删除:

train2_d=train2.drop(labels='user_id',axis=1)
train3_d=train3.drop(labels='user_id',axis=1)

合并三个数据集:

train=pd.concat([train1_d,train2_d,train3_d],axis=1)#合并三个数据集

与train4结果集进行合并,注意这里要对应user_id 进行合并:

train_con=pd.merge(train,train4,on='user_id',how='outer')#与结果集合并 使用并集
train_con=train_con.fillna(value=0)#将非购买用户标出,这样result就会为0和1
train_con.describe()#查看数据集

观察到app_num字段下的值全为1 可做降维处理:

train_con.drop('app_num',axis=1, inplace=True)#降维处理

数据可视化分析:

可视化已购买用户和非购买用户,对比两类用户的占比量,判断平衡性;

plt.rc('font', family='SimHei', size=13)
fig = plt.figure()
plt.pie(train_con['result'].value_counts(),labels=train_con['result'].value_counts().index,autopct='%1.2f%%',counterclock = False)
plt.title('购买率')
plt.show()

购买率
可以看出,这是一个不平衡数据集。
连续值可视化分析:
age_mouth:用户年龄,以月为单位:

plt.figure()
sns.boxenplot(x='result', y=u'age_month', data=train_con)
plt.show()#结果发现age_month里有异常值

可视化结果图
使用分位数及算法对异常值进行处理:

# 异常值处理 分位数计算法
def outlier_processing(dfx):df = dfx.copy()q1 = df.quantile(q=0.25)q3 = df.quantile(q=0.75)iqr = q3 - q1Umin = q1 - 1.5*iqrUmax = q3 + 1.5*iqr df[df>Umax] = df[df<=Umax].max()df[df<Umin] = df[df>=Umin].min()return df
train_con['age_month']=outlier_processing(train_con['age_month'])#处理异常值
plt.figure()#重画age_month的分布图 
sns.boxenplot(x='result', y=u'age_month', data=train_con)
plt.show()

年龄分布图

train_con[train_con['result']==0]['age_month'].plot(kind='kde',label='0')#两类用户年龄的曲线图
train_con[train_con['result']==1]['age_month'].plot(kind='kde',label='1')
plt.legend()
plt.show()

在这里插入图片描述
结论:两类客户的购买年龄分布差异不大。
查看两类用户使用的手机型号分布:

plt.figure()#查看手机型号的分布图 
sns.boxenplot(x='result', y=u'model_num', data=train_con)
plt.show()

手机型号

plt.figure()#查看两类客户优惠券的分布图 
sns.boxenplot(x='result', y=u'coupon', data=train_con)
plt.show()

两类用户购买优惠券的情况

plt.figure()#查看两类客户登录天数的分布图 
sns.boxenplot(x='result', y=u'login_day', data=train_con)
plt.show()

登录天数
登录天数发现有负值情况 登录天数不应该有负值 属于异常值 所以进行处理:

train_con.login_day.describe()
train_con['login_day']=train_con['login_day'].replace(-1,train_con['login_day'].mean())#用平均值代替异常值

重绘两类用户登录天数的对比图:

train_con[train_con['result']==0]['login_day'].plot(kind='kde',label='0')
train_con[train_con['result']==1]['login_day'].plot(kind='kde',label='1')
plt.legend()
plt.show()#

登录天数对比图
结论登录天数对购买率的影响也不大。

plt.figure()#查看两类客户登录间隔时间的分布图 
sns.boxenplot(x='result', y=u'login_diff_time', data=train_con)
plt.show()

登录时间间隔

train_con.login_diff_time.describe()#发现有负值

在这里插入图片描述

train_con['login_diff_time']=train_con['login_diff_time'].replace(-1,train_con['login_diff_time'].mean())#用平均值代替异常值

重绘对比图:

train_con[train_con['result']==0]['login_diff_time'].plot(kind='kde',label='0')
train_con[train_con['result']==1]['login_diff_time'].plot(kind='kde',label='1')
plt.legend()
plt.show()#结论 登录间隔时间对购买率的影响也不大

在这里插入图片描述
查看最后登录距期末时长字段:

train_con.distance_day.describe()
plt.figure()#最后登录距期末时长
sns.boxplot(y=u'distance_day', data=train_con)
plt.show()

在这里插入图片描述
在这里插入图片描述
发现异常值:

train_con['distance_day']=train_con['distance_day'].replace(-1,train_con['distance_day'].mean())#用平均值代替异常值
for col in train_con.distance_day:if col < 0:train_con['distance_day']=train_con['distance_day'].replace(col,train_con['distance_day'].mean())#用平均值代替异常值

由于篇幅限制,连续型数据我只挑出需要处理和比较特殊的数据放上来,其他的连续型数据处理方式相差不大。

特征工程:

str_features = []#特征提取
num_features=[]
for col in train_con.columns:if train_con[col].dtype=='object':str_features.append(col)print(col,':  ',train_con[col].unique())if train_con[col].dtype=='int64' and col not in ['user_id']:num_features.append(col)
print(str_features)
print(num_features)

分离出连续值和离散值:
在这里插入图片描述
接下来就是对离散值中的城市分布进行可视化分析,由于用户分布的城市非常之多,如果像先前那样画柱状图或曲线图来统计那是不现实的,实现出来的结果也无法进行分析,所以在此使用中国地图的形式,将属于各个城市的用户映射到对应的地图上中,这样能更直观地看出用户的分布情况。
首先导入相关的包:

import pyecharts #处理离散值 city用户城市分布图
from pyecharts.charts import Map
from pyecharts import options as opts
from pyecharts.charts import BMap#百度地图包
from pyecharts.globals import ThemeType#地图主题包

PS:第一次导入请在prompt中用conda install XX(包名)命令进行下载安装。
读取之前爬取的城市所属省份和城市出现频率的数据集,如没看过的请点击这里跳转:调用百度API正逆向地理编码——获取城市信息

fre_pro=pd.read_csv('./testcsv.csv')
pro2_name=list(fre_pro.province)
fren_pro=list(fre_pro.data)
list=[list(z)for z in zip(pro2_name,fren_pro)]

调用百度地图API进行用户城市分布可视化分析(热力图模式):

c = (#调用百度地图实现用户城市分布可视化BMap(init_opts=opts.InitOpts(width="1000px", height="600px")).add_schema(baidu_ak="PhNKW8XumikwS5TErRgDiLsPWOuTkjTU", center=[120.13066322374, 30.240018034923]).add("用户数",list,type_="heatmap",  #scatter为散点图,heatmap为热力图,ChartType.EFFECT_SCATTER为涟漪图label_opts=opts.LabelOpts(formatter="{b}")).set_global_opts(title_opts=opts.TitleOpts(title="用户分布图"), visualmap_opts=opts.VisualMapOpts(min_=0,max_=15000,range_text = ['用户量 颜色区间:', ''],  #分区间is_piecewise=True,  #定义图例为分段型,默认为连续的图例pos_top= "middle",  #分段位置pos_left="left",orient="vertical",split_number=10  #分成10个区间)).render_notebook())
c

热量图模式

c3 = (#调用百度地图实现用户城市分布可视化,散点图BMap(init_opts=opts.InitOpts(width="1000px", height="600px")).add_schema(baidu_ak="PhNKW8XumikwS5TErRgDiLsPWOuTkjTU", center=[120.13066322374, 30.240018034923]).add("用户数",list,type_="scatter",  #scatter为散点图,heatmap为热力图,ChartType.EFFECT_SCATTER为涟漪图label_opts=opts.LabelOpts(formatter="{b}")).set_global_opts(title_opts=opts.TitleOpts(title="用户分布图"), visualmap_opts=opts.VisualMapOpts(min_=0,max_=15000,range_text = ['用户量 颜色区间:', ''],  #分区间is_piecewise=True,  #定义图例为分段型,默认为连续的图例pos_top= "middle",  #分段位置pos_left="left",orient="vertical",split_number=10  #分成10个区间)).render_notebook())
c3

散点图模式
pycharts自带的map:

c2 = (#调用pycharts中自带的map地图完成可视化分析,跟百度地图相比缺点是不能展示每个城市的用户数Map(init_opts=opts.InitOpts(width="1000px", height="600px",theme = ThemeType.ROMANTIC)) #可切换主题.set_global_opts(title_opts=opts.TitleOpts(title="用户分布图"),visualmap_opts=opts.VisualMapOpts(min_=0,max_=15000,range_text = ['用户量 颜色区间:', ''],  #分区间is_piecewise=True,  #定义图例为分段型,默认为连续的图例pos_top= "middle",  #分段位置pos_left="left",orient="vertical",split_number=10  #分成10个区间)).add("用户数",list,maptype="china").render_notebook()
)
c2

pycharts自带的map
这种效果最好。
接下来将会讲解数据集划分,建模和预测评价。

这篇关于用户行为价值购买率预测——二分类问题(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/300162

相关文章

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

缓存雪崩问题

缓存雪崩是缓存中大量key失效后当高并发到来时导致大量请求到数据库,瞬间耗尽数据库资源,导致数据库无法使用。 解决方案: 1、使用锁进行控制 2、对同一类型信息的key设置不同的过期时间 3、缓存预热 1. 什么是缓存雪崩 缓存雪崩是指在短时间内,大量缓存数据同时失效,导致所有请求直接涌向数据库,瞬间增加数据库的负载压力,可能导致数据库性能下降甚至崩溃。这种情况往往发生在缓存中大量 k

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)

【VUE】跨域问题的概念,以及解决方法。

目录 1.跨域概念 2.解决方法 2.1 配置网络请求代理 2.2 使用@CrossOrigin 注解 2.3 通过配置文件实现跨域 2.4 添加 CorsWebFilter 来解决跨域问题 1.跨域概念 跨域问题是由于浏览器实施了同源策略,该策略要求请求的域名、协议和端口必须与提供资源的服务相同。如果不相同,则需要服务器显式地允许这种跨域请求。一般在springbo

题目1254:N皇后问题

题目1254:N皇后问题 时间限制:1 秒 内存限制:128 兆 特殊判题:否 题目描述: N皇后问题,即在N*N的方格棋盘内放置了N个皇后,使得它们不相互攻击(即任意2个皇后不允许处在同一排,同一列,也不允许处在同一斜线上。因为皇后可以直走,横走和斜走如下图)。 你的任务是,对于给定的N,求出有多少种合法的放置方法。输出N皇后问题所有不同的摆放情况个数。 输入

vscode中文乱码问题,注释,终端,调试乱码一劳永逸版

忘记咋回事突然出现了乱码问题,很多方法都试了,注释乱码解决了,终端又乱码,调试窗口也乱码,最后经过本人不懈努力,终于全部解决了,现在分享给大家我的方法。 乱码的原因是各个地方用的编码格式不统一,所以把他们设成统一的utf8. 1.电脑的编码格式 开始-设置-时间和语言-语言和区域 管理语言设置-更改系统区域设置-勾选Bata版:使用utf8-确定-然后按指示重启 2.vscode