kaggle竞赛实战3

2024-05-26 22:36
文章标签 实战 竞赛 kaggle

本文主要是介绍kaggle竞赛实战3,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

接前文,本文主要做以下几件事:

1、把前面处理完的几个表拼成一个大表

2、做特征衍生(把离散特征和连续特征两两组合得出)


# In[89]:


#开始拼接表
transaction = pd.concat([new_transaction, history_transaction], axis=0, ignore_index=True)#最后一个参数表示产生新的索引


# In[91]:


transaction['purchase_month'] = transaction['purchase_date'].apply(lambda x:'-'.join(x.split(' ')[0].split('-')[:2]))#先提取出月份和小时


# In[92]:


transaction['purchase_hour_section'] = transaction['purchase_date'].apply(lambda x: x.split(' ')[1].split(':')[0]).astype(int)


# In[95]:


transaction['purchase_month'] = change_object_cols(transaction['purchase_month'].fillna(-1).astype(str))


# In[96]:


cols = ['merchant_id', 'most_recent_sales_range', 'most_recent_purchases_range', 'category_4']


# In[98]:


#做合并
transaction=pd.merge(transaction,merchant[cols],how='left',on='merchant_id')


# In[99]:


numeric_cols = ['purchase_amount', 'installments']


# In[100]:


category_cols = ['authorized_flag', 'city_id', 'category_1','category_3',
                 'merchant_category_id','month_lag','most_recent_sales_range',
                 'most_recent_purchases_range', 'category_4',
                 'purchase_month', 'purchase_hour_section', 'purchase_day']


# In[101]:


id_cols = ['card_id', 'merchant_id']


# In[102]:


#对合成的表再做一下异常值处理
transaction[cols[1:]] = transaction[cols[1:]].fillna(-1).astype(int)


# In[103]:


transaction[category_cols] =transaction[category_cols].fillna(-1).astype(str)


# In[104]:


#导出成csv
transaction.to_csv("d:/transaction_d_pre.csv",index=False)


# In[105]:


del transaction


# In[106]:


gc.collect()


# In[107]:


#开始特征工程,这里用两两特征组合的方式,使得一个卡号就一条记录。具体来说,看各个卡号A特征取值为1时,C特征的和
from datetime import datetime


# In[108]:


#搞个小数据集玩一下
d1={'card_id':[1,2,1,3],'A':[1, 2, 1, 2],
    'B':[2, 1, 2, 2], 'C':[4, 5, 1, 5], 'D':[7, 5, 4, 8]}


# In[110]:


t1=pd.DataFrame(d1)


# In[111]:


numeric_cols = ['C', 'D']
category_cols = ['A', 'B']


# In[112]:


t1


# In[113]:


#创建以id为key的空字典
features={}
card_all=t1['card_id'].values.tolist()#拿出所有catd_id
for card in card_all:
    features[card]={}


# In[114]:


features


# In[115]:


columns=t1.columns.tolist()#把所有字段名称拿出


# In[116]:


columns


# In[129]:


idx = columns.index('card_id')
idx


# In[122]:


#拿出离散型字段的索引值
category_cols_index=[columns.index(col)for col in category_cols]


# In[123]:


numeric_cols_index=[columns.index(col)for col in numeric_cols]


# In[130]:


#开始吧离散字段和连续字段两两组合
for i in range(t1.shape[0]):
    va=t1.loc[i].values#取出每行的值
    card=va[idx]#取出cardid
    for cate_ind in category_cols_index:
        for num_ind in numeric_cols_index:
            col_name = '&'.join([columns[cate_ind], str(va[cate_ind]), columns[num_ind]])
            features[card][col_name] = features[card].get(col_name, 0) + va[num_ind]
    


# In[131]:


features


# In[135]:


#转化为df
df = pd.DataFrame(features).T.reset_index()#再设置个索引


# In[137]:


cols = df.columns.tolist()


# In[139]:


df.columns = ['card_id'] + cols[1:]#这两句作用就是把第一列索引名改为card_id

最终输出的结果是两两组合的特征及对应值,如图所示:

这篇关于kaggle竞赛实战3的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1005785

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

滚雪球学Java(87):Java事务处理:JDBC的ACID属性与实战技巧!真有两下子!

咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE啦,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好习惯,别被干货淹没了哦~ 🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,助你一臂之力,带你早日登顶🚀,欢迎大家关注&&收藏!持续更新中,up!up!up!! 环境说明:Windows 10

每日一题|牛客竞赛|四舍五入|字符串+贪心+模拟

每日一题|四舍五入 四舍五入 心有猛虎,细嗅蔷薇。你好朋友,这里是锅巴的C\C++学习笔记,常言道,不积跬步无以至千里,希望有朝一日我们积累的滴水可以击穿顽石。 四舍五入 题目: 牛牛发明了一种新的四舍五入应用于整数,对个位四舍五入,规则如下 12345->12350 12399->12400 输入描述: 输入一个整数n(0<=n<=109 ) 输出描述: 输出一个整数

springboot实战学习(1)(开发模式与环境)

目录 一、实战学习的引言 (1)前后端的大致学习模块 (2)后端 (3)前端 二、开发模式 一、实战学习的引言 (1)前后端的大致学习模块 (2)后端 Validation:做参数校验Mybatis:做数据库的操作Redis:做缓存Junit:单元测试项目部署:springboot项目部署相关的知识 (3)前端 Vite:Vue项目的脚手架Router:路由Pina:状态管理Eleme

深度学习实战:如何利用CNN实现人脸识别考勤系统

1. 何为CNN及其在人脸识别中的应用 卷积神经网络(CNN)是深度学习中的核心技术之一,擅长处理图像数据。CNN通过卷积层提取图像的局部特征,在人脸识别领域尤其适用。CNN的多个层次可以逐步提取面部的特征,最终实现精确的身份识别。对于考勤系统而言,CNN可以自动从摄像头捕捉的视频流中检测并识别出员工的面部。 我们在该项目中采用了 RetinaFace 模型,它基于CNN的结构实现高效、精准的

项目实战系列三: 家居购项目 第四部分

购物车 🌳购物车🍆显示购物车🍆更改商品数量🍆清空购物车&&删除商品 🌳生成订单 🌳购物车 需求分析 1.会员登陆后, 可以添加家居到购物车 2.完成购物车的设计和实现 3.每添加一个家居,购物车的数量+1, 并显示 程序框架图 1.新建src/com/zzw/furns/entity/CartItem.java, CartItem-家居项模型 /***

Birt报表开发实战

我就截图描述得了,没什么含金量,看图基本明白的。 1.开始 a.创建报表文件 b.数据源配置 c.配置数据集 2.网格报表 拖拉式操作,很方便 3.预览效果 其他报表的操作也基本不难,就不扯了! 2.级联参数 官方视频教程:http://demo.actuate.com/demos/cascade/cascade.html

2024年AMC10美国数学竞赛倒计时两个月:吃透1250道真题和知识点(持续)

根据通知,2024年AMC10美国数学竞赛的报名还有两周,正式比赛还有两个月就要开始了。计划参赛的孩子们要记好时间,认真备考,最后冲刺再提高成绩。 那么如何备考2024年AMC10美国数学竞赛呢?做真题,吃透真题和背后的知识点是备考AMC8、AMC10有效的方法之一。通过做真题,可以帮助孩子找到真实竞赛的感觉,而且更加贴近比赛的内容,可以通过真题查漏补缺,更有针对性的补齐知识的短板。