kaggle专题

Kaggle比赛:成人人口收入分类

拿到数据首先查看数据信息和描述   import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # 加载数据(保留原路径,但在实际应用中建议使用相对路径或环境变量) data = pd.read_csv(r"C:\Users\11794\Desktop\收入分类\training.csv", e

【Kaggle量化比赛】Top讨论

问: 惊人的单模型得分,请问您使用了多少个特征来获得如此高的得分?我也在使用LGB模型。 答 235个特征(180个基本特征+滚动特征) 问: 您是在使用Polars进行特征工程还是仅依赖于Pandas+Numba/多进程?即使进行了Numba优化,我也发现当滚动特征过多时,推理速度会非常慢。在Colab T4上使用在线流式评估,完成一个qp需要超过7秒。 答 使用Numba和多进程

Kaggle-Camera_Model_Identification 比赛记录总结[19/582(Top 4%)]

这篇博客记录自己在这次kaggle比赛中做的工作。成绩:19/582(Top 4%) Kaggle比赛地址 我的代码github地址 这次比赛是给出10个相机拍摄的照片,然后给出测试图片,区分是哪个相机拍摄的。训练集中每类照片数量相同,每类都是由同一个手机拍摄的照片。测试集中,每类的照片都是来自另外一个手机,一半的图片可能被用了八种可能的操作。 总结: 1. 更多的数据。

Python学习从0开始——Kaggle时间序列002

Python学习从0开始——Kaggle时间序列002 一、作为特征的时间序列1.串行依赖周期 2.滞后序列和滞后图滞后图选择滞后 3.示例 二、混合模型1.介绍2.组件和残差3.残差混合预测4.设计混合模型5.使用 三、使用机器学习进行预测1.定义预测任务2.为预测准备数据3.多步骤预测策略3.1 Multioutput模型3.2 直接策略3.3 递归策略3.4 DirRec策略 4.使用

动手学深度学习4.10 实战Kaggle比赛:预测房价-笔记练习(PyTorch)

以下内容为结合李沐老师的课程和教材补充的学习笔记,以及对课后练习的一些思考,自留回顾,也供同学之人交流参考。 本节课程地址:实战 Kaggle 比赛:预测房价_哔哩哔哩_bilibili 本节教材地址:4.10. 实战Kaggle比赛:预测房价 — 动手学深度学习 2.0.0 documentation (d2l.ai) 本节开源代码:...>d2l-zh>pytorch>chapter_m

动手学深度学习——Kaggle小白入门

1. kaggle注册 注册网址:https://www.kaggle.com 注册账号不需要代理,但手机号验证需要代理。如果要使用GPU或TPU,则需要进行手机号验证。 手机号验证位置:右上角头像的settings界面。 手机号验证时会有几个问题: 无验证码,提示:Captcha must be filled out. 原因:人机验证组件在国内被拦截,所以看不到验证按钮,需要

Kaggle——Deep Learning(使用 TensorFlow 和 Keras 为结构化数据构建和训练神经网络)

1.单个神经元 创建一个具有1个线性单元的网络 #线性单元from tensorflow import kerasfrom tensorflow.keras import layers#创建一个具有1个线性单元的网络model=keras.Sequential([layers.Dense(units=1,input_shape=[3])]) 2.深度神经网络  构建

Python学习从0开始——Kaggle机器学习004总结2

Python学习从0开始——Kaggle机器学习004总结2 一、缺失值二、分类变量2.1介绍2.2实现1.获取训练数据中所有分类变量的列表。2.比较每种方法方法1(删除分类变量)方法2(序数编码)方法3独热编码 三、管道3.1介绍3.2实现步骤1:定义预处理步骤步骤2:定义模型步骤3:创建和评估管道 四、交叉验证1.介绍2.什么时候应该使用交叉验证?3.使用 五、XGBoost5.1

kaggle:房价预测

比赛链接 结果展示 结果链接 8848是密码 文章目录 数据处理调包部分拒绝掉包岭回归理论代码实践结果 自助采样理论代码 集成学习前言Bagging理论Bagging-Ridge代码Bagging-Ridge实践Bagging-Ridge结果 Tricks 数据处理 #打开文件import pandas as pddataset1=pd.read_csv("train.

kaggle竞赛实战7——其他方案之lightgbm

本文换种方案,用wrapper+lightgbm建模+TPE调优 接下来是特征筛选过程,此处先择使用Wrapper方法进行特征筛选,通过带入全部数据训练一个LightGBM模型,然后通过观察特征重要性,选取最重要的300个特征。当然,为了进一步确保挑选过程的有效性,此处我们考虑使用交叉验证的方法来进行多轮验证。实际多轮验证特征重要性的过程也较为清晰,我们只需要记录每一轮特征重要性,并在最后进行简

Kaggle线上零售 CRM分析(RFM+BG-NBD+生存分析+PySpark)

数据集地址:数据集地址 我的NoteBook地址:NoteBook地址 这个此在线零售数据集包含2009年12月1日至2011年12月9日期间的在线零售的所有交易。该公司主要销售独特的各种场合礼品。这家公司的许多客户都是批发商。本文将通过pyspark对数据进行导入与预处理,进行可视化分析并使用RFM、生存分析与BG-NBD模型进行对购买客户的各项分析。 1、数据集导入与清洗预处理 这一部分我

机器学习-11-使用kaggle命令下载数据集和操作指南

参考kaggle API 命令下载数据集 参考Kaggle操作完整指南(2023版) 参考Kaggle如何入门? 1 kaggle操作指南 Kaggle 是一个流行的数据科学竞赛平台。由 Goldbloom 和 Ben Hamner 创建于 2010 年。为什么这两个家伙要创立这样一个平台呢? 数据科学社区一直有这样一个难题:对于同一个问题,可以有多个模型来解决,但是研究者不可能在一开始就了解

kaggle竞赛实战3

接前文,本文主要做以下几件事: 1、把前面处理完的几个表拼成一个大表 2、做特征衍生(把离散特征和连续特征两两组合得出) # In[89]: #开始拼接表 transaction = pd.concat([new_transaction, history_transaction], axis=0, ignore_index=True)#最后一个参数表示产生新的索引 # In[91]

[Kaggle]Digit Recognizer

地址:https://www.kaggle.com/c/digit-recognizer 这同样是一道入门的KAGGLE题目。题目大意是给出一系列的灰度图像(用CSV表格表示像素),来预测该图像是何种数字。这是一个比较经典的图片,对应的方法有很多。可以使用传统的机器学习算法来进行计算,也可以使用深度学习的方法进行。在这一次我使用的是机器学习的SVC(线性支持分类器)来进行处理的。 第一步依然是

[Kaggle]House Prices: Advanced Regression Techniques

1、背景说明 2、前期准备 3、程序设计 4、知识点说明 5、测试结果 6、总结 7、附录:解释特征 1、背景说明 1.1 项目名称: House Prices_Advanced Regression Techniques https://www.kaggle.com/c/house-prices-advanced-regression-techniques 1.2 实现目

在kaggle中的notebook 如何自定义 cuda 版本以及如何使用自定义的conda或python版本运行项目(一)

问题 第一部分 当前kaggle中带有gpu的notebook 默认的cuda 是12.1版本,如果我要跑一个项目是11.3的,如何将默认的cuda 改为自己需要的cuda 11.3 方法 step1 从官网下载需要的版本cuda run 文件(如cuda 11.3) 在nvidia cuda 下载官网上找到我们需要的.run 文件(虽然kaggle里的系统不是centos,但是我们选择

Kaggle赛题总结:Enefit - Predict Energy Behavior of Prosumers

文章目录 比赛介绍赛题任务评估指标数据集描述优胜方案第1名第6名第7名第10名第13名 内容分享冠军tricktrick应用获胜方案里对trick的应用模型特征工程在线学习小结

kaggle竞赛实战1

我们最终的目标是要打比赛、进大厂,因此在熟悉了基本模型后先来看看比赛怎么做的,本文以Elo Merchant Category Recommendation | Kaggle 为样例进行介绍。 首先注意使用kaggle要全程“科学上网”,否则在注册、下载数据等环节都会出现页面挑不出来的情况 这一部分讲数据的缺失值、异常值及样本数据一致性情况探索,具体代码如下: # In[1]: imp

动手学机器学习15 实战kaggle比赛

动手学机器学习15 实战kaggle比赛 1. 实战kaggle比赛:预测房价代码结果 2. 课程竞赛:加州2020年房价预测3. QA4. 用到的代码1. hashlib.sha1()2. sha1.update(data)3. train_data.iloc4. fillna(0)5. pd.get_dummies()6. nn.MSELoss()7. torch.clamp() tor

kaggle中Titanic学到的知识

DataFrame.info()  输出dataframe的信息。 notebook作图时,如何显示张中文plt.rc('font',family='SimHei',size=6) dataframe中如果已经知道某些行的索引值,例如想替换age列中,为空的那些值 df.loc[(df.Age.isnull(),'age')] dataframe选择某些列拼接成一个

【Kaggle】练习赛《洪水数据集的回归预测》(上)

前言 关于 kaggle 月赛也不多说明,前面两篇《肥胖风险的多类别预测》和 《鲍鱼年龄预测》 已做详细说明。分别是一个分类模型和一个回归模型。本期是2024年5月份的题目《Regression with a Flood Prediction Dataset 》即《洪水数据集的回归预测》,本以为回归模型,与前一篇差不多,没有什么新意,也想写有没有写这篇文章的必要。可随着参与这竞赛后,发现与我之前

利用pytorch两层线性网络对titanic数据集进行分类(kaggle)

利用pytorch两层线性网络对titanic数据集进行分类 最近在看pytorch的入门课程,做了一下在kaggle网站上的作业,用的是titanic数据集,因为想搭一下神经网络,所以数据加载部分简单的把训练集和测试集中有缺失值的列还有含有字符串的列去除了,加入了DataLoader模块,其实这个数据集很小,用不到,本人还没入门,小白一枚。 import torch from torch.

一文全面了解 Kaggle 平台:数据科学和机器学习的理想之地

🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 在数据科学(Data Science)领域,Kaggle 可以称得上是一座人人都想挑战的高峰。Kaggle 是一个国际知名的数据科学竞赛平台,由 Anthony Goldbloom 和 Ben Hamner 于 2010 年在墨尔本创立,并在 2017 年被 Google 收购,现为 Google Cl

kaggle之皮肤癌数据的深度学习测试

kaggle之皮肤癌数据的深度学习测试 近期一直在肝深度学习 很久之前,曾经上手搞过一段时间的深度学习,似乎是做轮胎花纹的识别,当初用的是TensorFlow,CPU版本的,但已经很长时间都没弄过了 现在因为各种原因,不得不重新开始。因为设备限制,深度学习的GPU环境一直没搭好,为了快速开始,不得不继续使用CPU版本 我用的是kaggle提供的皮肤癌的数据集,地址在这里,下载的话,需要注册

金融风控信用评分卡建模(Kaggle give me credit数据集)

1 数据预处理数据 数据来源于Kaggle的Give Me Some Credit,包括25万条个人财务情况的样本数据 1.1 导包读数据 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble import RandomForestRegressorimp

kaggle 泰坦尼克号2 得分0.7799

流程 导入所要使用的包引入kaggle的数据集csv文件查看数据集有无空值填充这些空值提取特征分离训练集和测试集调用模型 导入需要的包 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarni