本文主要是介绍独家 | 用随机森林预测“美版拼多多”商品销量,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
作者:Andrew Udell
翻译:王闯(Chuck)
校对:廖倩颖
本文约2200字,建议阅读8分钟
作者基于Kaggle上的Wish数据集,用Python演示了随机森林回归预测商品销量的方法,对于读者分析和解决此类问题是很好的借鉴。
照片来源rupixen.com
数据集
为了演示随机森林回归,我们这里会用到当下非常流行的Wish(“美版拼多多”)的电商销售数据集。数据集来自Kaggle,仅包含夏季服装的销售信息。其属性包括产品说明,评价,是否使用了广告宣传,是否在产品列表中添加了“手慢无”标语以及已售出的商品数量等。
我们采用随机森林回归这一利器来预测商品的销量。一个好的,准确的预测不但对于库存计划人员的工作有非常大的价值,因为他们需要估计订购或者生产多少产品,而且对于销售人员理解产品在电商平台的表现也是至关重要的。
数据导入和清理
所有数据的导入和操作都将通过python及其pandas和numpy库来完成。
import pandas as
pdimport numpy as np# import the data saved as a csv
df = pd.read_csv("Summer_Sales_08.2020.csv")
前两行分别导入pandas和numpy库。最后一行读入前先保存过并重命名为“ Summer_Sales_08.2020”的CSV文件,并创建了一个数据框。
df["has_urgency_banner"] = df["has_urgency_banner"].fillna(0)df["discount"] = (df["retail_price"] - df["price"])/df["retail_price"]
“has_urgency_banner”这一列表示产品列表中是否使用了“手慢无”标语,在查看数据时发现这一列的编码方式不是很合适。这里并没有采用通常的1和0编码,而是在没有使用标语时留空。代码第一行我们用0填充这些空白。
代码第二行创建名为“折扣”的新的一列,该列计算实际销售价和建议零售价之间的折扣。
这篇关于独家 | 用随机森林预测“美版拼多多”商品销量的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!