多元统计分析——基于R的笔记本电脑价格与参数可视化

本文主要是介绍多元统计分析——基于R的笔记本电脑价格与参数可视化，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

注：能力有限，存在不足之处。

现如今，笔记本电脑现在已经成为了我们日常生活中所必备的一种工具，使用笔记本既可以为我们在学习上带来便利也可以在为我们在工作上带来便利，但是笔记本的价格与许多参数有关，因此，关于笔记本的价格与参数，展开研究。

一、提出问题（要解决或分析的问题）

1、根据笔记本电脑参数预测价格

2、笔记本电脑的参数为什么区别大

二、数据来源及选取方法

数据集来源：kaggle（Laptop price predictor | Kaggle）。

数据集说明：该数据集的上传时间为2019年，因此可以说该数据集是关于2019年印度四大笔记本制造商的笔记本电脑（intel处理器）的参数与销售价格。

选取方法：根据提出的问题，选择作图分析的方法以及利用主成分回归分析对价格进行预测的方法。

三、数据可视化分析

3.1数据信息基本描述

#导入数据集
data <- read.csv('C:\\Users\\leglon\\Desktop\\假期r\\1\\多元统计分析\\期末1\\laptop_pricing.csv')
#查看并修改列名，便于操作
colnames(data) <- c("Manufacturer","Series","IntelCoreGen","processingSpeed","Ram","HDD","SSD","Graphics","ScreenSize","Price")
#查看数据集的基本信息
data$Manufacturer <- factor(data$Manufacturer,levels = c("Dell","HP","ASUS","Lenovo"),labels = c(0,1,2,3))
data$Manufacturer <- as.numeric(data$Manufacturer)
head(data)
str(data)
summary(data)

数据集中各参数的解释如下：

其中，SSD为0表示没有固态硬盘只有机械硬盘；Graphics为0表示没有独立显卡，显存为0。

3.2 采用的多元分析方法

主成分分析法：主成分分析（PCA）的目标是用一组较少的不相关变量代替大量相关变量，同时尽可能保留初始变量的信息，这些推导所得的变量称为主成分，它们是观测变量的线性组合。假如此时有第一主成分为：

PC1 = a1X1 + a2X2 + … + akXk

它是k个观测变量的加权组合，对初始变量集的方差解释性最大。第二主成分也是初始变量的线性组合，对方差的解释性排第二，同时与第一主成分正交（不相关）。后面每一个主成分都最大化它对方差的解释程度，同时与之前所有主成分都正交。理论上来说我们可以与变量数相同的主成分，但从实用的角度来看，我们更希望能用较少的主成分来近似全变量集。

3.3数据可视化分析结果及解释

（1）不同品牌的笔记本数量

brand <- factor(data$Manufacturer,labels = c("Dell","HP","ASUS","Lenovo"),levels = c(1,2,3,4))
plot(brand,main = "不同品牌的笔记本数量",xlab = "笔记本制造商",ylab = "笔记本数量")
#可以看出，该地区HP和Lenovo两个品牌的电脑型号较多，而ASUS以及Dell品牌的笔记本电脑较少

（2）固态与机械硬盘可视化

hdd <- table(data$HDD);hdd
ssd <- table(data$SSD);ssd
opar <- par(mfrow = c(1,2))
barplot(hdd,main = "机械硬盘",xlab = "机械硬盘大小（Gb）", ylab = "配备数量")
barplot(ssd,main = "固态硬盘",xlab = "固态硬盘大小（Gb）", ylab = "配备数量")
par(opar)

如图，该地区的笔记本电脑大多数都配备了1000Gb的机械硬盘，并且大多数电脑没有配备固态硬盘。

（3）笔记本电脑配备可视化


opar <- par(mfrow = c(2,2))
barplot(table(data$Ram),main = "内存配备图",xlab = "内存大小）", ylab = "配备数量")
barplot(table(data$Graphics),main = "独显显存",xlab = "显存大小", ylab = "配备数量")
barplot(table(data$ScreenSize),main = "屏幕尺寸配备图",xlab = "屏幕尺寸", ylab = "配备数量")
par(opar)

如图，当地笔记本电脑配备的不同内存、独显、屏幕尺寸如图，可以看出，大多数配置都在中下水平。

（4）不同销售商的笔记本电脑价格可视化


x <- data[order(data$Price), ] #排序
x$color[x$Manufacturer == 1] <- "red"
x$color[x$Manufacturer == 2] <- "blue"
x$color[x$Manufacturer == 3] <- "green"
x$color[x$Manufacturer == 4] <- "pink"
x$color 
dotchart(x$Price, labels = row.names(x), cex = 0.8, pch = 11, groups = x$Manufacturer, gcolor = "black", color = x$color, main = "不同销售商的笔记本电脑价格", xlab = "价格（卢比）")

如图，该地区HP和Lenovo两个笔记本制造商发售的笔记本型号最多。还可以看出不同销售商的笔记本电脑价格，其中红色为Dell，蓝色为HP，绿色为ASUS，粉色为Lenovo，其中，ASUS有着价格最高的电脑。

3.4 做主成分可视化分析

# 进行主成分分析
PCA <- princomp(data,cor = TRUE);summary(PCA)
#前四个主成分累积贡献率达到85%，第四主成分的标准差也接近1
#碎石图
screeplot(PCA,type="lines")
#选择前四个主成分，达到了降维的目的

根据碎石图和特征值，选择了前四个主成分做主成分回归分析，进行模型测试。


# 主成分载荷
PCA$loadings
c <- cor(data);eigen(c)#主成分回归
pre<-predict(PCA)
data$z1<-pre[,1]
data$z2<-pre[,2]
data$z3<-pre[,3]
data$z4<-pre[,4]
data.lm<-lm(data$Price~z1+z2+z3+z4, data=data)
summary(data.lm)
#根据主成分分析的结果，F检验对应P值 = 5.535e-15，并且调整后的R平方为0.9386  ，模型通过了检验，可以认为模型的拟合效果较好。#对主成分模型作变换, 得到原坐标下的关系表达式：
beta<-coef(data.lm); A<-loadings(PCA)
x.bar<-PCA$center; x.sd<-PCA$scale
coef<-(beta[2]*A[,1]+ beta[3]*A[,2]+ beta[4]*A[,3]+beta[5]*A[,4])/x.sd
beta0 <- beta[1]- sum(x.bar * coef)
c(beta0, coef)
#得到的关系表达式为：
#Price = -323912.8 - 5313.315 * Manufacturer + 593.7563 * Series - 2284.516 * IntelCoreGen + 11652.16 * processingSpeed + 4293.208 * Ram 
# - 4.322066 * HDD + 37.29517 * SSD + 5564.728 * Graphics + 21796.82 * ScreenSize#测试模型，用第一组数据预测价格
Price = -323912.8 - 5313.315 * 1 + 593.7563 * 3 - 2284.516 * 7 + 11652.16 * 2.29 + 4293.208 * 4 - 4.322066 * 1000 + 37.29517 * 0 + 5564.728 * 0 + 21796.82 * 15.6
Price / 39057 #第一组的准确率为92.5%

根据主成分分析的结果，F检验对应P值 = 5.535e-15，并且调整后的R平方为0.9386 ，模型通过了检验，可以认为模型的拟合效果较好。

对主成分模型作变换, 得到原坐标下的关系表达式系数：

使用第一组数据对模型进行测试，结果如下：

如图，测试的结果有92.5%的准确率。

四、讨论和小结：联系实际，分析问题（对应第一部分提出的问题）

1、根据分析，在使用主成分回归的方法后，得到了回归模型，并利用数据对笔记本电脑的价格进行了预测。可以说明，笔记本电脑的价格Manufacturer（笔记本制造商），Series（intel处理器系列），IntelCoreGen（intel处理器核心）， processingSpeed（处理器主频）， Ram（内存）， HDD（机械硬盘）， SSD（固态硬盘）， Graphics（显存大小）， ScreenSize（屏幕尺寸）之间有关系，但我认为该模型还可以再添加其他的参数，如散热水平，音质等，这些我认为也是影响笔记本电脑价格的因素。

2、根据作图分析，以intel处理器的笔记本电脑为例，印度地区在2019年发售最多的笔记本电脑品牌是HP与Lenovo，而剩下的Dell与ASUS发售的款式较少，其中Dell发售的款式售价都较低，或许主打的是低端市场，而ASUS发售的款式价格有低的也有高的，面向了更多的用户。

而发售机型较多的HP与Lenovo，然用户有了更多选择的空间。用户也可能会考虑到不同制造商的口碑，来选择是否购买产品，而制造商也会因为口碑来调整产品的价格。

在这四家厂商发售的电脑中，大多数笔记本电脑都配备了机械硬盘而没有配备固态硬盘，固态硬盘比机械硬盘有着更快的速度，但价格也更贵，可以看出配备了固态硬盘的笔记本电脑价格都比较高，内存与它相同，内存越大，笔记本电脑的价格也越高。可以看出，厂商们在选择了中等容量的内存条以及机械硬盘的时候，就是考虑到了印度的消费水平，这也解释了为什么笔记本电脑的参数为什么区别大，用户可以通过后期自行升级内存与硬盘的方式来得到更好的体验，同时满足了客户对价格与配置的需求。

这篇关于多元统计分析——基于R的笔记本电脑价格与参数可视化的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！