当数据的维度很高时,很多机器学习问题变得相当困难,这种现象被称为维度灾难(curse of dimensionality)。 在很多实际的问题中,虽然训练数据是高维的,但是与学习任务相关也许仅仅是其中的一个低维子空间,也称为一个低维嵌入,例如:数据属性中存在噪声属性、相似属性或冗余属性等,对高维数据进行降维(dimension reduction)能在一定程度上达到提炼低维优质属性或降噪的效果。
主成分分析最大方差理论 主成分分析(PCA)目标是找到数据中的主成分,并利用这些主成分表征原始数据,因而做到降维。 在信号领域,认为信号具有较大的方差,噪声具有较小的方差,信号与噪声之比称为信噪比,信噪比越大意味着数据质量也就越好。进而可以采用最大化投影方差的方法实现PCA的目标。 给定一组数据点 { v 1 , v 2 , ⋯   , v n } \{v_1,v_2,\cd
作者:Adrian Tam, Ray Hong, Jinghan Yu, Brendan Artley;翻译:汪桉旭;校对:吴振东 本文约3300字,建议阅读5分钟本文教你了解了如何使用主成分分析来可视化数据。 主成分分析是一种无监督的机器学习技术。可能它最常见的用处就是数据的降维。主成分分析除了用于数据预处理,也可以用来可视化数据。一图胜万言。一旦数据可视化,在我们的机器学习模型中就可以更容