当数据的维度很高时,很多机器学习问题变得相当困难,这种现象被称为维度灾难(curse of dimensionality)。 在很多实际的问题中,虽然训练数据是高维的,但是与学习任务相关也许仅仅是其中的一个低维子空间,也称为一个低维嵌入,例如:数据属性中存在噪声属性、相似属性或冗余属性等,对高维数据进行降维(dimension reduction)能在一定程度上达到提炼低维优质属性或降噪的效果。
主成分分析最大方差理论 主成分分析(PCA)目标是找到数据中的主成分,并利用这些主成分表征原始数据,因而做到降维。 在信号领域,认为信号具有较大的方差,噪声具有较小的方差,信号与噪声之比称为信噪比,信噪比越大意味着数据质量也就越好。进而可以采用最大化投影方差的方法实现PCA的目标。 给定一组数据点 { v 1 , v 2 , ⋯   , v n } \{v_1,v_2,\cd