霍特林分布matlab,【MATLAB机器学习系列】——主成份分析(PCA)在量化投资中的应用...

本文主要是介绍霍特林分布matlab,【MATLAB机器学习系列】——主成份分析(PCA)在量化投资中的应用...，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

原标题：【MATLAB机器学习系列】——主成份分析(PCA)在量化投资中的应用

编辑部

我们会再接再厉

PAC 核心思想

PCA 算法也叫主成分分析(principal components analysis)，用来减少数据集的维数，同时保留数据集中对方差贡献最大的特征来达到简化数据集的目的。其核心思想就是将 n 维特征映射到 k 维上(k < n)，这 k 维是全新的正交特征。我们将这 k 维成为主元，是重新构造出来的 k 维特征，而不是简单地从 n 维特征中取出其余 n-k 维特征。

PCA 几何意义

在PCA中，数据从原来的坐标系转换到新的坐标系下，新的坐标系的选择与数据本身是密切相关的。其中，第一个新坐标轴选择的是原始数据中方差最大的方向，第二个新坐标轴选取的是与第一个坐标轴正交且具有最大方差的方向，依次类推，我们可以取到这样的 k 个坐标轴。

0维-PCA：将所有样本信息都投影到一个点，因此无法反应样本之间的差异；要想用一个点来尽可能的表示所有样本数据，则这个点必定是样本的均值。

1维-PCA：相当于将所有样本信息向样本均值的直线投影；

2维-PCA：将样本的平面分布看作椭圆形分布，求出椭圆形的长短轴方向，然后将样本信息投影到这两条长短轴方向上，就是二维PCA。(投影方向就是平面上椭圆的长短轴方向)；

3维-PCA：样本的平面分布看作椭圆形分布，投影方法分别是椭圆球的赤道半径a和b，以及是极半径c(沿着z轴)；

PCA 理论基础

最大方差理论

如何在降维后最大程度保留原有的信息呢？这就要基于最大方差理论来解决这个问题。

信号处理中认为信号(Signal)具有较大的方差，噪声(Noise)有较小的方差，信噪比就是信号与噪声的方差比，越大越好。

因此我们认为，最好的 k 维特征既是将 n 维样本点转换为 k 维后，每一维上的样本方差都很大。

如下图所示：