文本挖掘之降维技术之特征提取之因子分析（FA）

本文主要是介绍文本挖掘之降维技术之特征提取之因子分析（FA），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

因子分析法（FA）

因子分析法是通过将原有变量内部的相互依赖关系进行数据化，把大量复杂关系归为少量的几个综合因子的统计方法。它的基本思想是通过分析各变量之间的方差贡献效果，将大的即相关性高的联系比较紧密的分在同一个类别中，而不同类的则相关性是比较低的，这其中一个类别描述了一种独立结构，这个结构在因子分析法中叫做公共因子。这个方法的研究目的就是尝试使用少数几个不可测的通过协方差矩阵计算得来的公共因子进行组合来描述每一个变量以及各变量之间的关系。

因子分析的核心问题有两个：一是如何构造公共因子；二是如何对公共因子进行解释。对此，因子分析的基本思路就基于这两个问题展开。
常见的因子分析使用以下几个基本步骤：
步骤 1. 对信息数据进行标准化、归一化处理。
步骤 2. 计算空间向量矩阵的相关矩阵 R。
步骤 3. 求 R 的特征根以及特征向量。
步骤 4. 根据使用要求统计方差贡献率以确定公共因子个数。
步骤 5. 计算因子的载荷矩阵 A。
步骤 6. 求出公共因子矩阵并进行选择降维。
步骤 7. 基于结果数据，分析系统的效果。

建立因子分析模型，找出了公共因子，选择了主因子后，可用于后续的数据计算。但更重要的是解释每个因子的意义，以便对实际问题进行分析。如果主因子不足以进行数据的信息解释，不具有突出的特点，则还需要进行因子的旋转，因子分析法基于本身的可旋转特征，可以最终求得比较有效的主因子。
旋转的方法有很多，正交旋转（orthogonal rotation）和斜交旋转（oblique rotation）
是因子旋转的两类方法。本文使用的旋转方法是最大方差正交旋转法（Varima），这种
方法在因子分析中非常常用。通过多次因子旋转，使得载荷矩阵中因子的载荷向两个极
端进行偏移，一个更大，一个更小。在因子旋转过程中，如果因子使用的轴是相互之间
正交的，为正交旋转法，如果不是正交的就是斜交旋转法。

因子分析基于这样的思想：根据相关性即协方差的大小将变量进行区分与分组，使同一组的相关性较高，而不同组之间相关性较低。