PCA和Softmax学习

本文主要是介绍PCA和Softmax学习，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

PCA和Softmax学习

老师上课说PCA（主成分分析）简单，不用讲，简单是简单，但也要看看，主要就是看fuldl上的教程，然后自己推导和matlab实现。

PCA

pca算法

pca是一种降维方法，可以看做是逐一取方差最大方向，就是对协方差矩阵做特征值分解，取最大特征值所对应的方向。算法描述如下：

1 对所有样本进行中心化： $x_{i}$ <— $x_{i}-\frac{1}{m}\sum_{i=1}^{m}x_{i}$
2 计算样本的协方差矩阵 $XX^{T}$
3 对协方差矩阵 $XX^{T}$ 做特征值分解
4 取最大的 $d^{'}$ 个特征值所对应的特征向量 $w_{1},w_{2},w_{3},···,w_{d^{'}}$
5 使用特征向量乘以原始数据得到旋转数据 $x_{rot}=U^{'}x$ ，如果实现降维，则使用 $\widetilde x=U(1:k)^{'}x$
代码如下：

sigma = x * x' / size(x,2);  %协方差矩阵
[u, s, v] = svd(sigma); %求特征
xRot = u' * x;  %数据旋转后的结果
%降维
u(:,2) = 0;
xHat = u' * x;

PCA白化

白化是为了实现：
1 特征之间相关性较低
2 所有特征具有相同的方差

在使用pca降维时，需要计算协方差的特征向量，它们之间是不相关的。为了满足特征具有相同的方差，则使用 $\frac{1}{\sqrt{\lambda}}$ ， $\lambda$ 为特征向量，即 $x_{PCAwhite,i}=\frac{x_{rot,i}}{\lambda_{i}}$ . 这样就 $s.t. W^{T}W=I$

ZCA白化

ZCA是使旋转尽可能的接近原始数据，在使用时一般保留n个维度。

对于两种白化的实现，由于当特征值 $\lambda$ 可能为接近0的数，这使得 $\frac{1}{\sqrt{\lambda}}$ 为无限大，则需要给 $\lambda$ 加上 $\epsilon$ .具体代码实现如下：

epsilon = 1e-5;
xPCAWhite = diag(1./sqrt(diag(s) + epsilon)) * u' * x;
xZCAWhite = u * diag(1./sqrt(diag(s) + epsilon)) * u' * x;

对于教程后面的练习题，第一个照着公式撸就好了，第二个主要代码如下：

%% Step 0b: Zero-mean the data (by row)
%为每个图像计算像素强度的均值
avg = mean(x, 1);  %每列为一张图片
x = x - repmat(avg, size(x,1), 1);%% Step 1a: Implement PCA to obtain xRot
sigma = x * x' / size(x,1);
[s, u, v] = svd(sigma);
xRot = u' * x;%% Step 1b: Check your implementation of PCA
covar = u;%% Step 2: Find k, the number of components to retain
k = ceil(size(u,1) * 0.99); % 99%向上取整%% Step 3: Implement PCA with dimension reduction
u(:, k + 1:end) = 0;
xHat = u' * x;%% Step 4a: Implement PCA with whitening and regularisation
epsilon = 0.1;
xPCAWhite = zeros(size(x));%% Step 4b: Check your implementation of PCA whitening 
epsilon = 0.1;
covar = covar + epsilon;%% Step 5: Implement ZCA whitening 
epsilon = 0.1;
xZCAWhite = u * diag(1./(diag(u) + epsilon)) * u' * x;

Softmax回归

Softmax回归是解决多分类问题，和logistic类似（logistic是解决二分类问题）。

对于训练集 $\{ (x^{1,y^{1})},...(x^{m},y^{m})\}$ ,其中x为特征，y为类标，k为类别个数， $y^{i}\in\{1,2,...k\}$ .
hypothesis 如下：

h θ (x i) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ p (y i = 1 | x i; θ) p (y i = 2 | x i; θ) . . . p (y i = k | x i; θ) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = 1 \sum k j = 1 e θ T j x i ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ e θ T 1 x i e θ T 2 x i . . . e θ T k x i ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$h_{\theta}(x^{i})= \begin{bmatrix} p(y^i=1|x^i;\theta) \\ p(y^i=2|x^i;\theta) \\...\\ p(y^i=k|x^i;\theta) \end{bmatrix} =\frac{1}{\sum_{j=1}^{k}e^{\theta_{j}^{T}x^{i}}} \begin{bmatrix} e^{\theta_{1}^{T}x^{i}}\\ e^{\theta_{2}^{T}x^{i}}\\...\\ e^{\theta_{k}^{T}x^{i}} \end{bmatrix}$

代价函数为：

J (θ) = - 1 m ⎡ ⎣ \sum i = 1 m \sum j = 1 k 1 {y i = j} l o g e θ T j x i \sum k l = 1 e θ T l x i ⎤ ⎦ + λ 2 \sum i = 1 k \sum j = 0 n θ 2 i j

$J(\theta)=-\frac{1}{m} \begin{bmatrix} \sum_{i=1}^{m}\sum_{j=1}^{k}1\{y^{i}=j\}log\frac{e^{\theta_{j}^{T}x^{i}}}{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{i}}} \end{bmatrix} +\frac{\lambda}{2} \sum_{i=1}^{k}\sum_{j=0}^{n}\theta_{ij}^{2}$

梯度公式如下：

\nabla θ j J (θ) = - 1 m \sum i = 1 m [x i (1 {y i = j} - p (y i = j | x i; θ))] + λ θ j

$\nabla_{\theta_j}J(\theta)= -\frac{1}{m} \sum_{i=1}^{m} \begin{bmatrix} x^{i}(1\{y^i=j\}-p(y^i=j|x^i;\theta)) \end{bmatrix} +\lambda\theta_{j}$

上述公式都是ufldl中给出的，现在给出梯度的推导：

\nabla θ J (θ) = - 1 m \nabla ⎡ ⎣ \sum i = 1 m \sum j = i k 1 {y i = j} l o g e θ T j x i \sum k l = 1 e θ T l x i ⎤ ⎦ = - 1 m \nabla ⎡ ⎣ \sum i = 1 m 1 {y i = j} l o g e θ T j x i \sum k l = 1 e θ T l x i + \sum c \neq j k 1 {y c = j} l o g e θ T c x i \sum k l = 1 e θ T l x i ⎤ ⎦

$\begin{align*} \nabla_{\theta}J(\theta)&= -\frac{1}{m} \nabla \begin{bmatrix} \sum_{i=1}^{m}\sum_{j=i}^{k}1\{y^{i}=j\}log\frac{e^{\theta_{j}^{T}x^{i}}}{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{i}}} \end{bmatrix}\\ &= -\frac{1}{m} \nabla \begin{bmatrix} \sum_{i=1}^{m} 1\{y^{i}=j\}log\frac{e^{\theta_{j}^{T}x^{i}}}{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{i}}} +\sum_{c\neq{j}}^{k} 1\{y^{c}=j\}log\frac{e^{\theta_{c}^{T}x^{i}}}{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{i}}} \end{bmatrix} \end{align*}$
由于：

\nabla θ j l o g e θ T j x i \sum k l = 1 e θ T l x i = \nabla θ T j x i - \nabla l o g \sum l = 1 k e θ T l x i = x i - 1 \sum k l = 1 e T l x i * e T l x i * x i (1.1)

$\begin{align*} \nabla_{\theta_{j}} log\frac{e^{\theta_{j}^{T}x^{i}}} {\sum_{l=1}^{k} e^{\theta_{l}^{T} x^{i}}} &=\nabla\theta_{j}^{T}x^{i} - \nabla log\sum_{l=1}^{k} e^{\theta_{l}^{T} x^{i}}\\ &=x^i - \frac{1}{\sum_{l=1}^{k} e_{l}^{T}x^{i}} * e_{l}^{T}x^{i} * x^i \tag{1.1} \end{align*}$

\nabla θ j l o g e θ T c x i \sum k l = 1 e θ T l x i = \nabla θ T c x i - \nabla l o g \sum l = 1 k e θ T l x i = - 1 \sum k l = 1 e T l x i * e T l x i * x i (1.2)

$\begin{align*} \nabla_{\theta_{j}} log\frac{e^{\theta_{c}^{T}x^{i}}} {\sum_{l=1}^{k} e^{\theta_{l}^{T} x^{i}}} &= \nabla \theta_{c}^{T}x^{i} - \nabla log\sum_{l=1}^{k} e^{\theta_{l}^{T} x^{i}}\\ &= -\frac{1}{\sum_{l=1}^{k} e_{l}^{T}x^{i}} * e_{l}^{T}x^{i} * x^i \tag{1.2} \end{align*}$
在（1.2）中

c≠j $c\neq j$ 则，

∇θTcxi $\nabla \theta_{c}^{T}x^{i}$ 等于0
由于在

yi $y^i$ 中，只存在一个j使得

yi=j(j∈k) $y^i = j(j\in{k})$ ，则

∑kc≠j1{yc=j}=1−1{yi=j} $\sum_{c\neq{j}}^{k} 1\{y^{c}=j\} = 1-1\{y^i=j\}$

把（1.1）（1.2）带入第一个式子可得

- 1 m \nabla [\sum i = 1 m 1 {y i = j} l o g e θ T j x i \sum k l = 1 e θ T l x i + \sum c \neq j k 1 {y c = j} l o g e θ T c x i \sum k l = 1 e θ T l x i] = - 1 m \sum i = 1 m [1 {y i = j} * (x i - 1 \sum k l = 1 e T l x i * e T l x i * x i) + (1 - 1 {y i = j}) * - 1 \sum k l = 1 e T l x i * e T l x i * x i] = - 1 m \sum i = 1 m [x i * (1 {y i = j} - 1 {y i = j} * e T l x i \sum k l = 1 e T l x i) + (- e T l x i \sum k l = 1 e T l x i + 1 {y i = j} * e T l x i \sum k l = 1 e T l x i) = - 1 m \sum i = 1 m [x i (1 {y i = j} - p (y i = j | x i; θ))]

$\begin{align*} & -\frac{1}{m} \nabla \bigg[\sum_{i=1}^{m} 1\{y^{i}=j\}log\frac{e^{\theta_{j}^{T}x^{i}}}{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{i}}} +\sum_{c\neq{j}}^{k} 1\{y^{c}=j\}log\frac{e^{\theta_{c}^{T}x^{i}}}{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{i}}}\bigg]\\ & =-\frac{1}{m} \sum_{i=1}^{m} \bigg[ 1\{y^{i}=j\} *(x^i - \frac{1}{\sum_{l=1}^{k} e_{l}^{T}x^{i}} * e_{l}^{T}x^{i} * x^i) +(1-1\{y^i=j\}) * -\frac{1}{\sum_{l=1}^{k} e_{l}^{T}x^{i}} * e_{l}^{T}x^{i} * x^i\bigg]\\ & = -\frac{1}{m} \sum_{i=1}^{m} \bigg[x^i * (1\{y^{i}=j\} - 1\{y^{i}=j\} * \frac{e_{l}^{T}x^{i}}{\sum_{l=1}^{k} e_{l}^{T}x^{i}}) + (-\frac{e_{l}^{T}x^{i}}{\sum_{l=1}^{k} e_{l}^{T}x^{i}} + 1\{y^{i}=j\} * \frac{e_{l}^{T}x^{i}}{\sum_{l=1}^{k} e_{l}^{T}x^{i}})\\ & =-\frac{1}{m} \sum_{i=1}^{m} \begin{bmatrix}x^{i}(1\{y^i=j\} - p(y^i=j|x^i;\theta)) \end{bmatrix} \end{align*}$

第一次使用lateX公式编辑，公式写的有点乱。
最后就是matlab实现，主要代码如下：

%softmaxCost.m
%计算hypothesis
exp0 = exp(theta * data);  %10 * 100
h = exp0./repmat(sum(exp0), numClasses, 1);%计算代价 权重衰减项
cost = -1 / numCases * sum(sum((groundTruth.*log(h)))) + lambda / 2 * (sum(sum(theta.^2)));%计算梯度
thetagrad = -1 / numCases * ((groundTruth - h)*data') + lambda * theta;%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%softmaxPredict.m
numClasses = softmaxModel.numClasses;
%预测
exp0 = exp(theta * data);
h = exp0./repmat(sum(exp0), numClasses, 1);%预测结果， 概率最大的那个
[m, i] = max(h);  %按列比较
pred = i;

最后得到测试准确率为：92.640%
这里写图片描述

为了清洗的查看错误的结果，对识别错误的数字可视化：

%可视化出错结果
view = find(sparse(labels(:) ~= pred(:)))';
visualization(images(:,view), 28);
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%visualization.m
function visualization(data, pSize)
%可视化图
%data   输出数据
%pSize  图像尺寸fsize = 10; %显示10*10张图片
figure(1);%循环绘制子图
for i = 1: fsize * fsizesubplot(fsize, fsize, i);imshow(reshape(data(:,i), pSize, pSize));
endend