机器学习笔记4：Logistic 回归模型

本文主要是介绍机器学习笔记4：Logistic 回归模型，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Logistic回归的基本原理
logistic回归的优化算法

前言：
在分类任务中，我们是通过从输入 $x$ 到输出 $y$ 的映射 $f$ 的模型得出来的：
　　　　　　　　　　　 $\hat{y}=f(x)=arg maxp(y=c|\mathbf{x},D)$
其中，我们定义 $y$ 为离散值，其取值范围称之为标签空间： $y=\left \{ 1,2,..,C \right \}$ ；当 $C = 2$ 为二分类问题，这时候的分布为bernoulli分布，该分布的概率表示：
　　　　　　　　　　　 $p(y|\mathbf{x})=Ber(y|\mu (\textbf{x}))$
其中 $\mu(\mathbf{x})=E(y|\mathbf{x})=p(y=1|\mathbf{x})$
我们复习下Bernoulli分布的概念：
　　Bernoulli分布又称两点分布或0-1分布。若是Bernoulli试验成功，则Bernoulli随机变量 $X$ 取值为1，否则为0。记试验成功的概率为 $\theta$ ，我们称 $X$ 服从参数为 $\theta$ 的Bernoulli分布，记为 $X~Ber(\theta)$ ，概率函数(pmf)为：
　　　　　　　　　　　 $p(x)=\theta^{x}(1-\theta)^{(1-x)}=\begin{Bmatrix} \theta & if x=1 \\ 1-\theta& ifx=0 \end{Bmatrix}$
其中 Bernoulli分布的均值： $\mu=\theta$ ，方差： $\sigma ^{2}=\theta \ast (1-\theta)$

1、logistic的基本原理
Logistic回归模型跟线性回归模型一样，也是线性模型，只是其条件概率 $p(y|\mathbf{x})$ 的形式不同：
　　　　　　　　　　　 $p(y|\textbf{x})=Ber(y|\mu (\textbf{x}))$
　　　　　　　　　　　 $\mu (\textbf{x})=\sigma (\textbf{w}^{T}\textbf{x})$
其中sigmoid函数（S函数，图如下）定义为
　　　　　　　　　　　 $\sigma (a)=\frac{1}{1+exp(-a)}$
　　　　　　　　　　在这里插入图片描述
上述函数我们亦可以称为logistic函数或者logit函数，将实数 $a$ 变切换到[0,1]区间。而且有因为该函数取值在[0,1]区间，所以logistic回归又被称为logit回归。
　　为什么使用logistic函数呢，因为在神经科学中，神经元的对其输入进行加权和： $f(x)=\textbf{w}^{T}\textbf{x}$ ，如果该和大于某个阈值(即: $f(x)>\tau$ )的话，则神经元发放脉冲。而且，在logistic回归中，我们定义Log Odds Radio:
　　　　　 $LOR(\textbf{x})=\log\frac{p(1|\textbf{x},\textbf{w})}{p(0|\textbf{x},\textbf{w})}=\log[\frac{1}{1+exp(-\textbf{w}^{T}\textbf{x})}\frac{1+exp(-\textbf{w}^{T}\textbf{x})}{exp(-\textbf{w}^{T}\textbf{x})}]$
　　　　　　　　　　 $=\log(exp(\textbf{w}^{T}\textbf{x})=\textbf{w}^{T}\textbf{x}$
因此，如果 $LOR(\textbf{x})=\textbf{w}^{T}\textbf{x}>0$ ，则神经元发放脉冲，即 $p(1|\textbf{x},\textbf{w})>p(0|\textbf{x},\textbf{w})$
那么在logistic回归中，当：
　　　　　　　　　 $LOR(\textbf{x})=\textbf{w}^{T}\textbf{x}>0$ 时， $\hat{y}=1$
　　　　　　　　　 $LOR(\textbf{x})=\textbf{w}^{T}\textbf{x}<0$ 时， $\hat{y}=0$
$\textbf{w}^{T}\textbf{x}=0$ 时为决策面。因此 $a(\textbf{x})=\textbf{w}^{T}\textbf{x}$ 为分类决策面，故logistic回归是一个线性分类器。

2、logistic回归的优化算法
我们知道logistic回归的概率函数为： $p(y|\textbf{x})=Ber(y|\mu (\textbf{x}))$ ，则令 $\mu_{i}=\mu(\textbf{x}_{i})$ ，则负log似然为：
　　　　　　　
　　　　　　 $J(\textbf{w})=NLL(\textbf{w})=-\sum_{i=1}^{N}\log[(\mu_{i})^{y_{i}}\ast(1-\mu_{i})^{(1-y_{i})} ]$
　　　　　　　　　　　　　　　 $=\sum_{i=1}^{N}-[y_{i}\log(\mu_{i})+(1-y_{i})\log(1-\mu_{i})]$

极大似然估计等价于最小logistic损失。那么 $J(\textbf{w})$ 的优化求解可以使用梯度下降法或者牛顿法。
（1）梯度下降法
在这里插入图片描述
　　求解
　　其中：
算法与线性回归 $g(\textbf{w})=\sum_{i=1}^{N}(f(\textbf{x}_{i})-y_{i})\textbf{x}_{i}$ 看起来一样，只是 $f (x)$ 不一样，事实上所有的线性回归模型的梯度都是如此。

　　（2）牛顿法
　　牛顿法，其原则是使用函数 $f (x)$ 的泰勒级数的前几项来寻找方程 $f (x) = 0$ 的根。
　　我们知道一阶泰勒展开式： $f(x)=f(x^{t})+{f}'(x^{t})(x-x^{t})$
　　所以，我们将导数 $g(\textbf{w})$ 在 $\textbf{w}^{t}$ 处进行泰勒展开：　　　
　　　　　　　在这里插入图片描述
去掉高阶无穷小 $Op(\hat{\textbf{w}}-\textbf{w}^{t})$ ，得到：
　　
　　因此得到的迭代机制：
　　　　　　　　　
　所以牛顿法又可以称为二阶梯度下降法，移动方向为： $d=-(H(\textbf{w}^{t}))^{-1}g(\textbf{w}^{t})$ ；对比我们一阶梯度下降法，移动方向： $d=-g(\textbf{w}^{t})$
　损失函数的求解过程，我们还需要了解迭代在加权最小二乘(iterative reweighted least squares,IRLS)原则，何谓IRLS，上述我们以得出：
在这里插入图片描述
　根据牛顿法的结果：　　　　　
　所以IRLS：权重矩阵 $\textbf{S}$ 不是常数，而且依赖参数向量 $\textbf{w}$ ，我们必须使用标准方程来迭代计算，每次使用新的权重向量 $\textbf{w}$ 来修正权重矩阵 $\textbf{S}$ 。因此该算法称之为迭代再加权最小二乘，IRLS。
如下便是具体的公式迭代过程：
在这里插入图片描述
当然，上述是logistic回归没有正则化的过程，正则化logistic就是在 $J(\textbf{w})$ 加上 $\lambda ||\textbf{w}||^{2}$ (l2正则)或者 $\lambda |\textbf{w}|$ (l1正则)，同理求解过程结合线性回归模型的求解和上述不带正则的logistic回归的求解即可。