Logistic回归代价函数的数学推导及实现

本文主要是介绍Logistic回归代价函数的数学推导及实现，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

logistic回归的代价函数形式如下：
$J(\theta) = -\frac{1}{m}\left[\sum_{i=1}^{m}y^{(i)}\log h_\theta(x^{(i)}) + (1 - y^{(i)})\log (1 - h_\theta(x^{(i)}))\right]$

可是这又是怎么来的呢？答：最大似然估计计算出来的

1.最大似然估计

我们先来简单的回顾一下最大似然估计(Maximum likelihood estimation),详细戳此处,见参数估计

所谓参数估计就是：对未知参数 $\theta$ 进行估计时，在参数可能的取值范围内选取，使“样本获得此观测值 $x_1,x_2...,x_n$ "的概率最大的参数 $\hat{\theta}$ 作为 $\theta$ 的估计，这样选定的 $\hat{\theta}$ 有利于 $x_1,x_2...,x_n$ "的出现。也就是说在已知数据集（结果）和模型（分布函数）的情况下，估计出最适合该模型的参数。

举个例子：

假设你有一枚硬币，随机抛10次；现在的结果是6次正面。我们都知道，抛一枚硬币，正面朝上和反面朝上的概率均是θ=0.5；但前提时，这是在大量的实验（抛硬币）情况下才有的结论。那在我们这个情况下，参数θ到底取何值时才能使得出现6次正面的肯能性最大呢？

我们知道，抛硬币是符合二项分布B(n,p)，也就是说我们现在已知样本结果以及函数分布，估计出使得该结果最大可能出现的参数 $\hat{\theta}$ 。则有：
$\mathrm{L}=P(X=6)=\mathrm{C_{10}^6}\hat{\theta}^6(1-\hat{\theta})^4$

而我们接下来要做的就是求当 $\mathrm{L}$ 取最大值时， $\hat{\theta}$ 的值。我们很容易求得当 $\hat{\theta}=0.6$ 时 $\mathrm{L}$ 取得最大值0.25；而当 $\hat{\theta}=0.5$ 时， $\mathrm{L}=0.21$

再假设你有一枚硬币，随机抛10次；现在的结果是7次正面。则此时使得该结果最大可能性出现参数 $\hat{\theta}$ 又是多少呢？按照上面的方法我们很容易求得当 $\hat{\theta}=0.7$ 时可能性最大。

再举个例子：

明显，在Logistic回归中，所有样本点也服从二项分布；设有 $x_1,x_2,x_3$ 三个样本点，其类标为 $1, 1, 0$ ；同时设样本点为1的概率为 $P=h_{\theta}(x)$ ，那么当 $P$ 等于多少时，其结果才最可能出现 $1, 1, 0$ 呢？于是问题就变成最大化：
$P*P(1-P)=h_{\theta}(x_1)*h_{\theta}(x_2)*(1-h_{\theta}(x_3))$