极大似然估计法MLE

极大似然估计法（$Method of Maximum Likelihood Estimation –MLE$）

极大似然估计法最早由高斯（C.F.Gauss）提出。后来为费歇在1912年的文章中重新提出，并且证明了这个方法的一些性质。极大似然估计这一名称也是费歇（R.A.Fisher）给的。这是一种目前仍然得到广泛应用的方法。它是建立在极大似然原理的基础上的一个统计方法。

在数理统计学中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。似然函数在统计推断中有重大作用，如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。 有人说，概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。

极大似然估计法的依据就是：概率最大的事件最可能发生

看论文的时候读到这样一句话：

Assuming the training instances are independently sampled,the likelihood function of parameters $\theta={w,\alpha,\beta}$ given the observations D can be factored as
$$
Pr[D|\theta]=\prod_{i=1}^NPr[y_i^1,\dots,y_i^R|x_i;\theta]
$$
原来只关注公式，所以一带而过。再重新看这个公式前的描述，细思极恐。

the likelihood function of the parameters θ = {w,α,β} given the observations D can be factored as..

两个疑问：

likelihood function_为什么会写成条件概率的形式？
given的明明是D，为什么到后面的公式里，却变成了$given \theta$呢？

常说的概率是指给定参数后，预测即将发生的事件的可能性。拿硬币这个例子来说，我们已知一枚均匀硬币的正反面概率分别是0.5，要预测抛两次硬币，硬币都朝上的概率：

$H$代表$Head$，表示头朝上

$p(HH | p_H = 0.5) = 0.5*0.5 = 0.25.$

这种写法其实有点误导，后面的这个其实是作为参数存在的，而不是一个随机变量，因此不能算作是条件概率，更靠谱的写法应该是 $p(HH;p=0.5)。$

而似然概率正好与这个过程相反，我们关注的量不再是事件的发生概率，而是已知发生了某些事件，我们希望知道参数应该是多少。

现在我们已经抛了两次硬币，并且知道了结果是两次头朝上，这时候，我希望知道这枚硬币抛出去正面朝上的概率为0.5的概率是多少？正面朝上的概率为0.8的概率是多少？

如果我们希望知道正面朝上概率为0.5的概率，这个东西就叫做似然函数，可以说成是对某一个参数的猜想$（p=0.5）$的概率，这样表示成(条件)概率就是

$L(p_H=0.5|HH) =P(HH|p_H=0.5) = $（另一种写法）$P(HH;p_H=0.5).$

为什么可以写成这样？我觉得可以这样来想：

$L(\theta|x)=f(x|\theta)$

这里$\theta$是未知参数，它属于参数空间。

$f(x|\theta)$是一个密度函数，特别地，它表示给定$\theta$ 下关于联合概率样本值$x$ 的联合密度函数。前者是关于$\theta$的函数，后者是关于$x$的函数。所以这里的等号理解为函数值形式的相等，而不是两个函数本身是同一函数。

似然函数本身也是一种概率，我们可以把$L(pH=0.5|HH)$写成$P(pH=0.5|HH)$; 而根据贝叶斯公式，$P(pH=0.5|HH) = {P(pH=0.5,HH)\over P(HH)}$；既然$HH$是已经发生的事件，理所当然$P(HH) = 1$,所以：

在统计学中，我们关心的是在已知一系列投掷的结果时，关于硬币投掷时正面朝上的可能性的信息。
我们可以建立一个统计模型：假设硬币投出时会有$p_H$的概率正面朝上，而有$1-p_H$的概率反面朝上。
这时，条件概率可以改写成似然函数：

$L(p_H|HH)=P(HH|p_H=0.5)=0.25$

也就是说，对于取定的似然函数，在观测到两次投掷都是正面朝上时，$p_H=0.5$ 的似然性是0.25。如果考虑$p_H=0.6$，那么似然函数的值也会改变。

$L(p_H|HH)=P(HH|p_H=0.6)=0.36$ 注意到似然函数的值也变大了。

这说明，如果参数$p_H$的取值变成0.6的话，结果观测到连续两次正面朝上的概率要比假设时$p_H=0.5$更大。也就是说，参数$p_H$取成0.6要比取成0.5更有说服力，更为“合理”。总之，似然函数的重要性不是它的具体取值，而是当参数变化时函数到底变小还是变大。对同一个似然函数，如果存在一个参数值，使得它的函数值达到最大的话，那么这个值就是最为“合理”的参数值。

在这个例子中，似然函数实际上等于：

$L(\theta|HH)=P(HH|p_H=\theta)=\theta^2$ 其中$0 \le p_H\le 1$

如果取$p_H=1$ ，那么似然函数达到最大值1.也就是说，当连续观测到两次证明朝上时，假设硬币投掷正面朝上的概率为1是最合理的。

类似地，如果观测到三次投掷硬币，头两次正面朝上，第三次反面朝上，那么似然函数将会是

$L(\theta|HHT)=P(HHT|p_H=\theta)=\theta^2(1-\theta)$ ,其中$T$表示反面朝上，$0\le p_H \le 1$

这时候，似然函数的最大值将会在$p_H={2\over3}$的时候取到。也就是说，当观测到三次投掷中前两次正面朝上时，估计硬币投掷时正面朝上的概率$p_H={2\over 3}$是合理的。

若一试验中有$n$个可能结果$A_1，A_2，…，A_n$,现在做一试验，若事件$A_i$发生了，则认为事件$A_i$在这$n$个可能结果中出现的概率最大。

一次试验就出现的事件（应该）有较大的概率

极大似然估计就是在一次抽样中，若得到观测值$x_1,…,x_n$则选取$\hat\theta(x_1,…,x_n)$作为$\theta$的估计值。使得当$\theta=\hat\theta(x_1,…,x_n)$样本出现的概率最大。

极大似然概率，就是在已知观测的数据的前提下，找到使得似然概率最大的参数值。

若总体$X$为离散型

设分布律$P{X=k}=p(x;\theta)$,$\theta$为待估参数，$\theta\in\Theta$ ,$X_1,X_2,…,X_n$是来自总体$X$的样本，若$x_1,x_2,…,x_n$为相对于$X_1,X_2,…,X_n$的样本值，
$L(\theta)=L(x_1,x_2,…,x_n;\theta)\prod p(x_i;\theta),\theta \in \Theta$

$L(\theta)$称为样本似然函数

若$L(x_1,x_2,…,x_n;\hat\theta) = max_{\theta\in\Theta} L(x_1,x_2,…,x_n;\theta)$

$ \hat(x_1,x_2,\dots,x_n)$,参数$\theta$的极大似然估计值。

设总体$X$为连续型

设概率密度为$f(x;\theta),$$\theta$为待估参数， $\theta\in \Theta$,$X_1,x_2, \dots ,X_n$是来自总体$X$的样本，若$x_1,x_2,\dots,x_n$为相应于$X_1,X_2,\dots,X_n$的样本值，

$$
L(\theta)=L(x_1,x_2,…,x_n;\theta)\prod f(x_i;\theta)
$$
$\hat \theta(x_1,x_2,\dots,x_n)$,参数$\theta$的极大似然估计值。

极大似然法求估计值的步骤：（一般情况下）

1）构造似然函数$L(\theta):$
$$
L(\theta)=\prod p(x_i;\theta)(离散型)
$$

$$
L(\theta)=\prod f(x_i;\theta)(离散型)
$$

2)取对数：$ln L(\theta)$;

3)令 $d ln L \over d\theta$=$0$;

4)解似然方程得到$\theta$ 的极大似然估计值$\hat\theta$

说明：若似然方程（组）无解，或似然函数不可导，此法失效，改用其他方法。

例1：设$X$服从参数$\lambda(\lambda>0)$的泊松分布，$x_1,x_2,\dots,x_n$是来自于$X$的一个样本值,求$\lambda$的极大似然估计值

解：因为$X$的分布律为

$P{X=x}$=${\lambda^x \over x! }e^{-\lambda}$, $(x=0,1,2,\dots,n)$

所以$\lambda$的似然函数为
$$
L(\lambda)=\prod_{i=1}^{n} ({\lambda ^{x_i} \over x_i! }{e^{-\lambda}})=e^{-n\lambda}{\lambda^{\sum_{i=1}^nx_i}\over \prod_{i=1}^{n}(x_i!)}
$$

$$
ln L(\lambda) = -n\lambda+(\sum_{i=1}^{n}x_i)ln\lambda-\sum_{i=1}^{n}{(x_i!)},
$$

令${d\over{d \lambda}}lnL(\lambda) = -n+{\sum_{i=1}^nx_i \over \lambda} = 0$

解得$\lambda$的极大似然估计值为$\hat\lambda={1\over n}\sum_{i=1}^nx_i=\overline x$

这有估计值与矩估计值是相同的。

例2 设总体$X \sim N(\mu,\sigma^2)$,$\mu,\delta^2$为未知参数， $x_1,x_2,\dots,x_n$是来自$X$的一个样本值，求$\mu,\sigma^2$的极大似然估计值。

解：$X$的概率密度为$f(x;\mu,\sigma^2)={1 \over \sqrt{2\pi}\sigma }e^{-{(x-\mu)^2 \over 2\sigma^2}}$,

似然函数为
$$
L(\mu,\sigma ^2)= \prod_{i=1}^n{1 \over \sqrt{2\pi}}e{(x_i-\mu)^2 \over 2\sigma^2},
$$

$$
lnL(\mu,\sigma ^2)=-{n\over 2}ln(2\pi)-{n\over 2}ln\sigma^2-{1\over 2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2,
$$

令
$$

f(n) =
\begin{cases}
{\partial \over \partial\mu}lnL(\mu,\sigma^2)=0 \\
{\partial \over \partial\sigma^2}lnL(\mu,\sigma^2)=0 \\
\end{cases}

$$
\begin{cases}
{1\over \sigma^2} [\sum_{i=1}^nx_i-n\mu]=0,\dots(1) \\
-{n\over 2\sigma^2}+{1\over (\sigma^2)^2}\sum_{i=1}^n(x_i-\mu)^2=0,\dots,(2)
\end{cases}
$$

故$\mu$和$\sigma^2$的极大似然估计值为

$\hat\mu={1\over n}\sum_{i=1}^n\overline x$,$ \,\hat\sigma^2={1\over n}\sum_{i=1}^n(x_i-\overline x )$

这一估计值与矩估计值是相同的。

例3 设总体$X$服从$[0,\theta]$上的均匀分布，$\theta>0$未知，$x_1,x_2,\dots,x_n$是来自总体$X$的样本值，求出$\theta$的极大似然估计值。

解：记$x_{(h)}=max(x_1,x_2,\dots,x_n)$,

$X$的概率密度为$f(x;\theta)=\begin{cases} {1\over \theta}, 0\le x \le \theta \\0,其他 \end{cases}$

所以似然函数为$L(\theta)=\begin{cases} {1\over \theta^n},x_{(h)} \le \theta \\0,其他 \end{cases}$

对于满足$x_{h}\le\theta$的任意$\theta$有

$$
L(\theta)={1\over\theta^n\le{1\over(x_{(h)})^n}}
$$

即似然函数$L(\theta)$在$\theta=x_h$时取得极大值，$\theta$的极大似然估计值为$\hat\theta=x_{(h)}=max_{1\le i\le n}x_i$

这一估计值与矩估计是不相同的。

###矩法估计值与极大似然估计值的比较

	矩法估计法	极大似然估计法
依据	大数定律	极大似然思想
运算	较简单（可能会有信息量损失）	较复杂
精度	一般较低	一般较高

注意：

1）矩法估计值与极大似然估计值不一定相同

2）不是所以极大似然估计法都需要建立似然方程求解。

最大似然估计是似然函数最初也是最自然的应用。上文已经提到，似然函数取得最大值表示相应的参数能够使得统计模型最为合理。从这样一个想法出发，最大似然估计的做法是：首先选取似然函数（一般是概率密度函数或概率质量函数），整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数，这样求出的最大值和直接求最大值得到的结果是相同的。似然函数的最大值不一定唯一，也不一定存在。与矩法估计比较，最大似然估计的精确度较高，信息损失较少，但计算量较大。

总结

这就不难理解，在$data mining$领域，许多求参数的方法最终都归结为最大化似然概率的问题。回到这个硬币的例子上来，在观测到$HH$的情况下，$pH = 1$$是最合理的（却未必符合真实情况，因为数据量太少的缘故）。

参考：

极大似然估计法的原理和方法PPT