极大似然估计法MLE

               极大似然估计法($Method of Maximum Likelihood Estimation –MLE$)

        极大似然估计法最早由高斯(C.F.Gauss)提出。后来为费歇在1912年的文章中重新提出,并且证明了这个方法的一些性质。极大似然估计这一名称也是费歇(R.A.Fisher)给的。这是一种目前仍然得到广泛应用的方法。它是建立在极大似然原理的基础上的一个统计方法。

        在数理统计学中,似然函数是一种关于统计模型中的参数函数,表示模型参数中的似然性。 似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。 有人说,概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

        极大似然估计法的依据就是:概率最大的事件最可能发生

        极大似然估计法最早由高斯(C.F.Gauss)提出。后来为费歇在1912年的文章中重新提出,并且证明了这个方法的一些性质。极大似然估计这一名称也是费歇(R.A.Fisher)给的。这是一种目前仍然得到广泛应用的方法。它是建立在极大似然原理的基础上的一个统计方法。

        看论文的时候读到这样一句话:

Assuming the training instances are independently sampled,the likelihood function of parameters $\theta={w,\alpha,\beta}$ given the observations D can be factored as
$$
Pr[D|\theta]=\prod_{i=1}^NPr[y_i^1,\dots,y_i^R|x_i;\theta]
$$
        原来只关注公式,所以一带而过。再重新看这个公式前的描述,细思极恐。

the likelihood function of the parameters θ = {w,α,β} given the observations D can be factored as..

两个疑问

  • likelihood function_为什么会写成条件概率的形式?
  • given的明明是D,为什么到后面的公式里,却变成了$given \theta$呢?

        常说的概率是指给定参数后,预测即将发生的事件的可能性。拿硬币这个例子来说,我们已知一枚均匀硬币的正反面概率分别是0.5,要预测抛两次硬币,硬币都朝上的概率:

$H$代表$Head$,表示头朝上

$p(HH | p_H = 0.5) = 0.5*0.5 = 0.25.$

  这种写法其实有点误导,后面的这个其实是作为参数存在的,而不是一个随机变量,因此不能算作是条件概率,更靠谱的写法应该是 $p(HH;p=0.5)。$

    而似然概率正好与这个过程相反,我们关注的量不再是事件的发生概率,而是已知发生了某些事件,我们希望知道参数应该是多少。

       现在我们已经抛了两次硬币,并且知道了结果是两次头朝上,这时候,我希望知道这枚硬币抛出去正面朝上的概率为0.5的概率是多少?正面朝上的概率为0.8的概率是多少?

如果我们希望知道正面朝上概率为0.5的概率,这个东西就叫做似然函数,可以说成是对某一个参数的猜想$(p=0.5)$的概率,这样表示成(条件)概率就是

$L(p_H=0.5|HH) =P(HH|p_H=0.5) = $(另一种写法)$P(HH;p_H=0.5).$

为什么可以写成这样?我觉得可以这样来想:

$L(\theta|x)=f(x|\theta)$

这里$\theta$是未知参数,它属于参数空间。

 $f(x|\theta)$是一个密度函数,特别地,它表示给定$\theta$ 下关于联合概率样本值$x$ 的联合密度函数。前者是关于$\theta$的函数,后者是关于$x$的函数。所以这里的等号理解为函数值形式的相等,而不是两个函数本身是同一函数。

         似然函数本身也是一种概率,我们可以把$L(pH=0.5|HH)$写成$P(pH=0.5|HH)$; 而根据贝叶斯公式,$P(pH=0.5|HH) = {P(pH=0.5,HH)\over P(HH)}$;既然$HH$是已经发生的事件,理所当然$P(HH) = 1$,所以:

        在统计学中,我们关心的是在已知一系列投掷的结果时,关于硬币投掷时正面朝上的可能性的信息。
我们可以建立一个统计模型:假设硬币投出时会有$p_H$的概率正面朝上,而有$1-p_H$的概率反面朝上。
这时,条件概率可以改写成似然函数:

$L(p_H|HH)=P(HH|p_H=0.5)=0.25$

        也就是说,对于取定的似然函数,在观测到两次投掷都是正面朝上时,$p_H=0.5$ 的似然性是0.25。如果考虑$p_H=0.6$,那么似然函数的值也会改变。

$L(p_H|HH)=P(HH|p_H=0.6)=0.36$ 注意到似然函数的值也变大了。

        这说明,如果参数$p_H$的取值变成0.6的话,结果观测到连续两次正面朝上的概率要比假设时$p_H=0.5$更大。也就是说,参数$p_H$取成0.6要比取成0.5更有说服力,更为“合理”。总之,似然函数的重要性不是它的具体取值,而是当参数变化时函数到底变小还是变大。对同一个似然函数,如果存在一个参数值,使得它的函数值达到最大的话,那么这个值就是最为“合理”的参数值。

      在这个例子中,似然函数实际上等于:

$L(\theta|HH)=P(HH|p_H=\theta)=\theta^2$ 其中$0 \le p_H\le 1$

如果取$p_H=1$ ,那么似然函数达到最大值1.也就是说,当连续观测到两次证明朝上时,假设硬币投掷正面朝上的概率为1是最合理的。

类似地,如果观测到三次投掷硬币,头两次正面朝上,第三次反面朝上,那么似然函数将会是

$L(\theta|HHT)=P(HHT|p_H=\theta)=\theta^2(1-\theta)$ ,其中$T$表示反面朝上,$0\le p_H \le 1$

        这时候,似然函数的最大值将会在$p_H={2\over3}$的时候取到。也就是说,当观测到三次投掷中前两次正面朝上时,估计硬币投掷时正面朝上的概率$p_H={2\over 3}$是合理的。

        若一试验中有$n$个可能结果$A_1,A_2,…,A_n$,现在做一试验,若事件$A_i$发生了,则认为事件$A_i$在这$n$个可能结果中出现的概率最大。

        一次试验就出现的事件(应该)有较大的概率

      极大似然估计就是在一次抽样中,若得到观测值$x_1,…,x_n$则选取$\hat\theta(x_1,…,x_n)$作为$\theta$的估计值。使得当$\theta=\hat\theta(x_1,…,x_n)$样本出现的概率最大。

极大似然概率,就是在已知观测的数据的前提下,找到使得似然概率最大的参数值。

  1. 若总体$X$为离散型

    设分布律$P{X=k}=p(x;\theta)$,$\theta$为待估参数,$\theta\in\Theta$ ,$X_1,X_2,…,X_n$是来自总体$X$的样本,若$x_1,x_2,…,x_n$为相对于$X_1,X_2,…,X_n$的样本值,
    $L(\theta)=L(x_1,x_2,…,x_n;\theta)\prod p(x_i;\theta),\theta \in \Theta$

$L(\theta)$称为样本似然函数

若$L(x_1,x_2,…,x_n;\hat\theta) = max_{\theta\in\Theta} L(x_1,x_2,…,x_n;\theta)$

$ \hat(x_1,x_2,\dots,x_n)$,参数$\theta$的极大似然估计值。

  1. 设总体$X$为连续型

        设概率密度为$f(x;\theta),$$\theta$为待估参数, $\theta\in \Theta$,$X_1,x_2, \dots ,X_n$是 来自总体$X$的样本,若$x_1,x_2,\dots,x_n$为相应于$X_1,X_2,\dots,X_n$的样本值,

$$
L(\theta)=L(x_1,x_2,…,x_n;\theta)\prod f(x_i;\theta)
$$
$\hat \theta(x_1,x_2,\dots,x_n)$,参数$\theta$的极大似然估计值。

极大似然法求估计值的步骤:(一般情况下)

1)构造似然函数$L(\theta):$
$$
L(\theta)=\prod p(x_i;\theta)(离散型)
$$

$$
L(\theta)=\prod f(x_i;\theta)(离散型)
$$

2)取对数:$ln L(\theta)$;

3)令 $d ln L \over d\theta$=$0$;

4)解似然方程得到$\theta$ 的极大似然估计值$\hat\theta$

说明:若似然方程(组)无解,或似然函数不可导,此法失效,改用其他方法。

例1: 设$X$服从 参数$\lambda(\lambda>0)$的泊松分布,$x_1,x_2,\dots,x_n$是来自于$X$的一个样本值,求$\lambda$的极大似然估计值

:因为$X$的分布律为

$P{X=x}$=${\lambda^x \over x! }e^{-\lambda}$, $(x=0,1,2,\dots,n)$

所以$\lambda$的似然函数为
$$
L(\lambda)=\prod_{i=1}^{n} ({\lambda ^{x_i} \over x_i! }{e^{-\lambda}})=e^{-n\lambda}{\lambda^{\sum_{i=1}^nx_i}\over \prod_{i=1}^{n}(x_i!)}
$$

$$
ln L(\lambda) = -n\lambda+(\sum_{i=1}^{n}x_i)ln\lambda-\sum_{i=1}^{n}{(x_i!)},
$$

令${d\over{d \lambda}}lnL(\lambda) = -n+{\sum_{i=1}^nx_i \over \lambda} = 0$

解得$\lambda$的极大似然估计值为$\hat\lambda={1\over n}\sum_{i=1}^nx_i=\overline x$

这有估计值与矩估计值是相同的。

例2 设总体$X \sim N(\mu,\sigma^2)$,$\mu,\delta^2$为未知参数, $x_1,x_2,\dots,x_n$是来自$X$的一个样本值,求$\mu,\sigma^2$的极大似然估计值。

:$X$的概率密度为$f(x;\mu,\sigma^2)={1 \over \sqrt{2\pi}\sigma }e^{-{(x-\mu)^2 \over 2\sigma^2}}$,

似然函数为
$$
L(\mu,\sigma ^2)= \prod_{i=1}^n{1 \over \sqrt{2\pi}}e{(x_i-\mu)^2 \over 2\sigma^2},
$$

$$
lnL(\mu,\sigma ^2)=-{n\over 2}ln(2\pi)-{n\over 2}ln\sigma^2-{1\over 2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2,
$$


$$

f(n) =
\begin{cases}
{\partial \over \partial\mu}lnL(\mu,\sigma^2)=0 \\
{\partial \over \partial\sigma^2}lnL(\mu,\sigma^2)=0 \\
\end{cases}

$$

$$
\begin{cases}
{1\over \sigma^2} [\sum_{i=1}^nx_i-n\mu]=0,\dots(1) \\
-{n\over 2\sigma^2}+{1\over (\sigma^2)^2}\sum_{i=1}^n(x_i-\mu)^2=0,\dots,(2)
\end{cases}
$$

故$\mu$和$\sigma^2$的 极大似然估计值为

 $\hat\mu={1\over n}\sum_{i=1}^n\overline x$,$ \,\hat\sigma^2={1\over n}\sum_{i=1}^n(x_i-\overline x )$

这一估计值与矩估计值是相同的。

例3 设总体$X$服从$[0,\theta]$上的均匀分布,$\theta>0$未知,$x_1,x_2,\dots,x_n$是来自总体$X$的样本值,求出$\theta$的极大似然估计值。

:记$x_{(h)}=max(x_1,x_2,\dots,x_n)$,

$X$的概率密度为$f(x;\theta)=\begin{cases} {1\over \theta}, 0\le x \le \theta \\0,其他 \end{cases}$

所以似然函数为$L(\theta)=\begin{cases} {1\over \theta^n},x_{(h)} \le \theta \\0,其他 \end{cases}$

对于满足$x_{h}\le\theta$的任意$\theta$有

$$
L(\theta)={1\over\theta^n\le{1\over(x_{(h)})^n}}
$$

即似然函数$L(\theta)$在$\theta=x_h$时取得极大值,$\theta$的极大似然估计值为$\hat\theta=x_{(h)}=max_{1\le i\le n}x_i$

这一估计值与矩估计是不相同的。

###矩法估计值与极大似然估计值的比较

矩法估计法 极大似然估计法
依 据 大数定律 极大似然思想
运 算 较简单(可能会有信息量损失) 较复杂
精 度 一般较低 一般较高

注意:

1)矩法估计值与极大似然估计值不一定相同

2)不是所以极大似然估计法都需要建立似然方程求解。

​ 最大似然估计是似然函数最初也是最自然的应用。上文已经提到,似然函数取得最大值表示相应的参数能够使得统计模型最为合理。从这样一个想法出发,最大似然估计的做法是:首先选取似然函数(一般是概率密度函数或概率质量函数),整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数,这样求出的最大值和直接求最大值得到的结果是相同的。似然函数的最大值不一定唯一,也不一定存在。与矩法估计比较,最大似然估计的精确度较高,信息损失较少,但计算量较大。

总结

        这就不难理解,在$data mining$领域,许多求参数的方法最终都归结为最大化似然概率的问题。回到这个硬币的例子上来,在观测到$HH$的情况下,$pH = 1$$是最合理的(却未必符合真实情况,因为数据量太少的缘故)。

参考:

  1. 极大似然估计法的原理和方法PPT
  1. https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0
  2. http://www.cnblogs.com/zhsuiy/p/4822020.html

本文标题:极大似然估计法MLE

文章作者:goingcoder

发布时间:2018年03月10日 - 23:03

最后更新:2018年03月11日 - 02:03

原始链接:https://goingcoder.github.io/2018/03/10/mle/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

-------------本文结束感谢您的阅读-------------