极大似然估计法($Method of Maximum Likelihood Estimation –MLE$)
极大似然估计法最早由高斯(C.F.Gauss)提出。后来为费歇在1912年的文章中重新提出,并且证明了这个方法的一些性质。极大似然估计这一名称也是费歇(R.A.Fisher)给的。这是一种目前仍然得到广泛应用的方法。它是建立在极大似然原理的基础上的一个统计方法。
在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。 似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。 有人说,概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。
极大似然估计法的依据就是:概率最大的事件最可能发生
极大似然估计法最早由高斯(C.F.Gauss)提出。后来为费歇在1912年的文章中重新提出,并且证明了这个方法的一些性质。极大似然估计这一名称也是费歇(R.A.Fisher)给的。这是一种目前仍然得到广泛应用的方法。它是建立在极大似然原理的基础上的一个统计方法。
看论文的时候读到这样一句话:
Assuming the training instances are independently sampled,the likelihood function of parameters $\theta={w,\alpha,\beta}$ given the observations D can be factored as
$$
Pr[D|\theta]=\prod_{i=1}^NPr[y_i^1,\dots,y_i^R|x_i;\theta]
$$
原来只关注公式,所以一带而过。再重新看这个公式前的描述,细思极恐。
the likelihood function of the parameters θ = {w,α,β} given the observations D can be factored as..
两个疑问:
- likelihood function_为什么会写成条件概率的形式?
- given的明明是D,为什么到后面的公式里,却变成了$given \theta$呢?
常说的概率是指给定参数后,预测即将发生的事件的可能性。拿硬币这个例子来说,我们已知一枚均匀硬币的正反面概率分别是0.5,要预测抛两次硬币,硬币都朝上的概率:
$H$代表$Head$,表示头朝上
$p(HH | p_H = 0.5) = 0.5*0.5 = 0.25.$
这种写法其实有点误导,后面的这个其实是作为参数存在的,而不是一个随机变量,因此不能算作是条件概率,更靠谱的写法应该是 $p(HH;p=0.5)。$
而似然概率正好与这个过程相反,我们关注的量不再是事件的发生概率,而是已知发生了某些事件,我们希望知道参数应该是多少。
现在我们已经抛了两次硬币,并且知道了结果是两次头朝上,这时候,我希望知道这枚硬币抛出去正面朝上的概率为0.5的概率是多少?正面朝上的概率为0.8的概率是多少?
如果我们希望知道正面朝上概率为0.5的概率,这个东西就叫做似然函数,可以说成是对某一个参数的猜想$(p=0.5)$的概率,这样表示成(条件)概率就是
$L(p_H=0.5|HH) =P(HH|p_H=0.5) = $(另一种写法)$P(HH;p_H=0.5).$
为什么可以写成这样?我觉得可以这样来想:
$L(\theta|x)=f(x|\theta)$
这里$\theta$是未知参数,它属于参数空间。
$f(x|\theta)$是一个密度函数,特别地,它表示给定$\theta$ 下关于联合概率样本值$x$ 的联合密度函数。前者是关于$\theta$的函数,后者是关于$x$的函数。所以这里的等号理解为函数值形式的相等,而不是两个函数本身是同一函数。
似然函数本身也是一种概率,我们可以把$L(pH=0.5|HH)$写成$P(pH=0.5|HH)$; 而根据贝叶斯公式,$P(pH=0.5|HH) = {P(pH=0.5,HH)\over P(HH)}$;既然$HH$是已经发生的事件,理所当然$P(HH) = 1$,所以:
在统计学中,我们关心的是在已知一系列投掷的结果时,关于硬币投掷时正面朝上的可能性的信息。
我们可以建立一个统计模型:假设硬币投出时会有$p_H$的概率正面朝上,而有$1-p_H$的概率反面朝上。
这时,条件概率可以改写成似然函数:
$L(p_H|HH)=P(HH|p_H=0.5)=0.25$
也就是说,对于取定的似然函数,在观测到两次投掷都是正面朝上时,$p_H=0.5$ 的似然性是0.25。如果考虑$p_H=0.6$,那么似然函数的值也会改变。
$L(p_H|HH)=P(HH|p_H=0.6)=0.36$ 注意到似然函数的值也变大了。
这说明,如果参数$p_H$的取值变成0.6的话,结果观测到连续两次正面朝上的概率要比假设时$p_H=0.5$更大。也就是说,参数$p_H$取成0.6要比取成0.5更有说服力,更为“合理”。总之,似然函数的重要性不是它的具体取值,而是当参数变化时函数到底变小还是变大。对同一个似然函数,如果存在一个参数值,使得它的函数值达到最大的话,那么这个值就是最为“合理”的参数值。
在这个例子中,似然函数实际上等于:
$L(\theta|HH)=P(HH|p_H=\theta)=\theta^2$ 其中$0 \le p_H\le 1$
如果取$p_H=1$ ,那么似然函数达到最大值1.也就是说,当连续观测到两次证明朝上时,假设硬币投掷正面朝上的概率为1是最合理的。
类似地,如果观测到三次投掷硬币,头两次正面朝上,第三次反面朝上,那么似然函数将会是
$L(\theta|HHT)=P(HHT|p_H=\theta)=\theta^2(1-\theta)$ ,其中$T$表示反面朝上,$0\le p_H \le 1$
这时候,似然函数的最大值将会在$p_H={2\over3}$的时候取到。也就是说,当观测到三次投掷中前两次正面朝上时,估计硬币投掷时正面朝上的概率$p_H={2\over 3}$是合理的。
若一试验中有$n$个可能结果$A_1,A_2,…,A_n$,现在做一试验,若事件$A_i$发生了,则认为事件$A_i$在这$n$个可能结果中出现的概率最大。
一次试验就出现的事件(应该)有较大的概率
极大似然估计就是在一次抽样中,若得到观测值$x_1,…,x_n$则选取$\hat\theta(x_1,…,x_n)$作为$\theta$的估计值。使得当$\theta=\hat\theta(x_1,…,x_n)$样本出现的概率最大。
极大似然概率,就是在已知观测的数据的前提下,找到使得似然概率最大的参数值。
若总体$X$为离散型
设分布律$P{X=k}=p(x;\theta)$,$\theta$为待估参数,$\theta\in\Theta$ ,$X_1,X_2,…,X_n$是来自总体$X$的样本,若$x_1,x_2,…,x_n$为相对于$X_1,X_2,…,X_n$的样本值,
$L(\theta)=L(x_1,x_2,…,x_n;\theta)\prod p(x_i;\theta),\theta \in \Theta$
$L(\theta)$称为样本似然函数
若$L(x_1,x_2,…,x_n;\hat\theta) = max_{\theta\in\Theta} L(x_1,x_2,…,x_n;\theta)$
$ \hat(x_1,x_2,\dots,x_n)$,参数$\theta$的极大似然估计值。
- 设总体$X$为连续型
设概率密度为$f(x;\theta),$$\theta$为待估参数, $\theta\in \Theta$,$X_1,x_2, \dots ,X_n$是 来自总体$X$的样本,若$x_1,x_2,\dots,x_n$为相应于$X_1,X_2,\dots,X_n$的样本值,
$$
L(\theta)=L(x_1,x_2,…,x_n;\theta)\prod f(x_i;\theta)
$$
$\hat \theta(x_1,x_2,\dots,x_n)$,参数$\theta$的极大似然估计值。
极大似然法求估计值的步骤:(一般情况下)
1)构造似然函数$L(\theta):$
$$
L(\theta)=\prod p(x_i;\theta)(离散型)
$$
$$
L(\theta)=\prod f(x_i;\theta)(离散型)
$$
2)取对数:$ln L(\theta)$;
3)令 $d ln L \over d\theta$=$0$;
4)解似然方程得到$\theta$ 的极大似然估计值$\hat\theta$
说明:若似然方程(组)无解,或似然函数不可导,此法失效,改用其他方法。
例1: 设$X$服从 参数$\lambda(\lambda>0)$的泊松分布,$x_1,x_2,\dots,x_n$是来自于$X$的一个样本值,求$\lambda$的极大似然估计值
解:因为$X$的分布律为
$P{X=x}$=${\lambda^x \over x! }e^{-\lambda}$, $(x=0,1,2,\dots,n)$
所以$\lambda$的似然函数为
$$
L(\lambda)=\prod_{i=1}^{n} ({\lambda ^{x_i} \over x_i! }{e^{-\lambda}})=e^{-n\lambda}{\lambda^{\sum_{i=1}^nx_i}\over \prod_{i=1}^{n}(x_i!)}
$$
$$
ln L(\lambda) = -n\lambda+(\sum_{i=1}^{n}x_i)ln\lambda-\sum_{i=1}^{n}{(x_i!)},
$$
令${d\over{d \lambda}}lnL(\lambda) = -n+{\sum_{i=1}^nx_i \over \lambda} = 0$
解得$\lambda$的极大似然估计值为$\hat\lambda={1\over n}\sum_{i=1}^nx_i=\overline x$
这有估计值与矩估计值是相同的。
例2 设总体$X \sim N(\mu,\sigma^2)$,$\mu,\delta^2$为未知参数, $x_1,x_2,\dots,x_n$是来自$X$的一个样本值,求$\mu,\sigma^2$的极大似然估计值。
解:$X$的概率密度为$f(x;\mu,\sigma^2)={1 \over \sqrt{2\pi}\sigma }e^{-{(x-\mu)^2 \over 2\sigma^2}}$,
似然函数为
$$
L(\mu,\sigma ^2)= \prod_{i=1}^n{1 \over \sqrt{2\pi}}e{(x_i-\mu)^2 \over 2\sigma^2},
$$
$$
lnL(\mu,\sigma ^2)=-{n\over 2}ln(2\pi)-{n\over 2}ln\sigma^2-{1\over 2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2,
$$
令
$$
f(n) =
\begin{cases}
{\partial \over \partial\mu}lnL(\mu,\sigma^2)=0 \\
{\partial \over \partial\sigma^2}lnL(\mu,\sigma^2)=0 \\
\end{cases}
$$
$$
\begin{cases}
{1\over \sigma^2} [\sum_{i=1}^nx_i-n\mu]=0,\dots(1) \\
-{n\over 2\sigma^2}+{1\over (\sigma^2)^2}\sum_{i=1}^n(x_i-\mu)^2=0,\dots,(2)
\end{cases}
$$
故$\mu$和$\sigma^2$的 极大似然估计值为
$\hat\mu={1\over n}\sum_{i=1}^n\overline x$,$ \,\hat\sigma^2={1\over n}\sum_{i=1}^n(x_i-\overline x )$
这一估计值与矩估计值是相同的。
例3 设总体$X$服从$[0,\theta]$上的均匀分布,$\theta>0$未知,$x_1,x_2,\dots,x_n$是来自总体$X$的样本值,求出$\theta$的极大似然估计值。
解:记$x_{(h)}=max(x_1,x_2,\dots,x_n)$,
$X$的概率密度为$f(x;\theta)=\begin{cases} {1\over \theta}, 0\le x \le \theta \\0,其他 \end{cases}$
所以似然函数为$L(\theta)=\begin{cases} {1\over \theta^n},x_{(h)} \le \theta \\0,其他 \end{cases}$
对于满足$x_{h}\le\theta$的任意$\theta$有
$$
L(\theta)={1\over\theta^n\le{1\over(x_{(h)})^n}}
$$
即似然函数$L(\theta)$在$\theta=x_h$时取得极大值,$\theta$的极大似然估计值为$\hat\theta=x_{(h)}=max_{1\le i\le n}x_i$
这一估计值与矩估计是不相同的。
###矩法估计值与极大似然估计值的比较
矩法估计法 | 极大似然估计法 | |
---|---|---|
依 据 | 大数定律 | 极大似然思想 |
运 算 | 较简单(可能会有信息量损失) | 较复杂 |
精 度 | 一般较低 | 一般较高 |
注意:
1)矩法估计值与极大似然估计值不一定相同
2)不是所以极大似然估计法都需要建立似然方程求解。
最大似然估计是似然函数最初也是最自然的应用。上文已经提到,似然函数取得最大值表示相应的参数能够使得统计模型最为合理。从这样一个想法出发,最大似然估计的做法是:首先选取似然函数(一般是概率密度函数或概率质量函数),整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数,这样求出的最大值和直接求最大值得到的结果是相同的。似然函数的最大值不一定唯一,也不一定存在。与矩法估计比较,最大似然估计的精确度较高,信息损失较少,但计算量较大。
总结
这就不难理解,在$data mining$领域,许多求参数的方法最终都归结为最大化似然概率的问题。回到这个硬币的例子上来,在观测到$HH$的情况下,$pH = 1$$是最合理的(却未必符合真实情况,因为数据量太少的缘故)。
参考:
- 极大似然估计法的原理和方法PPT