想象一下,你有来自贾斯汀·比伯的一天生活的的一系列快照,你想用它所代表的活动(吃饭、睡觉、开车等)来标记每个图像。你会怎么做?
一种方法是忽略快照的顺序性质,并构建一个图像分类器。例如,给定一个月的被标记的快照,你可能知道,黑暗拍摄的图像往往是在早上睡觉,有耀眼的色彩图像往往是跳舞,汽车的图像往往在驾驶,等等。
然而,忽略这个连续的方面,你会失去很多信息。例如,如果你看到一张嘴巴的特写照片是关于唱歌还是吃饭?如果你知道前一张图片是贾斯汀·比伯吃或做饭的照片,那么这张照片更有可能是关于吃的;如果,前一张图片包含贾斯汀·比伯唱歌或跳舞,那么这张照片可能暗示他在唱歌。
因此,为了增加我们的标注的精度,我们应该结合它附近的照片的标签,而这正是一个条件随机场所能做的。
1.词性标注
让我们使用更为常见的词性标注示例来进一步研究一些细节。在词性标注中,目标是用ADJECTIVE、 NOUN、PREPOSITION、VERB、ADVERB、ARTICLE等标签来标记句子(单词或记号的序列)。例如,对于句子“Bob drank coffee at Starbucks”,标注为”Bob (NOUN) drank (VERB) coffee (NOUN) at (PREPOSITION) Starbucks (NOUN)”。我们建立一个条件随机场对句子进行词性标注。就像任何的分类器,我们首先需要选择一组特征函数。
2.CRF中的特征函数
在CRF中,每个特征函数都是采用以下特征作为输入,以实数为输出(一般是0或者1)
- 一个句子
- 句子的第i个字
- 当前字的标签
- 前一个字的特征
注意:通过限制我们的特性依赖于当前和以前的标签,而不是整个句子中的任意标签,我实际上构建了一个特殊的线性链CRF,这里将忽略一般的CRF。例如,一个可能的特征函数可以衡量在前一个字为“very”的情况下,当前单词应该被标记为一个形容词。
3.特征到概率
接下来给每个特征函数$f_j$一个权重$\lambda_j$ (我们将会讨论怎么从数据中学习到这些权重)。对于给定的一个句话,我们现在可以累加句中所有字加权后的特征来得到标签序列$l$的分数:
$score(l|s)=\sum_{j=1=0}^m \sum_{i=1}^n \lambda_j f_j(s,i,l_i,l_{i-1})$
第一个求和是对每个特征函数,里面的求和是对句子的每个字。
最后,我们可以将这些得分通过指数函数然后归一化转换成在0到1之间的概率$p(l|s)$
$p(l|s)=$ $exp[score(l|s) \over \sum_{ l’}exp[score(l’|s)] $ =$exp[\sum_{j=1}^m \sum_{i=1}^n \lambda_j f_j (s,i,l_i,l_{i-1}) ]\over \sum_{ l’}exp[\sum_{j=1}^m \sum_{i=1}^n \lambda_j f_j (s,i,l_i,l_{i-1}) ] $
4.特征函数举例
词性标注中,可以包含以下特征:
- $f_1(s,i,l_i,l_{i-1})=1 \: $ 如果$\: l_i=ADVERB$ 和第$i$个词以“-ly”结尾;否则,特征函数为0。如果和这个特征关联的权重$\lambda_1$是大的正数,这个特征表明我们倾向于把以“-ly”结尾的词标注为“ADVERB”。
- $f_2(s,i,l_i,l_{i-1})=1 \: $ 如果$ i=1,\: l_i=VERB$ 和这个句子一问号结尾时。否则,特征函数为0。同样,如果该特征的权重值$\lambda_2$ 为大的正数,就偏向于将问句里的第一个词标为VERB(例如 “Is this a sentence beginning with a verb?”)
- $f_3(s,i,l_i,l_{i-1})=1 \: $ 如果$l_{i-1}=ADJECTIVE$ 和$l_i=NOUN$。否则特征函数为0。同样的,一个正数意味着“NOUN”跟着“ADJECTIVE”后面。
- $f_3(s,i,l_i,l_{i-1})=1 \: $如果$l_{i-1}=PERPOSITION $和 $l_1=PERPOSTION$。一个负的权重$\lambda_4$对这个特征函数意味着“prepostion”后面不太可能跟着“preposition”,所以我们应该避免这种标签的产生。
这就是全部。总的来说,为了建立一个条件随机场,你只需要定义一系列的特征函数(依赖整个句子,当前位置,和附近的标签),给它们赋上对应的权重,然后对它们求和。如果需要的话,在最后把它们变成概率。
现在让我们回到前面并且比较一下CRF和其他类似的机器学习方法。
5.看起来像逻辑回归
CRF的概率形式$p(l|s)=$$exp[\sum_{j=1}^m \sum_{i=1}^n \lambda_j f_j (s,i,l_i,l_{i-1}) \over \sum_{ l’}exp[\sum_{j=1}^m \sum_{i=1}^n \lambda_j f_j (s,i,l_i,l_{i-1})] $ 看起来有些熟悉。这是因为CRF是逻辑回归的序列化版本:逻辑回归是一个用于分类的对数线性模型,CRF是一个用于序列标注的对数线性模型。
6.看起来像隐马尔可夫模型
回忆隐马尔可夫模型是另外一个用于词性标注的模型。CRF是计算一系列特征函数的得分,而HMM是一个用于序列标注的生成式模型。定义
- $p(l,s)=p(l_1)\prod p(l_i|l_{i-1}) p(w_i|l_i)) $
- $p(l_i|l_{i-1})$ 是转移概率(例如,介词后面是名词的概率)
- $p(w_i|l_i)$ 是发射概率(例如,“dad”是名词的概率)
CRF跟HMM比较怎么样?CRF更强大,它可以建模所有HMM能建模的,甚至更多。下面举个例子:
注意到HMM的对数形式为$log\:p(l,s)=log\:p(l_0)+\sum_{i}\:log\:p(l_i|l_{i-1})+\sum_i\:p(w_i|l_i)$ 。如果我们考虑这些对数概率为关联二进制的转移和发射特征的权重。这实际上是CRF的一个对数线性形式。
这样,我们就可以通过一些方式建立一个与HMM等价的CRF模型:
- 对HMM中的每个转移概率$p(l_i=y|l_{i-1}=x)$ ,定义一个人转移特征$f_{x,y}(s,i,l_i,l_{i-1})=1$ if $l_i=y\: and\:l_{i-1}=x$ 。给每个特征一个权重$w_{x,y}=log\:p(l_i=y|l_{i-1}=x)$ 。
- 类似地,对每个发射概率$p(w_i=z|l_i=x)$ 定义系列特征$g_{x,y}(s,i,l_i,l_{i-1})=1\:if \: w_i=z\:and \: l_i=x$ 。给每个特征一个权重$w_{x,z}=log\:p(w_i=z|l_i=x)$ 。
因此,$p(l|s)$ 通过CRF这些特征计算得到的分数与HMM计算的分数是成比例的,所有每个HMM都等价某个CRF。
然而,因为以下两个原因,CRF可以对更丰富的标签分布建模。
- CRF可以定义更大的特征集合。HMM本质是局部的(因为被限制到转移特征函数和发射特征函数,这些函数要求,每个词只取决于当前的标签,每个标签只依赖前一个标签),但是CRF可以使用更多的全局特征。以词性标注的一个特征为例,如果句子以问号结尾,这个词被标注为“VERB”的概率会增加。
- CRF可以有任意的权重。HMM的概率必须满足某种约束(例如,$0<=p(w_i|l_i)<=1,\sum_{w} p(w_i=w|l_i)=1$),但是CRF中的权重不受限制(例如$log\:p(w_i|l_i)$ 可以是任意的)
7.权重的学习
我们回到如何学习CRF的权重这个问题。毫无疑问的一种方式是使用梯度下降。假设我们有一系列的训练实例(被词性标注的句子)。随机初始化我们CRF模型中的权重。为了调整这些随机初始化的权重到正确的权重,对于每一个训练实例:
- 遍历每一个特征函数,然后对$\lambda_i$ 计算每一个训练实例对数概率的梯度。
${\partial} \over { \partial w_j} $$log\:p(l|s)=\sum_{j=1}^m f_i(s,j,l_j,l_{j-1})-\sum_{l’} \:p(l’|s)\sum_{j=1}^m f_i(s,j,l’_j,l’_{j-1} )$
- 注意梯度中的第一项是特征$f_i$ 在正确标注下的贡献,第二项是特征$f_i$在当前模型中的贡献。这就是你所期望采用的梯度上升公式。
- 将$\lambda_i$ 朝着梯度下降的方向移动:$ \lambda_i = \lambda_i+\alpha[\sum_{j=1}^m f_i(s,j,l_{j},l_{j-1})-\sum_l’p(l’|s)\sum_{j=1}^{m} f_{i}(s,j,l_{j}^{‘},l_{j-1}^{‘})]$
- 重复以上步骤直到停止条件(例如 更新低于某个阈值)。
换句话说,每一个步骤都在学习我们想要的模型和当前模型的状态的差异,然后使$\lambda_i$沿着这个差异的方向移动
8.找到最优标注
假设我们已经训练好了我们的CRF模型,现在有一个新的句子,我们怎么对它进行标注呢?
最简单的方式是对每个可能标签序列计算$p(l|s)$ ,然后选择是这个概率最大的标签序列。然而,对于有k种标签的集合和长度为m的句子,就会有$k^m$ 种可能的标签序列,时间复杂度是指数型。一个更好的方式是意识到线性链CRF满足最优化子结构性质,可以使用动态规划算法(多项式复杂度)找到最优标签序列,与隐马尔可夫模型中的维特比算法类似。
9.一个更有趣的应用
词性标注有些无聊,已经有很多词性标注器。什么时候会在生活中使用CRF呢?
假设你想从推特上挖掘人们在圣诞节上到礼物类型,你怎么知道哪些词是指礼物?
为了收集数据,我只是简单地寻找“我想要圣诞节balabala”和“我在圣诞节得到balabala”的短语。然而,一个更复杂的CRF的变种可以使用GIFT作为词性标注的一部分(甚至添加其他标签如gift-giver和gift-receiver,获得更多的信息,谁得到来自谁的东西),像对待一个词性标注问题。特征可以基于诸如如果前面的字是一个”gift-receiver”并且这个字之前是“gave“这个词是一个礼物或者如果这个词接下来的两个词是“for Christmas”,这个词也是一个礼物。
翻译自http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/