想象一下,你有来自贾斯汀·比伯的一天生活的的一系列快照,你想用它所代表的活动(吃饭、睡觉、开车等)来标记每个图像。你会怎么做?
一种方法是忽略快照的顺序性质,并构建一个图像分类器。例如,给定一个月的被标记的快照,你可能知道,黑暗拍摄的图像往往是在早上睡觉,有耀眼的色彩图像往往是跳舞,汽车的图像往往在驾驶,等等。
然而,忽略这个连续的方面,你会失去很多信息。例如,如果你看到一张嘴巴的特写照片是关于唱歌还是吃饭?如果你知道前一张图片是贾斯汀·比伯吃或做饭的照片,那么这张照片更有可能是关于吃的;如果,前一张图片包含贾斯汀·比伯唱歌或跳舞,那么这张照片可能暗示他在唱歌。
因此,为了增加我们的标注的精度,我们应该结合它附近的照片的标签,而这正是一个条件随机场所能做的。
1.词性标注
让我们使用更为常见的词性标注示例来进一步研究一些细节。在词性标注中,目标是用ADJECTIVE、 NOUN、PREPOSITION、VERB、ADVERB、ARTICLE等标签来标记句子(单词或记号的序列)。例如,对于句子“Bob drank coffee at Starbucks”,标注为”Bob (NOUN) drank (VERB) coffee (NOUN) at (PREPOSITION) Starbucks (NOUN)”。我们建立一个条件随机场对句子进行词性标注。就像任何的分类器,我们首先需要选择一组特征函数。