离弦的博客

我若为王,舍我其谁


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 搜索

序列标注-3:CRF介绍

发表于 2018-01-23 | 分类于 ner |

        想象一下,你有来自贾斯汀·比伯的一天生活的的一系列快照,你想用它所代表的活动(吃饭、睡觉、开车等)来标记每个图像。你会怎么做?

        一种方法是忽略快照的顺序性质,并构建一个图像分类器。例如,给定一个月的被标记的快照,你可能知道,黑暗拍摄的图像往往是在早上睡觉,有耀眼的色彩图像往往是跳舞,汽车的图像往往在驾驶,等等。

        然而,忽略这个连续的方面,你会失去很多信息。例如,如果你看到一张嘴巴的特写照片是关于唱歌还是吃饭?如果你知道前一张图片是贾斯汀·比伯吃或做饭的照片,那么这张照片更有可能是关于吃的;如果,前一张图片包含贾斯汀·比伯唱歌或跳舞,那么这张照片可能暗示他在唱歌。

        因此,为了增加我们的标注的精度,我们应该结合它附近的照片的标签,而这正是一个条件随机场所能做的。

1.词性标注

        让我们使用更为常见的词性标注示例来进一步研究一些细节。在词性标注中,目标是用ADJECTIVE、 NOUN、PREPOSITION、VERB、ADVERB、ARTICLE等标签来标记句子(单词或记号的序列)。例如,对于句子“Bob drank coffee at Starbucks”,标注为”Bob (NOUN) drank (VERB) coffee (NOUN) at (PREPOSITION) Starbucks (NOUN)”。我们建立一个条件随机场对句子进行词性标注。就像任何的分类器,我们首先需要选择一组特征函数。

阅读全文 »

linux-2:用户目录下的配置文件

发表于 2018-01-22 | 分类于 liunx |

        在Ubuntu服务器的用户目录下,有以下几个文件:

  1. .bash_history
  2. .bash_logout
  3. .bashrc
  4. .profile

        “.”开头的文件都是隐藏文件。Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。Ken Thompson 的 sh 是第一种 Unix Shell,Windows Explorer 是一个典型的图形界面 Shell。

        Linux 的 Shell 种类众多,常见的有:

  • Bourne Shell(/usr/bin/sh或/bin/sh)

  • Bourne Again Shell(/bin/bash)

  • C Shell(/usr/bin/csh)

  • K Shell(/usr/bin/ksh)

  • Shell for Root(/sbin/sh)

阅读全文 »

linux-1:源码安装

发表于 2018-01-18 | 分类于 liunx |

        在linux系统中,源码的安装一般有3个步骤组成:配置(configure)、源码(make)、安装(make install),具体的安装方法一般作者都会给出文档,这里主要讨论配置(configure)。Configure是一个可执行脚本,它有很多选项,使用命令./configure –help输出详细的选项列表,如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
-bash-3.00# ./configure --help
Usage: configure [options][ host]
Options: [defaults in brackets after descriptions]
Configuration:
--cache-file=FILE cache test results in FILE
--help print this message
--no-create do not create output files
--quiet, --silent do not print `checking...' messages
--version print the version of autoconf that created configure
Directory and file names:
--prefix=PREFIX install architecture-independent files in PREFIX [/usr/local]
--exec-prefix=EPREFIX install architecture-dependent files in EPREFIX [same as prefix]
--bindir=DIR user executables in DIR [EPREFIX/bin]
阅读全文 »

序列标注-2:命名实体识别

发表于 2018-01-17 | 分类于 ner |

       SIGHAN是国际计算语言学会(ACL)中文语言处理小组的简称,其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”.Bakeoff则是SIGHAN所主办的国际中文语言处理竞赛,第一届于2003年在日本札幌举行(Bakeoff 2003),第二届于2005年在韩国济州岛举行(Bakeoff 2005), 而2006年在悉尼举行的第三届(Bakeoff 2006)则在前两届的基础上加入了中文命名实体识别评测。目前SIGHAN Bakeoff已成功举办了6届,其中Bakeoff 2005的数据和结果在其主页上是完全免费和公开的,但是请注意使用的前提是非商业使用(non-commercial):

    The data and results for the 2nd International Chinese Word Segmentation Bakeoff are now available for non-commercial use.

The Third SIGHAN Chinese Language Processing Bakeoff will feature two tasks:

  • Word Segmentation
  • Named Entity Recognition
阅读全文 »

序列标注-1:命名实体识别

发表于 2018-01-16 | 分类于 ner |

1.命名实体研究历史

        国外对于英文命名实体识别的研究开始比较早。1991年Rau在第7届IEEE人工智能应用会议上发表了“抽取和识别公司名称”的有关研究文章, 首次描述了抽取和识别公司名称的系统, 该系统主要采用启发式算法和手工编写规则的方法,1996年, 命名实体评测作为信息抽取的一个子任务被引入MUC-6 ,在其后的MUC-7的MET-2 以及IEER-99、CoNLL-2002、CoNLL-2003、IREX、LREC等一系列国际会议中, 命名实体识别都被作为其中的一项指定任务。

阅读全文 »

唐诗-1:复古的伟大继承人:李白

发表于 2018-01-16 |

复古的伟大继承人:李白

古风

大雅久不作,吾衰竟谁陈?
王风委蔓草,战国多荆榛。
龙虎相啖食,兵戈逮狂秦。
正声何微茫,哀怨起骚人。
扬马激颓波,开流荡无垠。
废兴虽万变,宪章亦已沦。
自从建安来,绮丽不足珍。
圣代复元古,垂衣贵清真。
群才属休明,乘运共跃鳞。
文质相炳焕,众星罗秋旻。
我志在删述,垂辉映千春。
希圣如有立,绝笔于获麟。

阅读全文 »

序列标注

发表于 2018-01-16 |

1.什么是序列标注?

        这是我们在NLP任务中一直面临的一个元问题,我们希望在一个序列中为每个元素分配一个标签。对我们来说,一个序列通常是一个句子,一个词是一个元素。我们试图分配的元素通常是词性、句法块标签(是名词短语、动词短语等的一部分),命名实体标记(这是一个人吗?)凡此种种,不一而足。信息提取系统(比如从电子邮件中提取会议时间和地点)也可以被视为序列标记问题。

1.1.任务:

$f:{X} {sequence} \to {Y} sequence $

$X:X_1 \: X_2\: X_3\:…X_L$

$Y:Y_1 \: Y_2 \: Y_3 \: …Y_L$

目标:$Given\:X,predcit\: Y$

阅读全文 »

训练集 验证集 测试集

发表于 2018-01-13 |

在机器学习中划分数据的过程中总是有几个疑问?

(1).Why only three partitions? (training, validation, test)?

(2).What is the difference between test set and validation set?

阅读全文 »
1…34
goingcoder

goingcoder

匆忙世间的闲人。

38 日志
8 分类
9 标签
RSS
GitHub
Creative Commons
Links
  • 陈冠希
© 2018 goingcoder
本站访客数: