摘要:命名实体识别是找出文本中出现的人名、地名、机构名等,由于中英文的区别,中文本身没有分好词,在识别时,一种做法是先对文本分词后,再使用机器学习的方法进行识别,本文称之为基于词的方法(word-based);但是能不能不分词而直接识别呢(character-based)?识别效果又怎样?另外需要考虑的问题是,在识别时,是应该分别建立模型(one-at-a-time)识别不同类型的实体,还是用一个统一的模型来同时(all-at-once)识别所有的实体呢?本文对上述问题作了深入的研究,发现all-at-once,character-based方法的识别结果最好,而one-at-a-time,character-based方法虽然在机构名的识别上略差,但模型总的训练时间比all-at-once短很多.另外,本文实体识别是基于CRF模型,尽管只用了简单的特征模板,但对于人名地名,F-measure在90%左右,机构名87%左右.