首页> 中文学位 >基于正向最大匹配算法的优化算法ImpFMMseg的实现
【6h】

基于正向最大匹配算法的优化算法ImpFMMseg的实现

代理获取

摘要

由于来自于网络的信息具备信息量大、信息来源复杂等特点,人们在查找自己需要的信息时,已经习惯使用搜索引擎作为信息筛选的工具。传统的主要查询模式有目录查询、关键词查询等,这些模式的应用在一定程度上简化了查询过程,即便如此,它们仍然存在各自的局限性。近年来,自然语言理解领域的中外专家们一直致力于将自然语言理解技术与搜索技术更好地结合。与传统查询模式相比,自然语言查询模式的优势在于它的人性化和以保证查询效率为前提的准确率。汉语自动分词是目前中文信息处理领域公认的一大难题,也是自然语言理解研究领域中最基本的一个环节。中文自动分词就是将用自然语言书写的文章、句段经计算机处理后,以词为单位逐词输出,为紧随其后的加工处理提供先决条件。可见,中文自动分词是自然语言处理的第一个步骤,其重要性勿庸置疑。在本文的四个章节中,笔者研究了中文自动分词的背景、发展现状及课题意义,分析了中文自动分词的三种常用算法并比较了它们的优劣,简要介绍了常用的几种汉字编码规范,最后对基于字符串匹配的分词算法中的正向最大匹配法给出了一种改进算法ImpFMMseg,该算法采用Trie树对词典的索引结构进行改进,同时增加了四条歧义消解规则,有效地将分词准确率和召回率分别提高了3个多百分点,并对比了分别应用四条歧义消解规则的分词效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号