首页> 中文学位 >基于中文分词检索技术的企业名称查重系统的研究
【6h】

基于中文分词检索技术的企业名称查重系统的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1 研究背景

1.2 中文分词发展概述及现状

1.3 本文的研究内容及论文结构

第二章 中文分词概述

2.1 中文分词简介

2.2 中文分词算法的分类

2.3 中文分词算法的利弊对比

2.4 分词词典机制慨述

2.5 分词性能评价指标

2.6 小结

第三章 歧义消除技术与同音字和多音字处理

3.1 歧义的发现

3.2 分词歧义消解算法介绍

3.3 歧义处理的困难

3.4 同音字和多音字处理方法构思

3.5 小结

第四章 系统的设计与实现

4.1 系统设计的目的

4.2 系统总体设计

4.3 系统实现

4.4 系统的测试

4.5 小结

第五章 结束语

致谢

参考文献

展开▼

摘要

企业名称是企业申请登记时,由企业名称的登记主管机关核定,经核准登记注册后方可使用,在规定的范围内享有专用权。随着贵州经济的高速发展,企业的数量正在不断增长,面对如此众多的企业名称信息,充分利用计算机系统强大的查询检索功能,对企业名称的查重、分析有着重要的理论意义和现实意义。本文针对企业名称的特点重点研究和实现一种新的企业名称查重模块,本文的主要研究工作如下:
  1.中文分词技术在企业名称查重系统中的运用,中文分词技术,就是指将文本中每句话,利用分词算法拆分成词,以便于计算机对文本信息进行处理和理解的过程。它应用广泛,主要应用于信息检索,信息抽取,机器翻译等自然语言处理技术等。本文采用了一种典型的基于词典的中文分词算法——正向最大匹配算法,它的思想简单,并且易于实现,但是分词的精确度和速度并不理想。针对该问题,本文添加关键词切分,提升分词的速度,提高分词的精确度。
  2.针对企业名称的法定依据,本文中引进同音字和多音字处理模块,提出对企业名称中的字号进行拼音转换,并用穷举法罗列出所有的发音序列,再使用发音序列对企业名称进行查重,完成企业名称查重处理。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号