首页> 中文学位 >面向中文网络信息检索的自动分词系统设计与算法实现
【6h】

面向中文网络信息检索的自动分词系统设计与算法实现

代理获取

目录

文摘

英文文摘

学位论文独创性声明及学位论文授以使用声明

第一章绪论

1.1问题的提出

1.2文献综述

1.2.1中文网络信息检索

1.2.2中文搜索引擎

第二章中文自动分词技术及其发展概况

2.1什么是中文自动分词

2.2中文自动分词技术的研究现状

2.3不同中文自动分词技术介绍

2.3.1基于字符串匹配的分词方法

2.3.2基于理解的分词方法

2.3.3基于统计的分词方法

2.4中文自动分词技术的难点

第三章中文自动分词系统的设计与实现

3.1总体设计思想

3.1.1设计原则

3.1.2应用的技术及解决方案

3.2模块设计

3.2.1词处理模块的设计

3.2.2自动分词模块的设计

3.3算法改进

3.4例程与结果分析

第四章结论与展望

4.1系统特点与运行状况

4.2系统的不足与展望

4.2.1系统的不足

4.2.2系统展望

参考文献

后记

展开▼

摘要

中文分词作为中文信息处理的基础,已经吸引了众多国内外计算机专家的极大兴趣,同时也涌现出了许多中文分词系统。目前汉语自动分词方法主要包括基于字符串匹配的方法、基于统计的方法和基于理解的方法。 本文从理论上分析和比较了目前的各种汉语自动分词方法,对各种分词方法的技术特点进行了阐述,对自动分词发展现状和趋势作了概括性的总结。在系统设计上,阐述了适合本系统的分词方法和分词模块预期达到的性能指标,详细描述了汉语自动分词系统各个模块的具体设计,包括总体设计以及各模块设计等,同时给出了一些关键性的例程说明和程序设计的关键点总结。 本文还对分词算法作出一定的研究探索。在深入分析现有自动分词算法的基础上,着重研究了基于字符串匹配的汉语自动分词算法,引入双向匹配法预处理分词,同时运用词频统计方法进行歧义切分和未登录词识别。 基于上述研究结果,设计并实现了一个面向实际应用的中文自动分词系统。实验结果表明:在相同条件下,结合词频统计与规则处理后的匹配分词算法,较原算法分词速度更快。利用卡耐基梅隆大学分词评估系统进行评测,评测结果表明,改进后的匹配分词算法的查准率提高了3.57%,综合测度值提高了0.01,较原算法具有更好的性能。系统且具有较好的稳定性。 本文所包含的内容完全是面向应用的,具体的技术选择与整体的设计思想完全根据实际的应用需求而定,采用的都是比较成熟的技术,实现了理论联系实际。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号