首页> 中文学位 >适用于化工专业搜索引擎的中文分词系统的研究与实现
【6h】

适用于化工专业搜索引擎的中文分词系统的研究与实现

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1引言

1.2课题的研究背景

1.2.1中文分词技术的应用领域

1.2.2中文分词技术的发展现状

1.2.3中文分词技术的关键问题

1.2.4中文分词技术的未来发展趋势

1.3课题的研究目的和研究内容

1.3.1研究目的

1.3.2研究内容

1.4本章小结

第二章相关技术介绍

2.1中文分词的基本方法

2.1.1基于字符串匹配的分词方法

2.1.2基于理解的分词方法

2.1.3基于统计的分词方法

2.2开发语言和工具

2.2.1 Java语言简介

2.2.2 Apache Lucene简介

2.2.3 Eclipse 3.2简介

2.3其他相关技术

2.3.1 OOA,OOD和OOP

2.3.2设计模式

2.3.3 Unicode字符编码

第三章中文分词系统的设计

3.1分词系统的功能及要求

3.2分词系统框架

3.3分词系统设计原则

3.3.1外部接口设计

3.3.2系统界面设计

3.3.3词典机制设计

3.3.4分词机制设计

第四章中文分词系统的实现

4.1词典机制

4.1.1词典的物理结构

4.1.2词典的逻辑结构

4.2分词机制

4.2.1预处理模块

4.2.2源语句初分

4.2.3初分后语言信息处理

4.3外部接口

4.4系统界面

4.5本章小结

第五章实验结果与分析

5.1分词速度测试

5.2分词精度测试

5.3实验结果分析

第六章结论与展望

6.1本文结论

6.2后续工作展望

参考文献

致谢

研究成果以及发表学术论文

作者和导师简介

展开▼

摘要

中文分词技术属于自然语言处理技术范畴,它是中文信息处理中的一个重要环节,是中文语言理解、文献检索、机械翻译以及语言合成系统中最基本的一部分。对于中文搜索引擎而言,中文分词作为其核心技术之一,重要性不言而喻。同样,对于专业化的搜索引擎而言,针对专业词汇进行的分词优化尤其重要。 本文在对现有中文分词技术研究的基础上,设计并实现了一种应用于化工领域专业搜索引擎的中文分词系统,为实现互联网上化工类信息的快速准确获取提供了基础。 本文分别对中文分词系统的外部接口、系统界面、分词器进行了设计和实现,重点介绍了分词器的实现:分别介绍了包含大量化工词汇的分词词典的物理结构及其逻辑结构的设计和实现,分词算法对待切分文本的预处理,首字哈希结合二分查找的词典优化查询,以及结合路径选择机制而改进了的层进式最短路径切词算法;经过对分词系统分词速度与精度的实验分析,实验结果显示,在保证切分效率的同时,在一定程度上达到了消除歧义的效果。经实践证明,本分词系统达到了设计目标,可以为化工专业的搜索引擎提供良好的分词服务功能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号