首页> 中文学位 >化工专业词典结构设计及中文分词系统的开发
【6h】

化工专业词典结构设计及中文分词系统的开发

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1引言

1.2课题的研究背景

1.2.1中文分词技术的应用领域

1.2.2中文分词技术的发展现状

1.2.3中文分词技术的关键问题

1.2.4中文分词技术的未来发展趋势

1.3本文的研究目的和研究内容

1.3.1研究目的

1.3.2研究内容

1.4本章小结

第二章 中文分词系统的研究背景

2.1搜索引擎的未来发展趋势

2.2综合性搜索引擎与专业搜索引擎的区别

2.3化工专业搜索引擎中文分词系统的项目背景

2.4中文分词的基本方法

2.4.1基于字符串匹配的分词方法

2.4.2基于理解的分词方法

2.4.3基于统计的分词方法

2.5中文分词的词典机制

2.5.1基于整词二分的分词词典机制

2.5.2基于TRIE索引树的分词词典机制

2.5.3基于逐字二分的分词词典机制

2.6中文自动分词系统的评价标准

2.7开发语言和工具选择

2.8本章小结

第三章 中文分词系统的设计

3.1分词系统的设计

3.1.1分词系统框架结构

3.1.2分词系统的设计

3.2词典机制的设计

3.3分词机制的设计

3.4本章小结

第四章 中文分词系统的实现

4.1词典机制

4.1.1基础语言库的完善和扩充

4.1.2词典的物理结构

4.1.3词典的逻辑结构

4.2分词机制

4.2.1预处理模块

4.2.2分词算法实现

4.3系统界面

4.4本章小结

第五章 实验结果与性能测试

5.1分词速度测试

5.2分词精度测试

5.3测试结果分析

5.4本章小结

第六章 结论与展望

6.1本文结论

6.2后续工作展望

参考文献

致谢

研究成果及发表的学术论文

作者和导师简介

展开▼

摘要

中文分词是中文信息处理的重要的基础工作,是语义理解的最初环节,中文分词的准确与否直接影响后期语义分析的质量。对于搜索引擎而言,中文分词技术直接影响搜索结果,它是搜索引擎的核心技术之一。
   本文在研究现有中文分词技术的基础上,为了使中文分词技术适用于化工专业搜索引擎,设计并实现了一个专门针对专业化工词汇的中文分词系统,为化工专业领域的人士快速准确地获取信息提供帮助。
   本文设计和实现了系统界面和分词器,主要介绍了分词器的实现,包括分词词典机制和分词算法。分词词典机制主要涉及词典的物理结构和逻辑结构,采用基于字符串匹配的分词方法,结合化工专业词汇的构词特点,提出一种基于TRIE索引树的改进结构,以达到提高分词结果准确率的目的。首字散列表由汉字内码哈希得到首字的位置,沿着指针可查询其他字;分词算法是根据索引树的结构设计的搜索查询算法,沿着指针链搜索匹配字符。由词典建立和文件扫描方向的不同,可以进行正向匹配和逆向匹配验证分词结果。通过对系统进行的分词速度测试和分词精度测试的测试结果进行分析,证明本系统达到了预期目标,满足化工专业搜索引擎的分词需要,可以为化工领域提供更好的服务。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号