首页> 中文学位 >基于信赖度与潜力的中文分词处理
【6h】

基于信赖度与潜力的中文分词处理

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第一章 绪论

第一节 论文背景的介绍与问题提出

1.1.1 搜索引擎

1.1.2 自然语言处理

1.1.3 中文分词

1.1.4 中文分词的意义

第二节 中文分词处理的要求

第三节 论文的主要内容

第二章 中文分词算法的发展与现状

第一节 中文分词算法的发展

2.1.1 基于词典的机械分词

2.1.2 基于统计的分词方法

2.1.3 基于理解的分词方法

2.1.4 关于几种分词算法的比较

第二节 国内外中文分词的研究成果

2.2.1 中科院计算所ICTLAS

2.2.2 海量智能分词CSW

2.2.3 国内外其他的分词研究成果

第三章 基于信赖度与潜力模型的混合分词算法

第一节 词典模块

3.1.1 词典文件的生成以及词条抽取过程

3.1.2 嵌入式数据库

3.1.3 Berkeley DB

3.1.4 关于本系统对于词典数据结构的要求

第二节 分词算法模块

3.2.1 分词预处理模块

3.2.2 分词模块

第四章 系统实验结果和分析

第一节 词典模块查找效率的实验

4.1.1 实验方法

4.1.2 实验环境

4.1.3 实验结果

第二节 分词模块的实验

4.2.1 测试工具Edit Distance of the Word Separator(EDWS)

4.2.2 分词评测结果及对比以及其他

4.2.3 系统的改进

4.2.4 拆分举例

第五章 总结与展望

参考文献

致 谢

个人简历

展开▼

摘要

自然语言处理技术是一门融语言学、计算机科学、数学于一体的科学,它包含词法分析,语法分析和语义分析等几个部分。中文自动分词是中文语言处理的最关键的环节所在。在这一领域有国内外有很多的研究成果,也有很多的算法实现,目前来说分词算法主要分为机械分词,统计分词以及基于理解的分词三大类。本文将基于词典的机械分词与基于概率论的统计分词相结合,提出了一个混合分词系统,即基于信赖度和潜力的中文分词处理系统。
   本文阐述了机械分词领域与统计分词领域的基础理论、发展与研究成果,介绍了词典模块的生成,采用基于词条抽取和某些基于后缀数组的方法,从大量的语料库中获取一定量的词条与词频信息,并储存在Berkeley DB这一数据库中作为词典使用。使用本文提出的基于信赖度与潜力的分词算法对经过预处理的待切分文本进行处理。评价一个分词系统性能主要有三个方面的数据:分词准确度,召回率以及调和度。经实验证明,本系统在这三个方面都令人满意,准确度达到了约93.5%,召回率接近90%,调和度达到了0.91。对遇到的一些问题进行总结和分析,对需要改进和添加的功能进行补充,以便以后的研究者对系统不足的地方进一步地完善。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号