首页> 中文学位 >基于后缀数组SALM模型的中文分词研究
【6h】

基于后缀数组SALM模型的中文分词研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第一章绪论

第一节论文背景的介绍与问题提出

1.1.1 自然语言处理

1.1.2 中文分词的提出

第二节中文分词的意义与应用

第三节论文的主要内容

第二章中文分词研究基础理论

第一节中文分词算法的发展

2.1.1 基于词典的机械分词

2.1.2 基于信息论和概率论的统计分词

第二节国内外分词研究成果

2.2.1 国内研究成果

2.2.2 国外研究成果

第三节分词的难点

第三章基于后缀数组SALM模型的混合分词

第一节词典模块

3.1.1 Berkeley DB

3.1.2 SALM模型生成粗词典

3.1.3 生语料库预处理

3.1.4 词典的减枝

第二节分词模块

3.2.1句子字词表

3.2.2分词和歧义判断

3.2.3歧义的解决

第三节分词系统框架

第四章系统实验结果和分析

第一节词典模块的实验

4.1.1词典的查找效率

4.1.2词典的完备性

第二节分词模块的实验

第五章总结与展望

附录

参考文献

致谢

个人简历

展开▼

摘要

自然语言处理(NLP)是语言学和人工智能的一个交叉域,它研究人类自然语言的自动化产生和理解的问题,对于汉语来说,它涉及自动分词、词法分析、语法分析和语义分析等。其中,自动分词是语言处理其它方面的关键和前提。特别是随着中国计算机科学的发展,中文自动分词已经成为一项基础性课题。很多机构如公司、院校都成立了专门的研究部门,希望在中文自动分词技术有所突破。目前分词算法大概有几十种,可以归纳为三类:基于字符串匹配的机械分词、基于概率论和信息论的统计分词和基于理解的分词方法。由于中文自身的复杂性,中文自动分词有两个难点很难解决——歧义识别和未登录词识别。解决某一个难点已经成为评价一个分词系统好坏的重要标志之一。其它重要标志还包括分词准确率、召回率、分词速度等。 本文开始介绍了机械分词技术、统计分词技术。然后,提出并实现了一个基于后缀数组和句子字词表的分词方法。后缀数组是信息检索领域的通用高效技术,本文系统利用SAI_,M模型得到高频词条,经减枝后,用Berkeley DB把它们组织成一个分词词典。分词算法在利用句子字词表进行分词的同时,还能发现歧义,歧义句子采用最大句频原则进行切分。实验结果表明,本文系统的分词速度能达到50kb/s,分词准确率达到90%,值得进一步的研究。 本文最后总结了全文内容,并分析了本文系统存在的问题,提出了改进方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号