首页> 中文学位 >基于语境和停用词驱动的中文自动分词研究
【6h】

基于语境和停用词驱动的中文自动分词研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

致谢

第一章绪论

1.1课题来源

1.2课题研究背景和意义

1.3中文信息处理

1.4本文的主要研究内容及组织结构

第二章中文自动分词

2.1中文自动分词研究的意义

2.2中文自动分词的研究方法

2.2.1基于字符串匹配的分词方法

2.2.2基于理解的分词方法

2.2.3基于统计的分词方法

2.3中文自动分词面临的问题

2.3.1汉语词的概念尚待解决

2.3.2中文分词的规范问题

2.3.3歧义消解

2.3.4未登陆词识别

2.4已实现的中文自动分词系统

2.4.1几个国内大学研究的分词系统

2.4.2微软研究院汉语句法分析器中的自动分词

2.5本章小结

第三章基于语境信息的分词模型

3.1语境信息

3.2局部概率偏见问题

3.3粗切分模型

3.4基于语料信息和语境信息的分词模型

3.5实验分析

3.6本章小结

第四章基于语境和停用词驱动的未登录词识别

4.1停用词

4.2停用词驱动的未登录词识别模型

4.3算法描述

4.4实验设计

4.4.1实验语料

4.4.2实验评价标准

4.5实验结果及分析

4.6本章小结

第五章 语境信息和停用词驱动的分词系统

5.1系统介绍

5.1.1系统框架

5.1.2系统界面

5.1.3用户使用说明

5.2系统实验示例

5.3本章小结

第六章 结束语

6.1总结

6.2展望

参考文献

攻读硕士学位期间参加研究的课题和发表的论文

展开▼

摘要

随着国民经济信息化的不断发展以及Internet的普及应用,中文信息处理成为一种热门的研究领域。因此,对中文自动分词技术的要求也越来越高,成为中文信息处理的一个前沿课题。
   未登录词对分词精度的影响超过歧义切分,因而成为提高中文分词质量的关键。语境和停用词中隐含着有助于未登录词识别的信息,合理利用能提高识别的质量。为此,本文针对以上关键问题进行研究,主要工作如下:
   (1)提出一种基于语境的中文分词模型。以往的分词算法大多只考虑语料信息或语境信息,这样会产生局部概率偏见问题。理论分析及实验表明综合考虑语料信息和语境信息可有效提高分词的质量。
   (2)提出一种基于停用词驱动的未登录词识别方法ROWS。以往大多方法基于停用词干扰未登录词识别这一理念,将其去除后再进行处理。只有很少方法利用规则对停用词进行了后处理,这种在切分结束后对其进行处理不但代价大而且效果不明显。基于此,在结合语料信息和语境信息或上下文信息的同时,对停用词进行建模,减少了局部概率偏见的影响,有效提高未登录词识别的质量。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号