首页> 中文学位 >基于统计的汉语词性标注方法的研究
【6h】

基于统计的汉语词性标注方法的研究

代理获取

目录

文摘

英文文摘

0前言

0.1自然语言理解概述

0.2机器翻译及其处理过程

0.3词性标注的意义

0.4标注词性的可能性和困难性

0.5词性标注应注意的问题

0.6兼类词及其特点

0.7词性标注的研究现状

0.8本文问题的提出及所做的工作

1词性标注统计模型

1.1 N-元标准统计模型

1.2基于统计的标注方法的基本问题

1.3参数获取方法

2完全二隐马尔可夫阶统计模型

2.1隐马尔可夫模型

2.1.1隐马尔可夫模型的形式描述

2.1.2 HMM的三个基本问题

2.2完全二阶模型参数

2.3.1词性概率的平滑

2.3.2词汇概率的平滑

2.4未登录词的词性标注

2.5改进的VITERBI算法

2.5.1改进的VITERBI算法变量

2.5.2完全二阶HMM模型VITERBI算法描述

2.5.3改进的VITERBI算法的复杂度

3词性标准系统的实现

3.1试验数据准备

3.1.1词性标注集

3.1.2训练语料准备

3.2系统的设计

3.2.1系统的开发环境

3.2.2系统功能要求

3.2.3系统接口定义及其数据结构

3.3系统实现描述

4测试结果及分析

4.1测试结果

4.2错误分析

5结论与展望

5.1结论

5.2展望

致谢

参考文献

附录

附录一:汉语基本词类标记集

附录二:定义

附录三:系统所用到的词典

大连理工大学学位论文版权使用授权书

展开▼

摘要

随着计算机的发展,用自然语言作为人机交互语言已是必然趋势,这就对自然语言处理的深度和广度提出了越来越高的要求.词性标注是自然语言处理中的一项基础性题课,词性标注的正误对汉语语料库标注、机器翻译和大规模文本的信息检索等都有重要的意义.该文对词性标注的方法进行了研究,分析了基于规则的方法和基于统计的方法的优缺点.获得上下文信息的多少和数据平滑的程度是评价词性标注统计模型性能的两个重要的参数.针对以前统计模型获取上下文信息有限的缺点,给出了一种针对汉语词性标注的、扩展的完全二阶隐马尔可夫模型,该模型方法比标准的统计模型获得更多的上下文信息.同时,该文采用性能稳定的基于线性插值的平滑算法解决了三元模型严重的数据稀疏问题.由于模型获取词汇概率和词性概率参数方法的改变,相应的修改了Viterbi算法.实验证明,这种新的完全二阶隐马尔可夫模型比现有的模型更能有效地提高汉语词性标注的正确率和消歧率.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号