首页> 中文学位 >汉语分词中未登录词识别及词性标注的研究与实现
【6h】

汉语分词中未登录词识别及词性标注的研究与实现

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1选题背景和意义

1.2现有的分词系统中的词性标注与未登录词识别

1.2.1几个早期的自动分词系统

1.2.2清华大学SEGTAG系统

1.2.3哈工大统计分词系统

1.2.4中科院计算技术研究所ICTCLAS分词系统

1.2.5北大计算语言所分词系统

1.2.6复旦分词系统

1.2.7中科院合肥智能所的Chiru系列分词系统

1.3目前还存在的问题

1.4本文所做的工作及研究目的

1.5本章小结

第二章统计汉语分词相关理论

2.1统计汉语分词的概率论基础

2.1.1最大似然估计

2.1.2条件概率

2.1.3全概率公式和贝叶斯公式

2.2统计语言模型

2.2.1统计语言模型定义

2.2.2一元语言模型

2.2.3马尔科夫过程

2.2.4条件随机场模型

2.3数据稀疏和平滑方法

2.3.1 Laplace算法

2.3.2 Good-Turing算法

2.3.3 Back off算法

2.3.4线性插值算法

2.3.5 Kneser-Ney算法

2.4本章小结

第三章改进的词典存储结构

3.1词典结构概述

3.2基于双数组Trie的词典结构的建立

3.2.1基本双数组Trie词典的建立

3.2.2二元双数组Trie词典结构

3.2.3改进的词典存储方式

3.3基于双数组Trie的词典结构的检索

3.2.1双数组Trie词典结构的检索

3.2.2二元双数组Trie词典结构的检索

3.5本章小结

第四章未登录词识别研究

4.1未登录词识别的目的和意义

4.2未登录词分类

4.2.1中国人名

4.2.2地名

4.2.3外国译名

4.2.4数词、时间词结构简单的未登录词等

4.3未登录词识别方法

4.3.1中国人名的识别方法

4.3.2地名的识别方法

4.3.3外国译名的识别方法

4.3.4数词、时间词结构简单的未登录词的识别方法

4.4本章小结

第五章词性标注研究

5.1引言

5.1.1、词性是什么

5.1.2、词语兼类

5.1.3、词性标注的意义和难点

5.2、词性标注方法

5.2.1、基于规则的词性标注方法

5.2.2、基于统计的词性标注方法

5.2.3、统计与规则相结合的词性标注方法

5.3、基于条件随机场的词性标注方法

5.3.1、数据预处理

5.3.2、基于条件随机场模型的词性标注的特征函数的选取

5.4、本章小结

第六章系统结构及实验

6.1未登录词识别与词性标注系统的系统结构

6.2实验

6.2.1、未登录词识别实验

6.2.2、词性标注实验

6.2.3、改进的词典结构实验

6.3本章小结

第七章总结和展望

7.1总结

7.2本文创新点

7.3展望

参考文献

攻读硕士学位期间发表的论文

致谢

展开▼

摘要

本文主要介绍了汉语分词中未登录词识别与词性标注方法。未登录词是影响汉语分词准确率的一个重要因素,未登录词包括人名、地名、时间名、数词等,提高这类词的识别率能够在一定程度上提高汉语分词的准确率;词性标注是中文信息化处理的基础性工作,其任务是用计算机来自动地标注出文本中所有词的词性。词性标注在机器翻译、自动摘要、信息检索、Web文本挖掘、文本分类、文本校对、语音识别、语音合成等许多领域起着重要的作用,是自然语言处理的基础性课题。提高词性标注的准确率,是提高自然语言处理效果的基础之一,因此词性标注的方法研究具有重要意义。 本文采用了统计与规则相结合的方法对未登录词进行识别,该方法解决了基于规则的方法带来的规则获取瓶颈问题,同时克服了基于统计的方法过于依赖语料库的缺陷。实验证明,统计与规则相结合的方法能有效的提高汉语分词的准确率。 本文对词性标注的方法进行了研究,分析了基于规则的方法和基于统计的方法的优缺点。提出采用条件随机场模型,通过概率训练获得了模型参数。同时采用backoff参数平滑算法来解决了条件随机场模型的数据稀疏问题。最后,运用Viterbi算法以句子为单位进行词性标注。实验证明,基于概率统计的-阶条件随机场模型以及Viterbi算法能有效的解决汉语词性标注的问题。 另外,在汉语分词的词典结构方面,本文提出了一种基于双数组Trie加密的词典存储结构,该词典存储结构不仅能够有效地提高词典检索效率、降低词典的空间复杂度,并且克服了传统双数组词典结构装载时间过长的缺点,同时,该结构的加密存储方式能够有效保护词典信息不被窃取。对保护知识产权起到了重要的作用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号