文摘
英文文摘
声明
第一章绪论
1.1选题背景和意义
1.2现有的分词系统中的词性标注与未登录词识别
1.2.1几个早期的自动分词系统
1.2.2清华大学SEGTAG系统
1.2.3哈工大统计分词系统
1.2.4中科院计算技术研究所ICTCLAS分词系统
1.2.5北大计算语言所分词系统
1.2.6复旦分词系统
1.2.7中科院合肥智能所的Chiru系列分词系统
1.3目前还存在的问题
1.4本文所做的工作及研究目的
1.5本章小结
第二章统计汉语分词相关理论
2.1统计汉语分词的概率论基础
2.1.1最大似然估计
2.1.2条件概率
2.1.3全概率公式和贝叶斯公式
2.2统计语言模型
2.2.1统计语言模型定义
2.2.2一元语言模型
2.2.3马尔科夫过程
2.2.4条件随机场模型
2.3数据稀疏和平滑方法
2.3.1 Laplace算法
2.3.2 Good-Turing算法
2.3.3 Back off算法
2.3.4线性插值算法
2.3.5 Kneser-Ney算法
2.4本章小结
第三章改进的词典存储结构
3.1词典结构概述
3.2基于双数组Trie的词典结构的建立
3.2.1基本双数组Trie词典的建立
3.2.2二元双数组Trie词典结构
3.2.3改进的词典存储方式
3.3基于双数组Trie的词典结构的检索
3.2.1双数组Trie词典结构的检索
3.2.2二元双数组Trie词典结构的检索
3.5本章小结
第四章未登录词识别研究
4.1未登录词识别的目的和意义
4.2未登录词分类
4.2.1中国人名
4.2.2地名
4.2.3外国译名
4.2.4数词、时间词结构简单的未登录词等
4.3未登录词识别方法
4.3.1中国人名的识别方法
4.3.2地名的识别方法
4.3.3外国译名的识别方法
4.3.4数词、时间词结构简单的未登录词的识别方法
4.4本章小结
第五章词性标注研究
5.1引言
5.1.1、词性是什么
5.1.2、词语兼类
5.1.3、词性标注的意义和难点
5.2、词性标注方法
5.2.1、基于规则的词性标注方法
5.2.2、基于统计的词性标注方法
5.2.3、统计与规则相结合的词性标注方法
5.3、基于条件随机场的词性标注方法
5.3.1、数据预处理
5.3.2、基于条件随机场模型的词性标注的特征函数的选取
5.4、本章小结
第六章系统结构及实验
6.1未登录词识别与词性标注系统的系统结构
6.2实验
6.2.1、未登录词识别实验
6.2.2、词性标注实验
6.2.3、改进的词典结构实验
6.3本章小结
第七章总结和展望
7.1总结
7.2本文创新点
7.3展望
参考文献
攻读硕士学位期间发表的论文
致谢