文摘
英文文摘
声明
第1章绪论
1.1引言
1.2中文分词发展现状及特点
1.2.1中文分词技术的发展
1.2.2中文分词系统的评价标准
1.3论文的结构
第2章中文分词基本算法研究
2.1中文分词的基本算法
2.1.1机械分词算法
2.1.2基于统计的分词算法
2.1.3基于理解的分词算法
2.1.4词性标注与角色标注
2.2中文分词技术面临的问题
2.2.1歧义词的处理
2.2.2未登录词的处理
第3章基于字典与统计的分词算法的设计
3.1本系统要解决的问题
3.2系统特点概述
3.2.1专用性
3.2.2精确性
3.2.3分词效率
3.3分词词典的设计
3.3.1基于哈希的分词词典机制
3.4统计策略的设计
3.4.1统计原理的选择与实现
3.4.2训练文本的选择
3.5机械分词的应用
3.6歧义和未登录词问题的解决
第4章基于字典与统计的分词算法流程及系统设计
4.1算法流程描述
4.2算法具体设计
4.2.1分词词典的加载
4.2.2待分字符串的预处理
4.2.3词频信息统计
4.2.4逆向最大匹配
第5章实验结果分析
5.1系统评价指标介绍
5.2系统初始化后的性能测试
5.2.1系统综合性能测试一
5.2.2歧义和未登录词处理能力测试一
5.3系统统计学习后的性能测试
5.3.1系统综合性能测试二
5.3.2歧义和未登录词处理能力测试二
5.4分词算法的比较
5.4.1机械分词算法的比较
5.4.2统计策略的比较
5.5分词系统测试实例展示
第6章系统的总结与展望
6.1论文总结
6.2中文分词系统的展望
参考文献
致谢
攻读硕士学位期间发表的论文