文摘
英文文摘
第1章绪论
1.1研究的目的和意义
1.2主要统计语言模型
1.2.1 N-gram模型
1.2.2最大熵模型
1.2.3支持向量机模型
1.2.4矢量空间模型
1.3汉语词法分析
1.3.1汉语词法分析的研究内容
1.3.2汉语词法分析的研究现状
1.3.3词法分析后续处理步骤——句法分析的研究
1.4用于词法分析的数据资源建设
1.4.1词法词典的建设
1.4.2语料库的建设
1.5本文主要工作
1.5.1本文研究内容
1.5.2主要创新点
第2章N-gram模型改进方法研究
2.1引言
2.2改进N-gram模型平滑算法
2.2.1已有平滑算法综述
2.2.2已有平滑算法的总结
2.2.3基于词性信息改进Katz平滑算法
2.2.4基于词义相似度的Uni-gram平滑算法
2.3长距离触发对的抽取
2.3.1利用平均互信息抽取词触发对
2.3.2用于词法分析的转换触发对
2.4试验结果
2.4.1改进Katz平滑算法试验结果
2.4.2改进Uni-gram模型平滑算法试验结果
2.5本章小结
第3章基于REA算法的K-best汉语分词模型研究
3.1引言
3.2基于K-best分词模型的歧义词发现
3.2.1词网格的建立
3.2.2递归枚举算法
3.2.3计算K值
3.3基于最大熵模型的分词歧义消解
3.4基于多源知识表的人名识别研究
3.4.1姓(名)用字的统计规律
3.4.2姓(名)用字分类的目标
3.4.3姓(名)用字分类的具体方法
3.5基于有限自动机理论的因子词识别
3.6试验结果
3.6.1分词试验结果
3.6.2人名识别试验结果
3.7本章小结
第4章基于最大熵模型的词性标注研究
4.1引言
4.2传统HMM词性标注模型的问题
4.3复杂兼类词标注
4.4融合转换触发对的最大熵语言词性标注模型
4.4.1特征选择
4.4.2序列分类的Beam Search搜索算法
4.5音字转换的研究
4.6试验结果
4.6.1词性标注试验结果
4.6.2音字转换试验结果
4.7本章小结
第5章基于矢量空间模型的词义相似度计算研究
5.1引言
5.2基于矢量空间模型的词语聚类的研究
5.2.1坐标轴词的选择
5.2.2基于触发对建立词矢量空间模型
5.3试验结果
5.4本章小结
结论
参考文献
附录A INSUN-LEX词法分析软件输出结果
附录B基于ME模型的音宇转换结果
攻读博士学位期间发表的论文
哈尔滨工业大学博士学位论文原创性声明和哈尔滨工业大学博士学位论文使用授权书
致谢
个人简历