中文词法分析技术的研究与实现
RESEARCH AND IMPLEMENTATION OF CHINESE LEXICAL ANALYSIS TECHNOLOGY
摘要
Abstract
第1章 绪论
1.1 课题背景
1.1.1 中文分词研究的意义
1.1.2 词性标注和动词细分类研究的意义
1.2 词法分析的主要问题和方法及研究现状概述
1.2.1 中文分词的主要问题和方法概述
1.2.2 词性标注的主要问题和方法概述
1.2.3 动词细分类的研究现状概述
1.3 SIGHAN Segmentation Bakeoff 2005中分词方法评述
1.4 本文的结构
1.5 本章小结
第2章 基于词类的分词概率模型
2.1 语言模型
2.1.1 统计语言模型介绍
2.1.2 信源信道模型与统计语言模型
2.1.3 N-gram模型
2.1.4 数据平滑
2.2 基于词类的分词概率模型
2.2.1 模型的理论推导
2.2.2 词类的定义
2.3 本章小结
第3章 基于角色标注的未登录词识别
3.1 隐马尔科夫模型
3.1.1 隐马尔科夫模型的定义
3.1.2 Viterbi算法
3.2 未登录词识别的主要难点
3.2.1 未登录词与命名实体
3.2.2 未登录词识别的主要难点
3.3 角色的定义及角色语料库
3.3.1 角色的定义
3.3.2 角色语料库
3.4 基于角色标注的未登录词识别
3.4.1 角色标注的隐马尔科夫模型参数的训练
3.4.2 利用Viterbi算法进行角色标注
3.4.3 未登录词概率的计算
3.5 本章小结
第4章 词性标注与动词细分类研究
4.1 词性标注
4.1.1 词性标记集
4.1.2 基于隐马尔科夫模型的词性标注
4.2 动词细分类
4.2.1 动词细分类标注规范
4.2.2 基于改进隐马尔科夫模型的动词细分类
4.2.3 基于最大熵模型的动词细分类
4.2.4 动词细分类对比实验及其对句法分析的影响
4.3 本章小结
第5章 IR词法分析系统(IRLAS)的设计与实现
5.1 IRLAS介绍
5.2 IRLAS的流程与结构设计
5.2.1 切分词图介绍
5.2.2 系统流程及各模块介绍
5.2.3 系统结构设计
5.3 实验与结果分析
5.3.1 分词与词性标注评测方法
5.3.2 在2000年1月人民日报语料上的实验
5.3.3 在SIGHAN Segmentation Bakeoff 2005 PKU语料上的实验
5.4 本章小结
结论
参考文献
附录1 词法分析系统(IRLAS)在线演示及源代码共享情况介绍
附录2 第二届国际SIGHAN分词评测及IRLAS参赛情况介绍
附录3 词法分析系统(IRLAS)技术转让列表
附录4 信息检索研究室动词细分类标注规范
附录5 攻读硕士期间参与的研究与开发项目
攻读学位期间发表的学术论文
哈尔滨工业大学硕士学位论文原创性声明
哈尔滨工业大学硕士学位论文使用授权书
哈尔滨工业大学硕士学位涉密论文管理
致谢