文摘
英文文摘
声明
1绪论
1.1研究背景和意义
1.1.1研究背景
1.1.2研究意义
1.2自然语言处理的基本方法
1.3国内外研究概况
1.3.1新词识别研究概况
1.3.2命名实体识别研究概况
1.3.3组块分析研究概况
1.4本文主要工作和内容组织
1.4.1本文主要工作
1.4.2本文内容组织
2统计语言模型
2.1 N-gram模型
2.1.1 N-gram模型介绍
2.1.2数据平滑方法
2.2隐马尔科夫模型
2.3最大熵模型
2.3.1最大熵模型介绍
2.3.2最大熵原理的数学表示
2.4支持向量机
2.4.1最优分类超平面
2.4.2核函数
2.4.3多分类问题
2.5 Boosting算法
2.6条件随机域
2.6.1无向图模型
2.6.2条件随机域的图结构
2.6.3条件随机域的势函数表示
3基于互信息与串频统计的新词识别
3.1新词的定义和特征
3.1.1新词的定义
3.1.2新词的特征
3.2互信息基本理论
3.2.1随机变量及其特征
3.2.2熵、联合熵和条件熵
3.2.3互信息
3.3基于互信息和串频统计的新词识别
3.3.1潜在新词串
3.3.2新词识别
3.3.3实验结果
4基于有向图模型与分词一体化的命名实体识别
4.1基于有向图的语言模型
4.1.1分词有向图的建立
4.1.2有向图中边的权值
4.1.3正确切分路径的选择
4.2与分词一体化的中国人名识别
4.2.1中国人名的构成特点
4.2.2候选中国人名的生成
4.2.3中国人名的识别
4.3与分词一体化的中国地名识别
4.3.1词语级中国地名的特征
4.3.2候选地名的生成
4.3.3中国地名的识别
4.4与分词一体化的外国译名识别
4.4.1外国译名的构成
4.4.2候选外国译名的生成
4.4.3外国译名识别
5基于DR-AdaBoost算法的汉语组块分析
5.1汉语组块的定义
5.1.1组块的定义
5.1.2组块的类型
5.2组块的标注形式和评测方法
5.2.1组块的标注形式
5.2.2组块分析结果的评测方法
5.3基于有向图模型的汉语组块分析
5.3.1组块分析有向图
5.3.2有向边权值计算和路径选择
5.3.3实验结果
5.4基于DR-AdaBoost的汉语组块分析
5.4.1 Boosting与AdaBoost算法简介
5.4.2改进的AdaBoost算法:DR-AdaBoost
5.4.3 DR-AdaBoost在UCI数据集上的测试
5.4.4 DR-AdaBoost在CoNLL-2000共享数据集上的测试
5.4.5基于DR-AdaBoost的汉语组块分析
6总结与展望
参考文献
创新点摘要
攻读博士学位期间发表学术论文情况
致谢