首页> 中文学位 >面向汉语专有名词识别的支持向量机方法研究
【6h】

面向汉语专有名词识别的支持向量机方法研究

代理获取

目录

文摘

英文文摘

第1章绪论

1.1研究的目的和意义

1.1.1研究的背景和目的

1.1.2研究的意义

1.2国外专有名词识别的研究现状及分析

1.2.1基于规则的方法

1.2.2隐马尔可夫模型

1.2.3最大熵模型(Maximum Entropy)

1.2.4自助法(bootstrapping)

1.2.5决策树学C4.5

1.2.6基于实例的学习

1.2.7基于支持向量机的方法

1.2.8提升法(Boosting)

1.2.9多方法融合

1.2.10小结

1.3中文专有名词识别的研究现状及分析

1.3.1基于规则和统计的方法

1.3.2最大熵方法

1.3.3 HMM方法

1.3.4基于统计语言模型的方法

1.3.5存在的问题

1.4本文的主要研究内容

1.5本文的主要贡献

第2章统计学习理论和支持向量机

2.1经验风险最小化原则

2.1.1机器学习问题的简单描述

2.1.2经验风险最小化原则及其不足

2.2统计学习理论的主要思想

2.2.1函数集学习能力的描述-VC维

2.2.2结构风险最小化归纳原理

2.3支持向量机

2.3.1线性可分条件下的标准最优分类面

2.3.2线性不可分条件下的广义最优分类面

2.3.3高维空间的最优分类面

2.3.4支持向量机性能及误差的估计

2.4支持向量机的研究现状

2.4.1标准SVM的变形或改进算法

2.4.2 SVM与其它机器学习方法的有机结合

2.4.3设计快速有效的优化算法

2.4.4基于SVM的多类别分类方法

2.4.5不变性领域知识的使用

2.4.6支持向量机模型选择的研究

2.4.7 SVM在新领域的应用

第3章基于SVM的中国人名、地名识别

3.1引言

3.1.1统计与规则相结合的方法

3.1.2各类基于统计语言模型的方法

3.1.3其它方法

3.2专有名词识别中的语义特征

3.2.1计算机可读语义知识库的研究

3.2.2基于知网体系的语义特征

3.3基于SVM的中国人名识别

3.3.1人名识别的统计资源

3.3.2人名识别的特征空间

3.3.3人名识别的SVM方法

3.4基于SVM的地名识别

3.4.1地名识别的统计资源

3.4.2地名识别的特征空间

3.4.3地名识别的SVM方法

3.5本文使用的SVM工具

3.6实验结果及分析

3.6.1实验描述

3.6.2人名识别的实验结果及分析

3.6.3地名识别的实验结果及分析

3.7本章小结

第4章基于SVM的机构名称短语识别

4.1引言

4.1.1目前机构名称的主要识别方法

4.1.2本文中机构名称的识别方法

4.2粗糙集技术简介

4.3机构名短语构成规则的挖掘

4.3.1机构短语的基本组成规则

4.3.2基于语义搭配关系的机构名称构成规则

4.3.3无冗余机构名称构成规则的获取

4.4基于SVM的机构名称识别

4.4.1机构名称识别的特征空间

4.4.2机构名称识别的SVM算法

4.5实验结果

4.5.1实验描述

4.5.2机构名称短语识别的实验结果

4.6本章小结

第5章包含特征缩放因子估计的SVM方法

5.1引言

5.2特征选择的主要算法

5.2.1过滤法

5.2.2包装法

5.2.3嵌入法

5.3包含特征缩放因子的SVM方法

5.4基于遗传算法的特征缩放因子估计GA-SVM

5.4.1遗传算法的实现

5.4.2基于遗传算法的特征缩放因子值寻优

5.5专有名词识别的实验结果对比

5.5.1实验描述

5.5.2专有名词识别的实验结果对比

5.6 UCI部分数据库实验结果对比

5.6.1实验数据库的简述

5.6.2垃圾邮件过滤问题

5.6.3居民收入预测问题

5.7本章小结

第6章基于距离估计的多SVM集成方法

6.1引言

6.2集成方法

6.2.1分类器设计中的重采样方法

6.2.2分类器结果的加权投票方法

6.3目前的多SVM分类器集成方法

6.4基于距离估计的多SVM分类器集成方法

6.4.1算法的几何说明

6.4.2多个SVM分类器的训练方法

6.4.3多个SVM分类器的组合

6.5专有名词识别的实验结果对比

6.5.1专有名词识别的实验描述

6.5.2人名识别的实验结果对比

6.5.3地名识别的实验结果对比

6.5.4机构名识别的实验结果对比

6.6 UCI部分数据库实验结果对比

6.6.1实验描述

6.6.2垃圾邮件过滤问题

6.6.3页面广告识别问题

6.7本章小结

结论

参考文献

攻读博士学位期间发表的论文

哈尔滨工业大学博士学位论文原创性声明和使用授权书

致谢

个人简历及主要科研成果

展开▼

摘要

各种未收录的汉语人名、地名、以及机构名称短语等专有名词的自动识别,能够提高中文文本的分析理解能力,是自然语言处理领域的重要和基础性问题,同时也是一项具有较高价值的应用研究。的SVM分类器一般具有更少的支持向量数目,获得了更好的识别结果。研究了一种基于距离估计的多个SVM分类器集成方法。该算法首先通过对特定实例的训练学习,构造了不同的SVM分类器;然后采用一种距离估计的方法,将得到的若干不同SVM分类器以渐进的方式融合为一个单一的分类器。针对专有名词和部分UCI数据库的实验表明:对于类别边界存在交叉混杂区域的二类分类问题,该算法能够较单一分类器取得更好的识别精度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号