首页> 中文学位 >集成命名实体的文本分类特征选择方法研究
【6h】

集成命名实体的文本分类特征选择方法研究

代理获取

目录

文摘

英文文摘

论文说明:图、表目录

中国科学技术大学学位论文相关声明

第一章引言

1.1研究背景

1.2文本分类技术的发展

1.3目前文本分类方法存在的不足

1.4命名实体的引入

1.5本文主要工作和贡献

1.6论文组织结构

第二章文本分类概述及相关技术

2.1文本自动分类问题的一般描述

2.1.1获取训练文档集

2.1.2建立文档表示模型

2.1.3获得文档特征

2.1.4分类模型的建立

2.1.5分类性能评测

2.2特征选择和提取

2.2.1文本的特征选择

2.2.2常用特征选择方法

2.3常用分类算法

2.3.1简单向量距离分类法

2.3.2 KNN(K最近邻居)算法

2.3.3贝叶斯分类法

2.3.4基于投票的方法

2.3.5其它分类方法

第三章命名实体识别

3.1信息抽取

3.2命名实体识别问题的一般描述

3.3常用命名实体识别方法

3.3.1方法优缺点比较

3.3.2隐马尔科夫模型HMM

3.3.3 Viterbi算法

3.4命名实体识别系统描述及实验分析

3.4.1系统描述

3.4.2单词特征处理

3.4.3实验结果及分析

3.5本章小结

第四章基于支持向量机的文本分类

4.1支持向量机及其工作原理

4.1.1线性支持向量机

4.1.2非线性支持向量机

4.2基于SVM的文本分类

4.2.1文本分类中的SVM

4.2.2文本分类框架

4.3实验结果及分析

第五章集成命名实体的特征选择

5.1文本分类中命名实体的引入

5.2集成命名实体的特征选择方法

5.2.1主要思想

5.2.2算法描述

5.2.3集成命名实体的分类系统设计与实现

5.3实验及结果分析

5.4本章小结

第六章结论与工作展望

6.1结论

6.2进一步的工作

参考文献

致谢

攻读硕士学位期间的科研工作

展开▼

摘要

文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征,是影响文本分类器的分类性能的一个关键步骤。对于很多需要处理的文本信息中,包含了很多的命名实体,如某个行业的名人或者某个行业有名的企业等,从这些实体往往能够在很大程度上看出文本所属的类别。然而,现阶段的文本特征方法都只利用了关键词词形上的统计意义,而没有考虑关键词作为命名实体所含有的分类特征。 针对这一问题,本文提出了一种将命名实体识别NER(Named EntitvRecognition)集成到文本分类特征选择中的方法。该方法充分利用了命名实体作为信息载体的作用,在保留关键词的词形统计特征之外,还保留了单词作为命名实体的分类特征。主要工作和特色如下: 1)构建了一个基于HMM的命名实体识别系统。在该系统中,结合人名地名词典,对隐马尔可夫模型(HMM)进行调整,并引入人名地名字典和根据词形的未知词处理等有效的处理方法对识别过程进行修正,取得了较好的实体识别效果。 2)实现了一个基于SVM的文本分类系统,并在此系统的基础上对文本分类中特征数量与分类效果的关系进行了实验测试及分析。实验结果表明,在使用普通特征的情况下,分类效果并不是完全随着特征数的增加而提高,在特征数超过一定规模之后,随着所用特征数的增加,分类器的效果反而开始有所下降。 3)在前述工作的基础上,提出了一种结合命名实体识别的文本分类特征选择方法。该方法充分利用命名实体对文本信息的表达能力,通过实体识别方法能够获得其他普通特征选择方法无法得到的一些分类特征。实验结果表明,集成实体识别方法进行特征选择,文本分类的准确率得到了有效的提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号