首页> 中文学位 >交叉覆盖算法下文本分类的研究
【6h】

交叉覆盖算法下文本分类的研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第一章绪论

1.1研究的目的、意义及研究背景

1.2文本分类的定义

1.3文本分类的步骤

1.4国内外对文本分类研究

1.5本文的工作

第二章中文文本预处理

2.1汉语的特征

2.2分词概述

2.3文本分类中分词方法

2.4特征选择

2.5本章小结

第三章常见文本分类算法介绍

3.1中文文本分类算法概述

3.2常用分类算法介绍:

3.2.1 Rocchio算法

3.2.2 Bayes法

3.2.3 k近邻法(kNN)

3.2.4决策树法

3.2.5支持向量机(SVM)方法

3.2.6向量空间模型(VSM)法

3.2.7交叉覆盖法

3.3本章小结

第四章基于覆盖算法在文本分类中的应用

4.1覆盖算法在文本分类中的流程

4.2预处理

4.2.1分词

4.2.2进行特征提取

4.3交叉覆盖算法

4.4实验内容及结果

4.5实验结果的比较

4.6本章小节

第五章总结和展望

5.1总结

5.2发展与展望

参考文献

致谢

个人简历、在学期间的研究成果

展开▼

摘要

文本自动分类,是将非结构化的文本依据其内容指派到一个或多个预先定义的类别中去的一项技术,近10年来受到了人们越来越多的关注。这主要因为大量机器可读的电子文本的出现,迫切需要对文本进行有效地分类,以提高查找、阅读速度的结果。目前尽管己有许多技术和算法用于文本的自动分类,但是,对这些技术和算法本身效力的挖掘还远远不够,仍留有很大的改进空间。另外,还有新的分类方法尚待深入研究,特别是对于中文文本的自动分类,之前相关的研究工作相对较少,有名气的中文文本分类器更少。 文本分类器对于学习算法和分类的结果都是至关重要的一步。在学习算法和分类系统能够处理文本之前,文本必须转换成一种适当的表示形式。这种表示形式要在一定程度上能够捕获文本本身的语义内容。依据前面的要求,可以把中文文本分类技术过程描述为:文本数据集的搜集,中文文本的分词,高维的原始特征空间的降维计算,分类器的选择,分类结果的评价等。 本文所做工作如下: 1、介绍了文本分类相关概念,对现有文本分类方法进行了介绍; 2、为了从分词结果中获取对分类有用的信息,本文中使用不同的特征降维方法:互信息方法、相关系数法、文档频率法,及期望交叉熵法对分词结果进行降维处理,实验显示相关系数法对分类最为有效,期望交叉熵与互信息方法稍差,文档频率法效果最差; 3、本文还通过实验,对使用交叉覆盖算法作为分类器与使用SVM方法作为分类器进行比较,通过比较可以看出,交叉覆盖算法作为分类器对中文文本进行分类,在适当的维数和特征降维法下,具有较好的分类效果; 本文对中文文本分类进行了一些工作,但在本论文的基础上,还有需要改进和提高之处。因此,对中文文本分类的进一步研究工作可从如下三个方面展开: 1、本文文本表示模型采用的是向量空间模型,在向量空间模型方面,结合计算语言学,使用概念空间代替词空间;没有考虑到汉语词义之间的影响:中文分词采用的是中国计算所的ICTCLAS的分词结果,以后可以进一步研究如何提高分词的精确度; 2、对交叉覆盖算法进行改进,提高其分类正确率; 3、目前的分类体系为平面体系,可以在层次分类体系中考虑文本分类系统,使分类由平面向三维空间发展,以便大幅度提高分类算法的准确率和加快分类的速度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号