交叉覆盖算法下文本分类的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本自动分类，是将非结构化的文本依据其内容指派到一个或多个预先定义的类别中去的一项技术，近10年来受到了人们越来越多的关注。这主要因为大量机器可读的电子文本的出现，迫切需要对文本进行有效地分类，以提高查找、阅读速度的结果。目前尽管己有许多技术和算法用于文本的自动分类，但是，对这些技术和算法本身效力的挖掘还远远不够，仍留有很大的改进空间。另外，还有新的分类方法尚待深入研究，特别是对于中文文本的自动分类，之前相关的研究工作相对较少，有名气的中文文本分类器更少。文本分类器对于学习算法和分类的结果都是至关重要的一步。在学习算法和分类系统能够处理文本之前，文本必须转换成一种适当的表示形式。这种表示形式要在一定程度上能够捕获文本本身的语义内容。依据前面的要求，可以把中文文本分类技术过程描述为：文本数据集的搜集，中文文本的分词，高维的原始特征空间的降维计算，分类器的选择，分类结果的评价等。本文所做工作如下： 1、介绍了文本分类相关概念，对现有文本分类方法进行了介绍； 2、为了从分词结果中获取对分类有用的信息，本文中使用不同的特征降维方法：互信息方法、相关系数法、文档频率法，及期望交叉熵法对分词结果进行降维处理，实验显示相关系数法对分类最为有效，期望交叉熵与互信息方法稍差，文档频率法效果最差； 3、本文还通过实验，对使用交叉覆盖算法作为分类器与使用SVM方法作为分类器进行比较，通过比较可以看出，交叉覆盖算法作为分类器对中文文本进行分类，在适当的维数和特征降维法下，具有较好的分类效果；本文对中文文本分类进行了一些工作，但在本论文的基础上，还有需要改进和提高之处。因此，对中文文本分类的进一步研究工作可从如下三个方面展开： 1、本文文本表示模型采用的是向量空间模型，在向量空间模型方面，结合计算语言学，使用概念空间代替词空间；没有考虑到汉语词义之间的影响：中文分词采用的是中国计算所的ICTCLAS的分词结果，以后可以进一步研究如何提高分词的精确度； 2、对交叉覆盖算法进行改进，提高其分类正确率； 3、目前的分类体系为平面体系，可以在层次分类体系中考虑文本分类系统，使分类由平面向三维空间发展，以便大幅度提高分类算法的准确率和加快分类的速度。

著录项

作者
李家兵;
展开▼
作者单位

安徽大学;

展开▼
授予单位安徽大学;
学科计算机应用技术
授予学位硕士
导师姓名张燕平;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
特征降维; 文本分类; 覆盖算法; 表示形式; 向量空间模型;

相似文献

中文文献
外文文献
专利

1. 基于交叉覆盖算法的文本分类研究 [J] . 李家兵 . 滁州学院学报 . 2008,第005期
2. 基于交叉覆盖算法的文本分类 [J] . 王倩倩 ,段震 ,张燕平 . 计算机技术与发展 . 2007,第006期
3. 基于交叉覆盖算法的中文文本分类 [J] . 刘政怡 ,龚建成 ,吴建国 . 计算机工程 . 2006,第019期
4. 基于核覆盖算法的中文文本分类研究 [J] . 杨丽玲 . 吉林师范大学学报（自然科学版） . 2014,第004期
5. 覆盖算法下文本分类特征选择的研究 [J] . 段震 ,王倩倩 ,张燕平 . 计算机技术与发展 . 2008,第011期
6. 基于交叉覆盖算法的股票预测 [C] . 张晨希 ,张燕平 ,陈洁 . 第十四届中国神经网络学术会议 . 2004
7. 基于超球覆盖仿生模式识别的文本分类算法研究 [A] . 关吉萍 . 2013

交叉覆盖算法下文本分类的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅