一种提取类核的快速文本分类方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着电子文本呈指数级的增长，自动文本分类技术得到了越来越多的关注，这种根据文本内容自动将文本分门别类的技术为人们快速有效地组织文本和挖掘有价值的信息提供了有力的帮助。近年来，自动文本分类技术的研究获得了长足的发展，涌现出了许多新的技术和方法，但是，这些技术与方法在大规模的应用背景下仍然存在很多困难，仍然有许多课题值得研究。
　　从研究路线角度来看，文本分类方法大致分为两种：经验主义的方法和理性主义的方法，前者的典型代表是基于机器学习的文本分类，是当今的主流方法，而后者则以基于概念的文本分类为代表。在综合分析二者的优势与不足的基础上，并受人工分类时认知过程的启发，提出了一种提取类核的文本分类方法。该方法是两条路线的有机结合，采用理性主义的方法搭建分类框架，但分类知识采用经验主义的方法由机器自动获取。提取类核的中心思想是：在自然语言中，词语是用来表达概念的，因此如果文本中那些含有类别信息的词语能够被发现，那么通过为每个类别构造具有这种性质的特征集合，即类核，计算机也同样能够根据文本内容，以类核为指导，实现自动的文本分类。本文设计了两种具体的类核提取方法：经验法和圆心法，定义了指标——类别贡献度作为衡量特征入选类核的唯一标准。类别贡献度反映了特征项包含类别信息的多少和对分类贡献程度的大小，类别贡献度的计算充分考虑了特征项在类内、类间的词频分布和文档频率分布。类别贡献度不仅是选择类核特征的依据，而且作为一种分类知识被保留下来，为后续分类提供指导。在类核的基础上设计了一种称之为彩票算法的分类算法，本质上是一种特殊的集合运算。
　　相比于传统的分类模型，提取类核的分类模型更为简洁，在设计的实验系统中，将本文方法与四种常用的特征选择方法和两种经典的分类算法进行了对比，结果表明，本文方法很好的兼顾了分类的精度与速度两项主要指标，分类性能稳定，分类速度上有较大优势。

著录项

作者
张建兴;
展开▼
作者单位

兰州理工大学;

展开▼
授予单位兰州理工大学;
学科计算机应用技术
授予学位硕士
导师姓名於时才;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;算法理论;
关键词
自动文本分类; 提取类核; 类别贡献度; 彩票算法;

相似文献

中文文献
外文文献
专利

1. 一种基于深度学习的中文文本特征提取与分类方法 [J] . 曹鲁慧 ,邓玉香 ,陈通 . 山东科学 . 2019,第006期
2. 一种基于PCA的组合特征提取文本分类方法 [J] . 李建林 . 计算机应用研究 . 2013,第008期
3. 一种基于特征提取的二级文本分类方法 [J] . 邹丽娜 ,凌捷 . 广东工业大学学报 . 2012,第004期
4. 一种基于 k最近邻的快速文本分类方法 [J] . 张庆国 ,张宏伟 ,张君玉 . 中国科学院研究生院学报 . 2005,第005期
5. 一种快速高效的文本分类方法 [J] . 石志伟 ,刘涛 ,吴功宜 . 计算机工程与应用 . 2005,第029期
6. 基于词性特征提取的藏文文本分类方法研究 [C] . 贾会强 ,刘晓丽 ,于洪志 . 2011年中国计算机学会服务计算学术会议(CCF NCSC2011) . 2011
7. 基于改进哈希算法的快速KNN文本分类方法 [A] . 夏青松 . 2012

一种提取类核的快速文本分类方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅