基于类别概念的中文文本分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

网络技术的发展和Intemet的开放性使它逐步成为一个全方位的资源宝库，越来越多的信息通过互联网被传送到世界各地，互联网中也积聚了越来越多的信息，从发展的趋势来看，网络必将成为人们获取信息的主要来源。但互联网的组织杂乱，缺乏必要的条理，多且杂的信息使得人们从中获取自己感兴趣的内容变得越来越困难。从大量的数据中挖掘出有用的信息是数据挖掘的任务。文本作为互联网上主要的信息载体，随着互联网的迅速发展，文本挖掘也成为数据挖掘的热点之一。文本分类技术是文本挖掘的基础和核心。文本分类的方法包括人工分类和自动分类。传统的文本分类是基于人工方式的，这种方式缺点很多，如周期长、费用高、效率低、需要大量专业人员以及分类结果的一致性低等。20世纪90年代以后，基于机器学习的文本自动分类方法越来越成为主流。相比于人工方式，它具有周期短，效率高，节省人力资源，分类结果一致性高等优点。但文本自动分类研究开展以来，准确率一直不能达到令人满意的效果。在Intemet信息急剧膨胀的今天，为文本分类提供了广阔的发展空间，文本自动分类面临前所未有的机遇和挑战，如何提高分类准确率成为研究热点。向量空间模型是文本自动分类应用最广泛的模型之一，以向量空间模型为基础，我们研究发现，对文本的合理向量表示是实现正确分类非常关键的前提，而传统分类方法中，特征选择算法各有优劣，选择出的特征不能很好地代表文本，这在很大程度上制约了文本分类的准确率。我们以此为出发点，分析特征项应当具备的条件，并提出了基于类别概念的特征选择方法。区别于传统的特征选择方法只考虑文本词语的外在形式的做法，它以分析词语的语义概念为主，并且考虑特征的类别信息，选取单类别指示意义强的特征项，建立特征窄间。在实验中，我们对相同的数据集，在同一种分类算法上，对传统特征选择方法和我们提出的特征选择方法分别实验，实验数据表明我们的特征选择算法能够得到较高的准确率和召回率。

著录项

作者
王琳;
展开▼
作者单位

北京邮电大学;

展开▼
授予单位北京邮电大学;
学科电路与系统
授予学位硕士
导师姓名方勇;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.135.4;
关键词
文本分类; 向量空间模型; 类别概念;

相似文献

中文文献
外文文献
专利

1. 一种基于类别强信息特征和贝叶斯算法的中文文本分类器 [J] . 陈艳秋 ,孙培立 . 计算机应用与软件 . 2014,第008期
2. 用于中文文本分类的基于类别区分词的特征选择方法 [J] . 周奇年 ,张振浩 ,徐登彩 . 计算机应用与软件 . 2013,第003期
3. 基于类别特征向量表示的中文文本分类算法 [J] . 何建英 ,陈蓉 ,徐淼 . 计算机应用研究 . 2008,第002期
4. 基于类别核心词的朴素贝叶斯中文文本分类 [J] . 袁方 ,苑俊英 . 山东大学学报：理学版 . 2006,第3期
5. 文本分类中基于类别概念的特征选择方法 [J] . 杨奋强 ,刘玉贵 . 计算机系统应用 . 2009,第010期
6. 基于类别核心词的朴素贝叶斯中文文本分类 [C] . 袁方 ,苑俊英 . 第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006） . 2006
7. 基于语义概念的中文文本分类研究 [A] . 陈伟萍 . 2006

基于类别概念的中文文本分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅