基于类别的特征选择算法的文本分类系统

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本自动分类技术是自然语言处理的一个重要的应用领域,是替代传统的繁杂人工分类方法的有效手段和必然趋势.特别是随着互联网技术的发展,网络成为人们进行信息交互和处理的有效的平台,各种数字化的信息每天以极高的速度增长.面对如此巨大的信息,人工分类选择已经无能为力,计算机自动分类己成为网络时代的必然选择.目前,对于文本分类技术的研究,大多数研究者的精力主要放在各种不同分类方法的探索与改进上.然而,文本分类中的特征选择(或称特征提取、索引词选择)一直是文本分类的关键技术和瓶颈技术.所以,对特征选择算法的研究是十分必要的.该论文对文本分类中所涉及的各项技术进行了较全面的阐述,特别对当前文本分类中各种常用特征选择算法的性能以及优缺点进行了分析.通过以上分析,作者发现目前的索引词选择算法都是基于词频的,没有利用训练样本中的类别信息.为此,作者提出了一种新的基于类别的特征选择方法,并以此为基础设计了一个英文文本自动分类系统.接着,论文根据不同特征选择阈值下的分类性能,确定了特征选择的初始阈值,并在该阈值下,对系统完成了不同实验条件下的、面向大规模真实文本的分类性能测试,包括:在开放测试和封闭测试下系统的性能;在不同原始特征空间维数下的分类性能;相同条件下与SVM和Naive Bayes分类器的分类性能比较.之后,论文对测试结果进行了理论分析,确定了基于类别的特征选择算法能够在一定程度上提高分类系统的性能.进一步地,论文通过与Naive Bayes分类器在相同条件下的训练分类时间对比,分析了该文设计的基于类别的特征选择算法以及实现的分类系统的效率.最后,该文通过对上述实现技术的阐述及其对实验结果的分析,提出了一些关于文本分类及特征选择方法研究的见解,并对今后的研究工作进行了展望.

著录项

作者
蒋伟贞;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科计算机应用技术
授予学位硕士
导师姓名陶宏才;
年度 2004
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本自动分类; 特征选择; 向量空间模型; 支持向量机; 朴素贝叶斯;

相似文献

中文文献
外文文献
专利

1. 基于类别的特征选择算法的文本分类系统 [J] . 蒋伟贞 ,陶宏才 . 计算机应用 . 2005,第011期
2. 基于类别特征域的文本分类特征选择方法 [J] . 赵世奇 ,张宇 ,刘挺 . 中文信息学报 . 2005,第006期
3. 基于文本分类的Fisher Score快速多标记特征选择算法 [J] . 汪正凯 ,沈东升 ,王晨曦 . 计算机工程 . 2022,第2期
4. 基于交互作用的文本分类特征选择算法 [J] . 唐小川 ,邱曦伟 ,罗亮 . 计算机应用 . 2018,第007期
5. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程 . 2017,第012期
6. 文本分类中一种基于词类间概率分布的特征选择算法 [C] . 邢昊 ,张凌 . 全国搜索引擎和网上信息挖掘学术讨论会 . 2003
7. 基于术语离散因子的特征选择算法在文本分类中的研究 [A] . 韩霜 . 2020

基于类别的特征选择算法的文本分类系统

目录

摘要

著录项

相似文献

相关主题

期刊订阅