基于关系权重的SVM文本分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着科学技术的日新月异，特别是互联网的快速发展，各种信息情报激增，人们可以通过各种手段快速获取大量的文本资料，但是如何对所获取的资料进行科学而有效地管理，如何运用计算机对文本进行自动分类是摆在人们面前的一个不可回避而又很有意义的课题。支持向量机作为一种强分类器，在文本分类中的应用获得了广泛的研究，成为现代信息处理的一个研究热点。本文在上述背景下，开展了基于关系权重的SVM文本分类的研究。本文首先介绍了支持向量机的理论，并对其在多类问题中的几种组合策略进行了分析和比较。同时阐述了文本分类的一些相关知识，比如向量空间模型、文本分类评价指标等。然后，深入分析了一种简单又常用的TF-IDF特征加权算法的特点，找出其分类精度不高的原因，在此基础上提出了一种基于关系权重的文本表示方法，通过引入关系权重，优化了文本表示，在文本向量中体现了不同特征项在不同类别中重要程度的差异，使得在此权重下不同类别的文本得到更准确的区分。同时，本文还采用六种不同的特征选择评估函数来计算关系权重，改进了文本向量的表示。接着，本文构造了一个基于关系权重的SVM中文文本分类系统。该系统采用“一对多”的方法来进行SVM文本分类，并且在文本排重模块中，引入了一个聚类算法，通过设定一个适当的聚类半径，达到聚类排重的目的，降低了系统的时间复杂度。最后，通过一个数码产品信息语料库进行了文本分类实验，实验结果表明：用大多数的特征选择评估函数来计算关系权重，对文本分类精度都有一定的优化和改进，其中以互信息效果最佳。实验表明基于关系权重的文本表示法，较之传统的TF-IDF文本表示法，能使文本分类精度得到提高。

著录项

作者
倪洁琼;
展开▼
作者单位

上海大学;

展开▼
授予单位上海大学;
学科计算机系统结构
授予学位硕士
导师姓名吴耿锋;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理 ;
关键词
关系权重; 信息情报; 支持向量机; 文本分类; 互联网;

相似文献

中文文献
外文文献
专利

1. 文本分类中基于熵的词权重计算方法研究 [J] . 陈科文 ,张祖平 ,龙军 . 计算机科学与探索 . 2016 ,第009期
2. 文本分类中基于改进的词语权重算法的研究 [J] . 侯艳钗 ,沈西挺 . 微计算机信息 . 2011 ,第006期
3. 基于向量空间模型的文本分类特征权重算法研究 [J] . 苏力华 ,朱章华 ,白文华 . 电脑知识与技术 . 2010 ,第033期
4. 基于最优权重的神经网络集成文本分类研究 [J] . 周朴雄 . 计算机应用研究 . 2008 ,第010期
5. 基于CNN-SVM的护理不良事件文本分类研究 [J] . 葛晓伟 ,李凯霞 ,程铭 . 计算机工程与科学 . 2020 ,第001期
6. 基于特征项权重改进的关联文本分类 [C] . . 第二十五届中国数据库学术会议(NDBC2008) . 2008
7. 基于TF-IDF的文本分类系统中权重计算和特征选择方法研究 [A] . 徐冬冬 . 2014

基于关系权重的SVM文本分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅