首页> 中文学位 >基于LSI和SVC的网页文本分类算法研究
【6h】

基于LSI和SVC的网页文本分类算法研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景及意义

1.2国内外研究现状

1.2.1国外研究现状

1.2.2国内研究现状

1.2.3网页文本分类需要进一步研究的工作

1.3论文主要研究内容

1.4论文结构

第二章网页文本分类的关键技术

2.1网页文本分类

2.1.1网页文本分类的数学描述

2.1.2网页文本分类的一般过程

2.2网页文本预处理

2.2.1网页文本提取

2.2.2中文分词

2.2.3去停用词

2.2.4文本表示

2.2.5特征选择

2.2.6特征值权重计算

2.3网页文本分类算法

2.4本章小结

第三章融合LSI和SVC的网页文本分类算法

3.1网页特征提取

3.2利用潜在语义索引降维

3.2.1特征矩阵降维

3.2.2特征权重的确定

3.3支持向量聚类的文本聚类

3.3.1支持向量聚类

3.3.2支持向量机训练

3.3.3聚类分配

3.4基于LSI和支持向量聚类的网页文本聚类算法

3.5本章小结

第四章融合LSI和SVC的网页文本分类算法实现与分析

4.1分类网页集准备

4.2实验平台的构建

4.3试验与结果分析

4.3.1试验

4.3.2数据分析

4.4本章小结

第五章总结与展望

5.1总结

5.2展望

参考文献

致谢

攻读硕士期间发表的论文

展开▼

摘要

随着网络的高速发展,许多的文档数据涌现在互联网上,自动文本分类技术变得极为重要,已渐渐成为组织和处理海量文档数据的关键性技术。文本预处理的好坏决定着分类器的分类性能。本文研究了文本预处理和文本分类算法,有效地提高了分类器的分类正确率和查全率。
   论文主要做了以下工作:
   (1)介绍了网页文本系统的概念与意义,介绍了几种新的网页文本分类算法,分析了现有的网页文本分类算法中存在的问题并对网页文本分类算法的发展方向做出展望;
   (2)将潜在语义索引理论知识应用到网页文本特征的降维,潜在语义索引通过奇异值分解技术将词频矩阵转化为奇异矩阵,通过潜在语义索引可以将文本中同义词、近义词用一词根代替,以降低网页文本的特征向量维度,达到减少计算量的目的;
   (3)将支持向量聚类应用于网页文本分类。支持向量聚类是一种基于小样本的聚类算法,能处理各种形状的聚类,无需事先指定聚类数目,而且参数少,容易处理文本特征向量的高维数据。针对网页文本分类的特点,采用小样本训练机制,减少了存储空间的占用并减少了后续训练的时间;实验表明,该方法可以提高网页文本分类的准确率。
   本文研究了基于潜在语义索引和支持向量聚类的网页文本分类算法,提高了网页文本分类算法的准确率。从理论上给出了这种方法可行性的依据,通过实验验证了这种方法的可行性和有效性,是一种具有应用价值和实际意义的网页文本分类方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号