首页> 中文学位 >基于Web挖掘的中文网页分类的研究与实现
【6h】

基于Web挖掘的中文网页分类的研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

图表清单

注释表

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 论文组织结构

第二章 Web挖掘概述

2.1 Web挖掘基础

2.2 Web挖掘的分类

2.3 Web挖掘技术及应用

2.4 本章小结

第三章 中文网页分类技术

3.1网页分类模型

3.2 关键技术

3.3分类算法

3.4综合分析

3.5本章小结

第四章 网页正文净化模块的实现

4.1 存储结构设计

4.2 网页的特征分析

4.3 基于启发规则的单模型净化方法

4.4 实验

4.5 本章小结

第五章 基于SVM的网页分类实现

5.1 正文分词

5.2 特征选择

5.3 相关问题分析

5.4 基于多项式核函数的BT-SVM

5.5 实验及分析

5.6 本章小结

第六章 总结及展望

参考文献

致谢

在学期间的研究成果

展开▼

摘要

在当今信息时代,网络已经成为人们获取各种信息的主要渠道。其中,网页是承载这些信息的最主要载体。目前,网页数量已经相当庞大,并且每天都还在增长,网页内容也混杂不堪。为了能够有效地组织和分析如此海量的网页信息,对网页按照其主题进行分类成了首要的任务。然而网页发展所带来的各种问题严重影响着网页分类系统的整体性能。
  本文对已有的网页分类相关技术进行了深入地学习和分析,总结了其存在的不足,对影响网页分类系统性能的噪音和速度问题进行研究和改进。网页噪音的存在,严重影响分类结果的精度。因此,在本文的网页分类系统中,网页净化作为一个单独模块被提炼出来,并采用了改进的网页净化方法。该方法把网页结构规则和语义规则相结合,能够有效过滤网页中的噪音信息。针对提高网页分类系统运行效率的需求,本文采用了多项式核函数的SVM分类算法。模型训练中运用了泛化性能更好的基于超球体决策半径的改进二叉树训练方法,去提高训练速度。并对分类模型中决策函数的计算方式进行优化,以减少决策过程中的计算量,达到降低分类时间复杂度的效果。通过训练速度和分类速度的提高,最终提升了分类系统的运行效率。
  最后,对本文所研究设计的中文网页分类系统进行了实现,测试了各模块及整个系统,实验结果验证了该系统的有效性和实用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号