基于Web挖掘的中文网页分类的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在当今信息时代，网络已经成为人们获取各种信息的主要渠道。其中，网页是承载这些信息的最主要载体。目前，网页数量已经相当庞大，并且每天都还在增长，网页内容也混杂不堪。为了能够有效地组织和分析如此海量的网页信息，对网页按照其主题进行分类成了首要的任务。然而网页发展所带来的各种问题严重影响着网页分类系统的整体性能。
　　本文对已有的网页分类相关技术进行了深入地学习和分析，总结了其存在的不足，对影响网页分类系统性能的噪音和速度问题进行研究和改进。网页噪音的存在，严重影响分类结果的精度。因此，在本文的网页分类系统中，网页净化作为一个单独模块被提炼出来，并采用了改进的网页净化方法。该方法把网页结构规则和语义规则相结合，能够有效过滤网页中的噪音信息。针对提高网页分类系统运行效率的需求，本文采用了多项式核函数的SVM分类算法。模型训练中运用了泛化性能更好的基于超球体决策半径的改进二叉树训练方法，去提高训练速度。并对分类模型中决策函数的计算方式进行优化，以减少决策过程中的计算量，达到降低分类时间复杂度的效果。通过训练速度和分类速度的提高，最终提升了分类系统的运行效率。
　　最后，对本文所研究设计的中文网页分类系统进行了实现，测试了各模块及整个系统，实验结果验证了该系统的有效性和实用性。

著录项

作者
干文敏;
展开▼
作者单位

南京航空航天大学;

展开▼
授予单位南京航空航天大学;
学科计算机应用技术
授予学位硕士
导师姓名李俊;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
Web挖掘; 中文网页分类; 语义规则; 网页净化方法;

相似文献

中文文献
外文文献
专利

1. 中文网页分类的研究与实现 [J] . 程传鹏 . 中原工学院学报 . 2007,第001期
2. 基于Web挖掘和文档对象模型树的XML网页分类方法 [J] . 马勇 ,郑翔 ,鲜敏 . 微型电脑应用 . 2016,第007期
3. 基于Web信息挖掘的关联推荐算法研究与实现 [J] . 张章学 . 海峡科学 . 2014,第007期
4. 基于Web搜索的数据挖掘系统的研究与实现 [J] . 查志琴 ,高波 . 常州工学院学报 . 2011,第001期
5. 基于Web挖掘的个性化远程教学系统的研究与实现 [J] . 滕启龙 ,王健 . 福建电脑 . 2011,第006期
6. 中文网页分类方法的研究 [C] . 刘艳民 . 2009年全国开放式分布与并行计算学术年会 . 2009
7. 基于web挖掘技术的网页分类研究 [A] . 龚畅 . 2009

基于Web挖掘的中文网页分类的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅