首页> 中文学位 >基于Web内容挖掘的网页分类与过滤研究与应用
【6h】

基于Web内容挖掘的网页分类与过滤研究与应用

代理获取

目录

文摘

英文文摘

第一章绪论

第二章基于Web内容挖掘技术的网页分类与过滤

第三章网页数据采集和预处理

第四章核心理论和算法

第五章系统的实现和试验分析

第六章结束语

附录:CUSIHWD的操作界面

参考文献

攻读硕士期间的论文发表情况及科研情况

致谢

展开▼

摘要

万维网(WWW)目前是一个巨大的、分布广泛的全球信息服务中心,它涉及到新闻、财经、广告、商务、文化、教育等信息服务。然而面对复杂而庞大的万维网,多数用户感到力不从心。如何有效地帮助用户从WWW上发现他们感兴趣的资源,已经成为一个迫切需要解决的课题。 根据中南大学校园信息港建设目标,我们设计和开发了CSUIHWD(中南大学信息港Web挖掘)系统。通过CSUIHWD对那些感兴趣的网页进行采集、过滤处理后,自动按主题归类,在中南大学信息港网站发布。CSUIHWD补充了校内网站的资源,加大了对Internet上资料的利用,并为建立智能搜索引擎打下了很好的基础。 论文首先介绍了数据挖掘和Web挖掘的一些基本概念、方法和技术,阐述了什么是数据和Web挖掘,为什么要进行挖掘。并介绍了CSUIHWD基于Web内容挖掘的网页分类与过滤技术和系统原型。然后着重对Web内容分类挖掘的一些关键技术进行了阐述,这些关键技术包括:Web网页数据的采集、中文的分词和分类器的建立它们是Web内容分类挖掘的核心。CSUIHWD由CsuRobot执行网页数据的采集,CsuRobot是一个类似于网络机器人的自动网页采集程序,它采用了多线程技术,可以同时执行多个采集任务:设计了反序机械分词词典,提高了逆向最大机械分词算法的分词速度,使用机械分词和统计分词相结合的方法,部分解决了未登录词问题;针对朴素贝叶斯分类算法没有考虑Web的半结构化,对所有的词“一视同仁”,本文考虑了那些对文本分类有特殊贡献的词,增加了它们的权重,对算法进行了改进,试验结果表明,这种改进是有益的。 最后对本文的工作进行了总结,并确定了以后进一步研究方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号