基于Web内容挖掘的网页分类与过滤研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

万维网(WWW)目前是一个巨大的、分布广泛的全球信息服务中心，它涉及到新闻、财经、广告、商务、文化、教育等信息服务。然而面对复杂而庞大的万维网，多数用户感到力不从心。如何有效地帮助用户从WWW上发现他们感兴趣的资源，已经成为一个迫切需要解决的课题。根据中南大学校园信息港建设目标，我们设计和开发了CSUIHWD(中南大学信息港Web挖掘)系统。通过CSUIHWD对那些感兴趣的网页进行采集、过滤处理后，自动按主题归类，在中南大学信息港网站发布。CSUIHWD补充了校内网站的资源，加大了对Internet上资料的利用，并为建立智能搜索引擎打下了很好的基础。论文首先介绍了数据挖掘和Web挖掘的一些基本概念、方法和技术，阐述了什么是数据和Web挖掘，为什么要进行挖掘。并介绍了CSUIHWD基于Web内容挖掘的网页分类与过滤技术和系统原型。然后着重对Web内容分类挖掘的一些关键技术进行了阐述，这些关键技术包括：Web网页数据的采集、中文的分词和分类器的建立它们是Web内容分类挖掘的核心。CSUIHWD由CsuRobot执行网页数据的采集，CsuRobot是一个类似于网络机器人的自动网页采集程序，它采用了多线程技术，可以同时执行多个采集任务：设计了反序机械分词词典，提高了逆向最大机械分词算法的分词速度，使用机械分词和统计分词相结合的方法，部分解决了未登录词问题；针对朴素贝叶斯分类算法没有考虑Web的半结构化，对所有的词“一视同仁”，本文考虑了那些对文本分类有特殊贡献的词，增加了它们的权重，对算法进行了改进，试验结果表明，这种改进是有益的。最后对本文的工作进行了总结，并确定了以后进一步研究方向。

著录项

作者
彭希鸿;
展开▼
作者单位

中南大学;

展开▼
授予单位中南大学;
学科计算机应用技术
授予学位硕士
导师姓名费洪晓;
年度 2003
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;TP393.092;
关键词
数据挖掘; Web挖掘; 分词; 网络机器人; 网页分类; 万维网;

相似文献

中文文献
外文文献
专利

1. 基于信息过滤后的Web内容挖掘 [J] . 谭汉松 ,李红 . 计算机工程与应用 . 2003,第030期
2. 基于数据挖掘的海量信息多媒体过滤技术研究与应用 [J] . 孙小杰 . 微型电脑应用 . 2019,第010期
3. 基于Python的协同过滤算法的研究与应用实现 [J] . 胡正江 ,兰海翔 ,卢涵宇 . 电脑知识与技术 . 2019,第025期
4. 基于最大期望和协同过滤算法的研究与应用 [J] . 范莹 ,郝琳娜 ,易华 . 计算机技术与发展 . 2017,第012期
5. 基于用户协同过滤推荐算法研究与应用 [J] . 陈强 . 福建电脑 . 2017,第001期
6. 基于XML的Web内容挖掘的研究 [C] . 沈贺丹 ,邵良杉 . 中南六省自动化学会第二十三届学术年会 . 2005
7. 基于Web内容挖掘的医药类广告监控系统的实现 [A] . 窦汝鹏 . 2011

基于Web内容挖掘的网页分类与过滤研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅