内容相关性驱动的Web资源离群点挖掘技术研究与系统实现

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。作为海量的信息来源,web可以看成是一个巨大的数据库,包含着各种各样有价值的信息。但由于Web信息来源极为广泛,信息发布带有很大的随意性,在为用户提供信息的同时,也造成了信息过载和信息污染。对Web资源进行必要的评测,有助于人们快速获取网上高质量的信息。基于内容相关性的web资源离群点挖掘就是研究如何从内容相关性的角度获取Web内容资源高质量的数据。
　　本文使用web内容离群点挖掘算法对web资源内容相关性质量进行量化评测,并实现了一个原型系统。该系统包含两个模块:web文本内容抽取和web文本内容离群点挖掘。在第一个模块中,针对新闻网页内容比较集中的特点,本论文采用基于统计的链接密度和链接文本密度的方法对HTML网页的正文进行抽取,并将相关内容集成到一个XML页面中；在第二个模块中,利用N—gram技术对获得的XML文件中各个文档进行建模,再应用文本内容离群点检测算法,检测出文档集中内容不相关的文本,并分析讨论了挖掘结果的合理性和效果。
　　实验结果表明,利用基于统计的链接密度和链接文本密度可以准确地对中英文页面正文内容进行抽取,同时利用基于距离的文本内容离群点检测算法,可以较为有效地发现同类文本集中内容不相关的网页。实验表明本文所实现的web资源内容相关性质量离群点挖掘系统具有一定的实用价值。

著录项

作者
金昊;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科计算机应用技术
授予学位硕士
导师姓名朱焱;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
Web内容质量; Web内容抽取; 内容离群点挖掘; DOM; VSM; N—gram;

相似文献

中文文献
外文文献
专利

1. Web资源内容质量的离群点挖掘系统研究 [J] . 金昊 ,苏在强 ,张龙飞 . 计算机光盘软件与应用 . 2010,第004期
2. Web网络中的离群数据挖掘技术研究与改进 [J] . 翁佩纯 ,张远海 ,马慧 . 现代电子技术 . 2017,第018期
3. 数据密集型计算环境下离群点挖掘算法设计与实现 [J] . 陈亚丽 ,张龙波 ,李彩虹 . 山东理工大学学报（自然科学版） . 2013,第005期
4. Ⅰ-Miner环境下三种离群点挖掘算法的设计与实现 [J] . 侯天子 ,朱焱 . 软件 . 2011,第011期
5. 基于聚类分析局部离群点挖掘改进算法的研究与实现 [J] . 赵战营 ,成长生 . 计算机应用与软件 . 2010,第011期
6. 基于离群点挖掘技术在成品油管道泄漏监测中的应用 [C] . 张洪奎 ,陈井军 ,刘瑞哲 . 第六届中国油气管道完整性管理技术交流大会 . 2018
7. 基于WEB的数据挖掘技术——WEB内容挖掘的设计与实现 [A] . 陈明建 . 2004

内容相关性驱动的Web资源离群点挖掘技术研究与系统实现

摘要

著录项

相似文献

相关主题

期刊订阅