WEB搜索引擎中信息采集技术的研究与改进

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

该论文主要研究Web搜索引擎的信息采集技术,重点为WWW搜寻算法.在对现有主要算法如广度优先算法、Backlink算法和PageRank算法进行分析比较的基础上,认为这几个算法没有考虑页面内容因素,比较适合于通用搜索引擎,而对于专题性搜索引擎来说,集中式搜寻算法更为有效.HITS算法、Context Graph算法是集中式搜寻算法的典型代表,但它们都存在着计算量大的缺点.Context Graph算法还需要巨大的训练页面集来产生上下文关系图,使得它们的实用性都大大降低.针对现有WEB搜寻算法的不足,该文认为采取页面内容分析和超链分析相结合的方法可以提高信息采集效率,提出了一个新的集中搜寻算法-均值-传递算法,用相关度来表示页面与专题的相关程度,用链接权重来表示链接环境对页面相关度的影响,采用均值-传递模型来预测页面相关度.在文章中,还针对集中式搜寻中的隧道效应等问题进行了探讨,提出了集中度自适应方法等辅助搜寻策略来进一步提高搜寻效率.通过对不同算法的分析和试验比较,在采集与某一专题相关的页面时,集中式搜寻算法比一般搜寻算法的相关页面采集效率要高的多,说明对专题型搜索引擎来说,集中式搜寻算法是一个非常好的选择.

著录项

作者
陈新明;
展开▼
作者单位

复旦大学;

展开▼
授予单位复旦大学;
学科计算机软件与理论
授予学位硕士
导师姓名张世永;
年度 2002
页码
总页数
原文格式 PDF
正文语种中文
中图分类软件工程;
关键词
搜索引擎; 信息采集; WWW遍历算法; 集中式搜寻; 均值-传递算法;

相似文献

中文文献
外文文献
专利

1. 搜索引擎中的web链接算法研究与改进 [J] . 王梅 . 电脑知识与技术 . 2009,第024期
2. 个性化搜索引擎中的Web数据挖掘技术研究 [J] . 高爱莲 ,刘增磊 . 饮食科学 . 2017,第06X期
3. Web数据挖掘在校园网搜索引擎系统中的应用研究 [J] . 牛凯 . 电脑开发与应用 . 2014,第001期
4. Web数据挖掘在校园网搜索引擎系统中的应用研究 [J] . 牛凯 . 中国信息化 . 2014,第011期
5. 搜索引擎中Web数据挖掘技术的应用价值研究 [J] . 穆瑞辉 . 数字技术与应用 . 2013,第001期
6. Web信息采集技术的研究进展 [C] . 庞景安 . 第二十二届全国计算机信息管理学术研讨会 . 2008
7. Web数据挖掘、信息采集技术研究及在网络新闻自动抓取中的应用 [A] . 戚扬 . 2012

WEB搜索引擎中信息采集技术的研究与改进

目录

摘要

著录项

相似文献

相关主题

期刊订阅