加权判定遗传算法在数据采集中的研究

陈卓聪; 孙杰

首页> 中文期刊> 《计算机科学与应用》 >加权判定遗传算法在数据采集中的研究

加权判定遗传算法在数据采集中的研究

AI论文写作 >>

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

随着互联网的快速发展,使得如何从海量的网络资源中快速准确地获取用户所需的信息成为一个关键问题。通用搜索引擎通过网页采集和索引为用户提供检索服务,但这种基于关键词匹配的检索方式,往往忽略用户真实查询意图的识别和匹配。垂直搜索引擎则通过缩小采集范围为特定领域和背景的用户提供专业化、定制化信息检索服务,是当前搜索领域研究的热点。主题爬虫是垂直搜索引擎的网页采集模块,在搜索路径上只保留与主题相关的网页,本文主要围绕主题爬虫的网页分析方法和搜索策略,探讨如何提高爬虫的指标性能。在以往的研究中,针对于链接结构评价和网页内容评价相结合的爬虫策略取得了较好的效果。但这种方法一般是将链接评价问题作为单目标问题处理,难以适应网页的多样性,同时全局搜索能力不强,容易陷入局部最优。经过对以上情况的分析,本文提出了一种加权判定遗传算法的主题爬虫策略,该策略在现有遗传算法爬行策略基础上新引入改进的TrustRank算法来提高反作弊能力和计算的网页的重要程度,采用多项网页内容信息来判断网页与主题的相关性,并通过选择遗传因子和设置适应度函数赋予这两项指标相应的权重来判定待下载网页的价值,在保证了利用遗传算法增强整体搜索性能的前提下,增强了爬取页面的重要性和主题相关性。相比于已有遗传算法,加权判定遗传算法的搜索策略能在一定程度上提高主题爬虫的查准和查全率,扩大爬虫的搜索范围,更符合用户的主题检索需求。

著录项

来源
《计算机科学与应用》 |2022年第8期|1895-1903|共9页
作者
陈卓聪; 孙杰;
展开▼
作者单位

天津工业大学;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算技术、计算机技术;
关键词
主题爬虫; 数据采集; 遗传算法;

相似文献

中文文献
外文文献
专利

1. 磁共振弥散加权成像和灌注加权成像判定缺血半暗带的研究进展 [J] . 王佩佩 ,卢洁 ,李坤成 . 中华老年心脑血管病杂志 . 2014,第4期
2. 直肠MR扩散加权成像对淋巴结性质的判定与病理学的对照研究 [J] . 张留龙 ,王萌 ,李洪福 . 医疗卫生装备 . 2014,第1期
3. 加权相减靶心图对心肌缺血性质的判定研究 [J] . 陈五端 ,侯庆田 . 邯郸医学高等专科学校学报 . 1997,第003期
4. 加权相减靶心图对心肌缺血性质的判定研究 [J] . 陈五端 ,田嘉禾 . 中华核医学杂志 . 1993,第003期
5. 遗传算法中截止代数的判定 [J] . 穆艳玲 ,李学武 ,赵杰修 . 天津师范大学学报（自然科学版） . 2005,第001期
6. 改进观测质量加权约束的自适应遗传算法选站研究 [C] . Lin Zhao ,赵琳 ,Kunming Guo . 第十二届中国卫星导航年会 . 2018
7. MRI动态增强和扩散加权成像判定子宫内膜癌宫颈间质浸润的对照研究 [A] . 崔建民 . 2018

加权判定遗传算法在数据采集中的研究

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅