主题爬虫
主题爬虫的相关文献在2004年到2022年内共计235篇,主要集中在自动化技术、计算机技术、信息与知识传播、测绘学
等领域,其中期刊论文200篇、会议论文11篇、专利文献4429篇;相关期刊107种,包括现代图书情报技术、电脑知识与技术、福建电脑等;
相关会议10种,包括第九届中国通信学会学术年会、2011年管理创新、信息技术与经济增长国际学术会议、2010年亚太青年通信与技术学术会议等;主题爬虫的相关文献由526位作者贡献,包括樊孝忠、汪涛、康丽等。
主题爬虫
-研究学者
- 樊孝忠
- 汪涛
- 康丽
- 刘景发
- 丁岳伟
- 刘林
- 刘柏嵩
- 包铁
- 彭涛
- 蒋宗礼
- 金明珠
- 陈晓云
- 黄炜
- 黄轩
- 丁益斌
- 万健
- 万文兵
- 任祖杰
- 关慧芬
- 刘乃文
- 刘兵
- 刘博良
- 刘国靖
- 刘文杰
- 卢正鼎
- 吕立
- 吴华意
- 吴和生
- 吴林
- 吴骏
- 周凤波
- 唐四云
- 夏崇镨
- 姚瑞波
- 宋宇
- 尉景辉
- 师军
- 廖秀秀
- 张倩
- 张哲成
- 张晨
- 张环
- 张雪松
- 张雷
- 徐凯旋
- 徐向华
- 徐明子
- 文坤梅
- 曾繁星
- 朱学芳
-
-
王辉;
刘蕾;
沈黄金;
田鑫宇;
朱大洲
-
-
摘要:
在网络舆情监测中,面对大量的网络信息,须借助先进的信息技术来实现网络舆情监测的自动化和智能化。对舆情监测系统中的主题爬虫技术、话题跟踪与检测技术、情感分类技术等关键技术的应用现状进行了梳理,可为舆情监测系统开发应用提供参考。
-
-
王小珍
-
-
摘要:
文章根据目前网络视听节目监管系统中视听节目数据采集技术的现状,通过分析归纳出目标Web页面编码元素的共有特征,提出一种基于视听节目识别技术的通用型模板主题爬虫程序,并分析研究网站遍历策略及多进程协同并行执行策略等关键技术,以大幅降低网络视听节目监管系统的维护成本,提高其监管工作的智能化水平,为研究建立高效的网络视听节目监管系统提供参考。
-
-
王安涛;
李征宇;
李贵
-
-
摘要:
对很多Web数据集成应用来说,领域Web发现能力至关重要。从目前来看,现有的主题爬取策略依然有效,并随之产生了不少依据这些策略的主题爬虫,然而配置主题爬虫困难且费时,因此提出基于排名机制的领域Web网页发现算法,该算法在现有的主题爬取策略之上,利用给定的样本网页集,使用基于排名的方法,系统地结合多种Web网页发现策略,迭代发现并提取领域Web新网页。实验表明,该方法具有较高的网页准确率,验证了方法的有效性。
-
-
陈卓聪;
孙杰
-
-
摘要:
随着互联网的快速发展,使得如何从海量的网络资源中快速准确地获取用户所需的信息成为一个关键问题。通用搜索引擎通过网页采集和索引为用户提供检索服务,但这种基于关键词匹配的检索方式,往往忽略用户真实查询意图的识别和匹配。垂直搜索引擎则通过缩小采集范围为特定领域和背景的用户提供专业化、定制化信息检索服务,是当前搜索领域研究的热点。主题爬虫是垂直搜索引擎的网页采集模块,在搜索路径上只保留与主题相关的网页,本文主要围绕主题爬虫的网页分析方法和搜索策略,探讨如何提高爬虫的指标性能。在以往的研究中,针对于链接结构评价和网页内容评价相结合的爬虫策略取得了较好的效果。但这种方法一般是将链接评价问题作为单目标问题处理,难以适应网页的多样性,同时全局搜索能力不强,容易陷入局部最优。经过对以上情况的分析,本文提出了一种加权判定遗传算法的主题爬虫策略,该策略在现有遗传算法爬行策略基础上新引入改进的TrustRank算法来提高反作弊能力和计算的网页的重要程度,采用多项网页内容信息来判断网页与主题的相关性,并通过选择遗传因子和设置适应度函数赋予这两项指标相应的权重来判定待下载网页的价值,在保证了利用遗传算法增强整体搜索性能的前提下,增强了爬取页面的重要性和主题相关性。相比于已有遗传算法,加权判定遗传算法的搜索策略能在一定程度上提高主题爬虫的查准和查全率,扩大爬虫的搜索范围,更符合用户的主题检索需求。
-
-
张梦元;
刘莉
-
-
摘要:
网页数据提取是人工智能与大数据相关课题学习与研究的一项重要内容。为了减轻编写主题网络爬虫程序工作,该文在主题爬虫的基础原理上,设计一套通用的Java爬虫程序。程序抽象了下载模块、内容处理模块和结果操作等核心内容,通过注解或xml配置等低代码方式,即可实现不同主题内容爬取工作。
-
-
高庆芳;
蒲宝卿;
包蕾
-
-
摘要:
对搜索引擎的原理结构进行深度剖析,经可行性认定后,将机器学习算法与现有的技术手段进一步融合提升,以Python为开发平台,以Context Graph为开发主题,构建并设计出可实现的目标爬虫系统.通过实际运用检测系统的实用性能,选择国内具有较大规模的汽车网站为研究对象,设置“汽车”为关键词对全部内容展开不同类别的爬取,进而分析所得结果,根据查全率、查准率和F1值综合评价系统的性能.与原有系统相比,升级后算法的模型准确性更好,在一定程度上提高爬取工作的效率.
-
-
-
东熠;
刘景发;
刘文杰
-
-
摘要:
基于关键词匹配检索的传统搜索引擎爬全率和爬准率较低,而使用基于语义检索的主题爬虫方法容易偏离主题与陷入局部最优.针对该问题,提出一种采用多目标蚁群优化算法的主题爬虫方法.构建主题爬虫领域本体和主题向量,以链接的锚文本相关度、链接所在网页主题相关度以及链接指向网页主题相关度为指标判断链接是否与主题相关,并建立链接主题相关度的多目标优化模型,将基于多目标优化的蚁群算法引入主题爬虫的链接选择过程,采用非支配排序和最近最远候选解法选取Pareto最优链接,以引导主题爬虫搜索方向并提升全局搜索性能.实验结果表明,与FCSA、WSE等传统主题爬虫方法相比,该方法爬准率更高,并且能更快抓取到主题相关度高的网页.
-
-
王宁邦;
徐博
-
-
摘要:
"互联网+"环境下重新思考高校移动网络文化建设、整合门户信息及其传播问题显得很有必要.综述了关于高校信息门户整合以及移动校园网络文化建设现状.提出"互联网+"环境下高校移动校园搜索引擎设计并对原型系统进行实现.高校移动校园搜索引擎内容包括:信息服务物理模型、整合数据源提供一站式信息服务、主题爬虫技术、累积网络行为,维系大学校园和学生情谊、挖掘平台隐性业务促进网络文化育人、"互联网+"环境下高校移动校园搜索引擎系统特点.对前端实现过程及技术、WebKit的渲染过程、规则爬虫数据采集等关键技术进行介绍,原型系统的网站采集、Android端和微信端显示效果进行呈现.通过高校移动校园搜索引擎建设对加强移动校园网络文化建设具有重要意义.
-
-
刘景发;
顾瑶平;
刘文杰
-
-
摘要:
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法.首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度.在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度.另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列.以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好.基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页.
-
-
Dong Qiao;
董巧
- 《中国移动通信信息安全管理与运行中心第七届信息安全专家论坛》
| 2017年
-
摘要:
随着移动互联网的飞速发展,移动应用安全检测需求不断增多,对移动应用商店主题爬虫采集能力的要求不断提升.网络爬虫爬行策略是影响主题网络爬虫抓取效率的重要因素.目前针对移动应用商店主题爬虫爬行策略的研究比较少,而普通的爬行策略又无法充分利用移动应用商店网站良好的层次结构进行高效爬取.基于此,本文针对移动应用商店的网站结构特点,提出了一种基于URL分类的爬行策略,并通过将该爬行策略实现后证明了其可行性与有效性.
-
-
WU Lin;
吴林;
WANG Yong-bin;
王永滨
- 《2017首届文化科技学术会议》
| 2017年
-
摘要:
互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算;另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank算法主题爬虫算法将网页主题相似度计算与传统的PageRank算法相结合,将网页链接结构与网页主题相关性结合在一起;另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率.
-
-
PENG Xiao-ming;
彭小明;
XIN Yang;
辛阳
- 《第九届中国通信学会学术年会》
| 2012年
-
摘要:
主题爬虫是主题搜索引擎的核心技术,已有的主题爬虫大多采用离线训练方式,需要大量已标记的训练样本,且不能使爬虫在爬行过程中增量学习新的知识,因而很难符合Web资源采集的需要.在线学习新下载页面可加速主题爬行过程、提高页面下载精度.本文介绍了通用爬虫和主题爬虫的区别,通过对增量朴素贝叶斯分类算法的研究,设计了一个基于增量贝叶斯分类器的主题爬虫,并介绍了爬虫的系统结构及关键部分的实现.
-
-
左晓骏;
张开拓
- 《2010年亚太青年通信与技术学术会议》
| 2010年
-
摘要:
随着互联网和WWW的迅速发展,互联网上的资源日趋丰富,为了帮助人们在浩瀚的网上信息中得到对自己有用的信息,基于互联网的各类信息检索服务应运而生并迅速发展.通用搜索引擎的功能已经十分强大,一般情况下可以满足用户的需求.垂直搜索引擎的出现,及时的解决了用户想查询具体专业或者行业的信息的问题,但是主题爬虫的爬行策略却影响了搜索引擎的准确度跟效率.本文通过分析主题爬虫的爬行策略,并结合基于文本内容的启发式策略和基于Web超链接评价的策略,给出了自己改进的一个搜索策略算法,并通过实验对比,改进的策略是有效可行的.
-
-
-
-
-
- 《2008年全国理论计算机科学学术年会》
| 2008年
-
摘要:
针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页.
-
-
王晓华;
沙芸;
梁峰
- 《2011年管理创新、信息技术与经济增长国际学术会议》
| 2011年
-
摘要:
随着Web的快速增长,从中获取全面、准确和高质量的信息变的越发困难。垂直搜索引擎作为解决通用搜索引擎局限性的一种潜在方案,有着智能化、专业化的特点,从而成为当前研究的热点。本文主要对垂直搜索引擎研究领域中涉及的关键技术和方法进行了综述,并对一些重要算法进行了详细介绍和讨论。
-
-
王晓华;
沙芸;
梁峰
- 《2011年管理创新、信息技术与经济增长国际学术会议》
| 2011年
-
摘要:
随着Web的快速增长,从中获取全面、准确和高质量的信息变的越发困难。垂直搜索引擎作为解决通用搜索引擎局限性的一种潜在方案,有着智能化、专业化的特点,从而成为当前研究的热点。本文主要对垂直搜索引擎研究领域中涉及的关键技术和方法进行了综述,并对一些重要算法进行了详细介绍和讨论。