您现在的位置: 首页> 研究主题> 主题爬虫

主题爬虫

主题爬虫的相关文献在2004年到2022年内共计235篇,主要集中在自动化技术、计算机技术、信息与知识传播、测绘学 等领域,其中期刊论文200篇、会议论文11篇、专利文献4429篇;相关期刊107种,包括现代图书情报技术、电脑知识与技术、福建电脑等; 相关会议10种,包括第九届中国通信学会学术年会、2011年管理创新、信息技术与经济增长国际学术会议、2010年亚太青年通信与技术学术会议等;主题爬虫的相关文献由526位作者贡献,包括樊孝忠、汪涛、康丽等。

主题爬虫—发文量

期刊论文>

论文:200 占比:4.31%

会议论文>

论文:11 占比:0.24%

专利文献>

论文:4429 占比:95.45%

总计:4640篇

主题爬虫—发文趋势图

主题爬虫

-研究学者

  • 樊孝忠
  • 汪涛
  • 康丽
  • 刘景发
  • 丁岳伟
  • 刘林
  • 刘柏嵩
  • 包铁
  • 彭涛
  • 蒋宗礼
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 王辉; 刘蕾; 沈黄金; 田鑫宇; 朱大洲
    • 摘要: 在网络舆情监测中,面对大量的网络信息,须借助先进的信息技术来实现网络舆情监测的自动化和智能化。对舆情监测系统中的主题爬虫技术、话题跟踪与检测技术、情感分类技术等关键技术的应用现状进行了梳理,可为舆情监测系统开发应用提供参考。
    • 王小珍
    • 摘要: 文章根据目前网络视听节目监管系统中视听节目数据采集技术的现状,通过分析归纳出目标Web页面编码元素的共有特征,提出一种基于视听节目识别技术的通用型模板主题爬虫程序,并分析研究网站遍历策略及多进程协同并行执行策略等关键技术,以大幅降低网络视听节目监管系统的维护成本,提高其监管工作的智能化水平,为研究建立高效的网络视听节目监管系统提供参考。
    • 王安涛; 李征宇; 李贵
    • 摘要: 对很多Web数据集成应用来说,领域Web发现能力至关重要。从目前来看,现有的主题爬取策略依然有效,并随之产生了不少依据这些策略的主题爬虫,然而配置主题爬虫困难且费时,因此提出基于排名机制的领域Web网页发现算法,该算法在现有的主题爬取策略之上,利用给定的样本网页集,使用基于排名的方法,系统地结合多种Web网页发现策略,迭代发现并提取领域Web新网页。实验表明,该方法具有较高的网页准确率,验证了方法的有效性。
    • 陈卓聪; 孙杰
    • 摘要: 随着互联网的快速发展,使得如何从海量的网络资源中快速准确地获取用户所需的信息成为一个关键问题。通用搜索引擎通过网页采集和索引为用户提供检索服务,但这种基于关键词匹配的检索方式,往往忽略用户真实查询意图的识别和匹配。垂直搜索引擎则通过缩小采集范围为特定领域和背景的用户提供专业化、定制化信息检索服务,是当前搜索领域研究的热点。主题爬虫是垂直搜索引擎的网页采集模块,在搜索路径上只保留与主题相关的网页,本文主要围绕主题爬虫的网页分析方法和搜索策略,探讨如何提高爬虫的指标性能。在以往的研究中,针对于链接结构评价和网页内容评价相结合的爬虫策略取得了较好的效果。但这种方法一般是将链接评价问题作为单目标问题处理,难以适应网页的多样性,同时全局搜索能力不强,容易陷入局部最优。经过对以上情况的分析,本文提出了一种加权判定遗传算法的主题爬虫策略,该策略在现有遗传算法爬行策略基础上新引入改进的TrustRank算法来提高反作弊能力和计算的网页的重要程度,采用多项网页内容信息来判断网页与主题的相关性,并通过选择遗传因子和设置适应度函数赋予这两项指标相应的权重来判定待下载网页的价值,在保证了利用遗传算法增强整体搜索性能的前提下,增强了爬取页面的重要性和主题相关性。相比于已有遗传算法,加权判定遗传算法的搜索策略能在一定程度上提高主题爬虫的查准和查全率,扩大爬虫的搜索范围,更符合用户的主题检索需求。
    • 张梦元; 刘莉
    • 摘要: 网页数据提取是人工智能与大数据相关课题学习与研究的一项重要内容。为了减轻编写主题网络爬虫程序工作,该文在主题爬虫的基础原理上,设计一套通用的Java爬虫程序。程序抽象了下载模块、内容处理模块和结果操作等核心内容,通过注解或xml配置等低代码方式,即可实现不同主题内容爬取工作。
    • 高庆芳; 蒲宝卿; 包蕾
    • 摘要: 对搜索引擎的原理结构进行深度剖析,经可行性认定后,将机器学习算法与现有的技术手段进一步融合提升,以Python为开发平台,以Context Graph为开发主题,构建并设计出可实现的目标爬虫系统.通过实际运用检测系统的实用性能,选择国内具有较大规模的汽车网站为研究对象,设置“汽车”为关键词对全部内容展开不同类别的爬取,进而分析所得结果,根据查全率、查准率和F1值综合评价系统的性能.与原有系统相比,升级后算法的模型准确性更好,在一定程度上提高爬取工作的效率.
    • 东熠; 刘景发; 刘文杰
    • 摘要: 基于关键词匹配检索的传统搜索引擎爬全率和爬准率较低,而使用基于语义检索的主题爬虫方法容易偏离主题与陷入局部最优.针对该问题,提出一种采用多目标蚁群优化算法的主题爬虫方法.构建主题爬虫领域本体和主题向量,以链接的锚文本相关度、链接所在网页主题相关度以及链接指向网页主题相关度为指标判断链接是否与主题相关,并建立链接主题相关度的多目标优化模型,将基于多目标优化的蚁群算法引入主题爬虫的链接选择过程,采用非支配排序和最近最远候选解法选取Pareto最优链接,以引导主题爬虫搜索方向并提升全局搜索性能.实验结果表明,与FCSA、WSE等传统主题爬虫方法相比,该方法爬准率更高,并且能更快抓取到主题相关度高的网页.
    • 王宁邦; 徐博
    • 摘要: "互联网+"环境下重新思考高校移动网络文化建设、整合门户信息及其传播问题显得很有必要.综述了关于高校信息门户整合以及移动校园网络文化建设现状.提出"互联网+"环境下高校移动校园搜索引擎设计并对原型系统进行实现.高校移动校园搜索引擎内容包括:信息服务物理模型、整合数据源提供一站式信息服务、主题爬虫技术、累积网络行为,维系大学校园和学生情谊、挖掘平台隐性业务促进网络文化育人、"互联网+"环境下高校移动校园搜索引擎系统特点.对前端实现过程及技术、WebKit的渲染过程、规则爬虫数据采集等关键技术进行介绍,原型系统的网站采集、Android端和微信端显示效果进行呈现.通过高校移动校园搜索引擎建设对加强移动校园网络文化建设具有重要意义.
    • 刘景发; 顾瑶平; 刘文杰
    • 摘要: 针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法.首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度.在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度.另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列.以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好.基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号