首页> 中国专利> 基于pythonQT及智能算法的快速规则定制方法

基于pythonQT及智能算法的快速规则定制方法

摘要

本发明公开了基于pythonQT及智能算法的快速规则定制方法,涉及网页规则定制技术领域。本发明包括输入待爬取页面的URL,客户端通过URL加载页面;基于selenium提取页面中导航列表项;通过智能算法提取详情页正文部分;通过js技术从页面中获取页面元素规则,返回客户端;规则上传服务端,后台爬虫程序根据规则进行爬取。本发明通过selenium提取页面中导航列表项并过滤掉纵坐标大于浏览器高度的标签以及横坐标相同的个数小于基准值的标签;之后再通过智能算法提取详情页正文部分,避免了通过人工分析网站定制网页规则不适用多种繁杂的网站页面规则定制的问题,适用于与不同网站网页规则定制,提高网页规则定制效率。

著录项

  • 公开/公告号CN109271145B

    专利类型发明专利

  • 公开/公告日2021-12-14

    原文格式PDF

  • 申请/专利权人 科大国创软件股份有限公司;

    申请/专利号CN201811019150.1

  • 发明设计人 邢航;李森;汪明;

    申请日2018-09-03

  • 分类号G06F8/20(20180101);G06F16/9535(20190101);G06F16/954(20190101);

  • 代理机构31253 上海精晟知识产权代理有限公司;

  • 代理人冯子玲

  • 地址 230000 安徽省合肥市高新区文曲路355号

  • 入库时间 2022-08-23 12:57:43

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号