首页> 中国专利> 一种基于网页数据的高速主题爬虫方法

一种基于网页数据的高速主题爬虫方法

摘要

本发明涉及计算机数据挖掘技术领域,具体为一种基于网页数据的高速主题爬虫方法。本发明利用HTML下载器、BeautifulSoup4网页解析器、json格式规整器、异常处理机制except、多线程机制threading、I/O操作eventlet共同构成的一个爬虫方法。基于开源程序组件构建的爬虫,并且在利用原有技术框架的基础之上进行深度开发定制,满足各领域用户的特定需求,节省开发的时间与经费的成本。利用已有的成熟的多线程机制与异常处理机制与I/O操作,具备高速性、高自动化、高稳定性的特性,解决了普通爬虫速度慢,异常多的问题。使用的格式化存储机制特别适用于表格类数据库,使所爬取的目标数据能够快速的存储和调用。

著录项

  • 公开/公告号CN109165333A

    专利类型发明专利

  • 公开/公告日2019-01-08

    原文格式PDF

  • 申请/专利权人 电子科技大学;

    申请/专利号CN201810761246.9

  • 发明设计人 向勇;梁超;朱焱麟;

    申请日2018-07-12

  • 分类号

  • 代理机构电子科技大学专利中心;

  • 代理人闫树平

  • 地址 611731 四川省成都市高新区(西区)西源大道2006号

  • 入库时间 2024-02-19 06:47:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-02-01

    实质审查的生效 IPC(主分类):G06F16/951 申请日:20180712

    实质审查的生效

  • 2019-01-08

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号