首页> 中国专利> 一种基于网页数据的高速主题爬虫方法

一种基于网页数据的高速主题爬虫方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及计算机数据挖掘技术领域，具体为一种基于网页数据的高速主题爬虫方法。本发明利用HTML下载器、BeautifulSoup4网页解析器、json格式规整器、异常处理机制except、多线程机制threading、I/O操作eventlet共同构成的一个爬虫方法。基于开源程序组件构建的爬虫，并且在利用原有技术框架的基础之上进行深度开发定制，满足各领域用户的特定需求，节省开发的时间与经费的成本。利用已有的成熟的多线程机制与异常处理机制与I/O操作，具备高速性、高自动化、高稳定性的特性，解决了普通爬虫速度慢，异常多的问题。使用的格式化存储机制特别适用于表格类数据库，使所爬取的目标数据能够快速的存储和调用。

著录项

公开/公告号CN109165333A

专利类型发明专利
公开/公告日2019-01-08

原文格式PDF
申请/专利权人电子科技大学;
展开▼

申请/专利号CN201810761246.9
发明设计人向勇;梁超;朱焱麟;
展开▼

申请日2018-07-12
分类号
代理机构电子科技大学专利中心;
代理人闫树平
地址 611731 四川省成都市高新区(西区)西源大道2006号
入库时间 2024-02-19 06:47:53

法律信息

法律状态公告日

法律状态信息

法律状态
2019-02-01

实质审查的生效 IPC(主分类):G06F16/951 申请日:20180712

实质审查的生效
2019-01-08

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于网页数据的高速主题爬虫方法 [P] . 中国专利： CN109165333A . 2019-01-08
2. 一种基于搜索引擎的轻量级通用网页主题爬虫方法 [P] . 中国专利： CN103310026A . 2013-09-18
3. method for updating information content of a web page; method for providing a network server with web page refresh information from the terminal; network server that maintains a web page; terminal to maintain a connection to the network server that maintains the network page; computer program product stored on a physically readable medium by the computer and executable on a data processing device to maintain the web page; and computer program product, stored on a computer-readable physical medium and executable on a data processing device, to provide a network server with information about updates made on the web page. [P] . BRPI0614202A2 . 2011-03-15

机译：一种更新网页信息内容的方法;向网络服务器提供来自终端的网页刷新信息的方法;维护网页的网络服务器;终端保持与维护网络页面的网络服务器的连接;计算机程序产品，该计算机程序产品由计算机存储在物理可读介质上，并且可以在数据处理设备上执行以维护网页;以及存储在计算机可读物理介质上并且可以在数据处理设备上执行的计算机程序产品，以向网络服务器提供关于在网页上进行的更新的信息。
4. A method and system for making contents based on web by using database and web [P] . 韩国专利： KR20020003331A . 2002-01-12

机译：一种利用数据库和网页制作基于网页的内容的方法和系统
5. Transit-mode-based webpage accessing method, system, and crawler route server [P] . 美国专利： US9503506B2 . 2016-11-22

机译：基于过渡模式的网页访问方法，系统和爬虫路由服务器