首页> 中国专利> 基于html标签匹配的网页数据提取方法

基于html标签匹配的网页数据提取方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明是一种基于html标签匹配的网页数据提取方法，包括步骤：步骤1、预处理html代码，去除代码中的干扰因素；步骤2、遍历目标页面的html标签，并对其进行归类；步骤3、将目标数据与html标签进行匹配；步骤4、根据匹配结果，提取所有目标数据项。该方法可根据用户所需数据来进行提取，而不仅仅是局限于正文，标题等，且准确性高，速度快。

著录项

公开/公告号CN111274515A

专利类型发明专利
公开/公告日2020-06-12

原文格式PDF
申请/专利权人湘潭大学;
展开▼

申请/专利号CN202010210329.6
发明设计人张宇峰;李熠;曾豪;
展开▼

申请日2020-03-24
分类号
代理机构
代理人
地址 411105 湖南省湘潭市雨湖区羊牯塘街道湘潭大学
入库时间 2023-12-17 09:21:04

法律信息

法律状态公告日

法律状态信息

法律状态
2020-07-07

实质审查的生效 IPC(主分类):G06F16/957 申请日:20200324

实质审查的生效
2020-06-12

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于html标签匹配的网页数据提取方法 [P] . 中国专利： CN111274515A . 2020-06-12
2. 基于HTML标签的网页数据格式化方法 [P] . 中国专利： CN106294623A . 2017-01-04
3. WEBPAGE DATA EXTRACTION DEVICE AND WEBPAGE DATA EXTRACTION METHOD THEREOF [P] . 美国专利： US2018121558A1 . 2018-05-03

机译：网页数据提取装置及其网页数据提取方法
4. OPTICAL SPECTROSCOPY SYSTEM USING BROADBAND TRANSCEIVER BASED ON MATCHED FILTER FOR RELIABLE DATA EXTRACTION AND CONTROL METHOD THEREOF [P] . 韩国专利： KR20160053005A . 2016-05-13

机译：基于匹配滤波器的宽带宽带收发器光学光谱系统及其可靠的数据提取方法
5. A METHOD FOR DETECTING NEW CONTENT IN A TARGET WEB PAGE WITH REFERENCE TO A CONTROL WEB PAGE USING NORMALIZED TEMPLATE MATCHING [P] . SG98408A1 . 2003-09-19

机译：一种基于归一化模板匹配的控制网页中检测目标网页新内容的方法