首页> 中国专利> 一种基于HTML源代码和网页快照的Web信息抽取方法与系统

一种基于HTML源代码和网页快照的Web信息抽取方法与系统

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明给出了一种基于HTML源代码和网页快照的Web信息抽取方法与系统，包括通过收集网页快照训练数据，在网页快照训练数据中标注表征网页快照训练数据的类别的标签，得到标注后的网页快照训练数据；将标注后的网页快照训练数据输入混合CNN和BERT的神经网络架构进行模型训练，获取用于抽取网页信息的神经网络模型；最后基于神经网络模型对网络上的标签未知的网页快照数据进行抽取输出标签未知的网页快照数据对应的标签。通过搜集足够数量的网页极其快照，选择具有多样性布局和内容的网页，提高了后续生成的模型的泛化能力，并且将网页快照部分和HTML源代码部分分别输入CNN和BERT，充分利用了文本和网页快照的信息，提升了Web信息抽取的精度。

著录项

公开/公告号CN113312568A

专利类型发明专利
公开/公告日2021-08-27

原文格式PDF
申请/专利权人罗普特科技集团股份有限公司;罗普特(厦门)系统集成有限公司;
展开▼

申请/专利号CN202110322096.3
发明设计人蔡振华;吴俊;江文涛;张翔;陈延艺;
展开▼

申请日2021-03-25
分类号G06F16/957(20190101);G06N3/04(20060101);G06K9/62(20060101);
代理机构35235 厦门福贝知识产权代理事务所(普通合伙);
代理人陈远洋
地址 361000 福建省厦门市思明区软件园二期望海路59号102单元
入库时间 2023-06-19 12:22:51

法律信息

法律状态公告日

法律状态信息

法律状态
2022-06-17

授权

发明专利权授予

相似文献

专利
中文文献
外文文献

1. 一种基于HTML源代码和网页快照的Web信息抽取方法与系统 [P] . 中国专利： CN113312568A . 2021-08-27
2. 基于开放存储服务系统的HTML预览方法及系统 [P] . 中国专利： CN105704238B . 2019.02.01
3. METHOD FOR SENDING WEBPAGE SNAPSHOT ON BASIS OF WEB ADDRESS AND SNAPSHOT SYSTEM [P] . 世界知识产权组织专利： WO2018027827A1 . 2018-02-15

机译：基于网络地址和快照系统的网页快照发送方法
4. HTML5 SYSTEM AND METHOD FOR VIRTUALIZATION INTEGRATED WEB SERVICE BASED ON HTML5 [P] . 韩国专利： KR20180051719A . 2018-05-17

机译：基于HTML5的虚拟化集成Web服务的HTML5系统和方法
5. Method and system for footprint minimized, HTML/HTTP-based systems for Java-based embedded device management applications [P] . 美国专利： US7580990B1 . 2009-08-25

机译：用于基于Java的嵌入式设备管理应用程序的占用空间最小，基于HTML / HTTP的系统的方法和系统