首页> 中国专利> 一种基于HTML源代码和网页快照的Web信息抽取方法与系统

一种基于HTML源代码和网页快照的Web信息抽取方法与系统

摘要

本发明给出了一种基于HTML源代码和网页快照的Web信息抽取方法与系统,包括通过收集网页快照训练数据,在网页快照训练数据中标注表征网页快照训练数据的类别的标签,得到标注后的网页快照训练数据;将标注后的网页快照训练数据输入混合CNN和BERT的神经网络架构进行模型训练,获取用于抽取网页信息的神经网络模型;最后基于神经网络模型对网络上的标签未知的网页快照数据进行抽取输出标签未知的网页快照数据对应的标签。通过搜集足够数量的网页极其快照,选择具有多样性布局和内容的网页,提高了后续生成的模型的泛化能力,并且将网页快照部分和HTML源代码部分分别输入CNN和BERT,充分利用了文本和网页快照的信息,提升了Web信息抽取的精度。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-17

    授权

    发明专利权授予

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号