首页> 中国专利> 一种页面中无关内容的处理方法、装置

一种页面中无关内容的处理方法、装置

摘要

本发明提供了一种页面中无关内容的处理方法、装置、电子设备及存储介质;该方法包括:获取页面的文档树,并确定所述文档树中节点的分布规律;根据所述文档树中节点的分布规律,确定所述文档树中标签的激变点和样式的激变点;根据所述页面的文档树的结构,对所述激变点进行遍历,得到所述激变点的子孙节点中的文字信息和图片识别结果;将所述文字信息和所述图片识别结果对应的区块进行分类处理,以确定与所述页面中的原始内容不存在关联关系的无关内容区块。通过本发明,能够高效且准确的识别页面中的无关内容。

著录项

  • 公开/公告号CN111061975B

    专利类型发明专利

  • 公开/公告日2021-09-07

    原文格式PDF

  • 申请/专利权人 腾讯科技(深圳)有限公司;

    申请/专利号CN201911278916.2

  • 发明设计人 朱灵子;衡阵;

    申请日2019-12-13

  • 分类号G06F16/957(20190101);G06F16/31(20190101);G06K9/62(20060101);

  • 代理机构11270 北京派特恩知识产权代理有限公司;

  • 代理人王花丽;张颖玲

  • 地址 518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层

  • 入库时间 2022-08-23 12:26:11

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号