首页> 中国专利> 网页正文区域及正文信息处理方法、系统、设备、介质

网页正文区域及正文信息处理方法、系统、设备、介质

摘要

本申请提供一种网页正文区域及正文信息处理方法、系统、设备、介质,应用于信息处理技术领域,其中网页正文区域处理方案包括:获取待处理网页对应的DOM树;基于DOM树中目标节点的视觉信息和内容信息,沿DOM树自顶向下逐层搜索各节点,共同确定当前搜索的所述目标节点是否属于表征网页正文区域的DOM节点;将所述表征网页正文区域的DOM节点提取为正文区域对应的候选节点。通过基于视觉信息对网页正文区域进行识别提取处理,不仅可以准确、高效地从网页中识别提取出正文区域,而且无需针对特定网页结构的网站,具有较强的通用性,具有更好的鲁棒性和更高的准确度。

著录项

  • 公开/公告号CN115269923A

    专利类型发明专利

  • 公开/公告日2022-11-01

    原文格式PDF

  • 申请/专利权人 中新宽维传媒科技有限公司;

    申请/专利号CN202210710563.4

  • 发明设计人 孙太风;郭行飞;刘永丹;

    申请日2022-06-22

  • 分类号G06F16/901;G06F16/903;G06F8/75;G06F16/958;

  • 代理机构北京清大紫荆知识产权代理有限公司;

  • 代理人黎飞鸿;冯振华

  • 地址 201306 上海市浦东新区中国(上海)自由贸易试验区临港新片区环湖西二路888号C楼

  • 入库时间 2023-06-19 17:24:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-01

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号