首页> 中国专利> 基于网页标签位置的文本格式化清洗方法

基于网页标签位置的文本格式化清洗方法

摘要

本发明公开了一种基于网页标签位置的文本格式化清洗方法,包括以下步骤:S1:遍历整个网页的所有标签,并记录各个标签名、标签的位置、文本内容、文档编号到原始表;S2:若网页中含有表格数据,将网页中的表格数据进行按行和列动态遍历,提取关键信息得到替换表;S3:将原始表和替换表通过文档编号匹配,对原始表里表位置与替换表相关的数据信息进行删除或更新操作,将清洗后的数据输出到清洗表;S4:若网页中没有表格数据,将网页里DIV所对应的文本提取出来,提取文档编号、文本内容到数据框后持久化到原始表,通过分组聚合的方法,将同类的文档合并插入清洗表中,完成网页文本的清洗。本发明能够提高网页文本解析的准确度。

著录项

  • 公开/公告号CN111597292A

    专利类型发明专利

  • 公开/公告日2020-08-28

    原文格式PDF

  • 申请/专利权人 安徽慧医信息科技有限公司;

    申请/专利号CN202010312989.5

  • 发明设计人 沈亮;曾华凌;毛磊;

    申请日2020-04-20

  • 分类号G06F16/31(20190101);G06F16/215(20190101);

  • 代理机构34125 合肥市上嘉专利代理事务所(普通合伙);

  • 代理人李璐;郭华俊

  • 地址 234000 安徽省宿州市高新技术产业开发区拱辰路8号高新区管委会12楼1208室

  • 入库时间 2023-12-17 11:36:58

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-28

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号