首页> 中国专利> 基于DOM树的正文抽取方法、装置、设备及存储介质

基于DOM树的正文抽取方法、装置、设备及存储介质

摘要

本发明公开了一种基于DOM树的正文抽取方法、装置、设备及存储介质,通过获取待抽取网页中正文信息块对应的DOM树的各节点路径,根据各节点路径确定中心文本区间;根据预设编号集获取所述中心文本区间内的缺失编号,将所述缺失编号添加至所述中心文本区间的中心文本中,获得连续中心文本区间;遍历所述连续中心文本区间的节点路径下的各叶子节点,抽取各叶子节点的文本信息;将各文本信息进行连接组合,获得所述待抽取网页的正文文本信息,提高了网页正文信息抽取的准确率,提高了网页正文信息抽取的速度和效率,节省了信息抽取的时间,提升了用户体验。

著录项

  • 公开/公告号CN110377796B

    专利类型发明专利

  • 公开/公告日2021-11-02

    原文格式PDF

  • 申请/专利权人 中南民族大学;

    申请/专利号CN201910680827.4

  • 申请日2019-07-25

  • 分类号G06F16/901(20190101);G06F16/957(20190101);G06F16/958(20190101);

  • 代理机构44287 深圳市世纪恒程知识产权代理事务所;

  • 代理人胡海国

  • 地址 430074 湖北省武汉市洪山区民族大道182号中南民族大学

  • 入库时间 2022-08-23 12:43:57

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号