首页> 中国专利> 一种抽取新闻网页内容的方法、装置及存储介质

一种抽取新闻网页内容的方法、装置及存储介质

摘要

本发明公开一种抽取新闻网页内容的方法、装置及存储介质,涉及新闻网页内容抽取技术领域,包括:获取网页HTML代码、网页HTML线性重构、HTML噪声标签去除、数据集过滤划分、吸收伪噪声段落、生成正文段落;其中,网页HTML线性重构将相互嵌套的呈树状div标签进行线性化,处理线性结构方便定位当个div标签,消除嵌套标签对后续步骤影响;HTML噪声标签去除将减少噪声文字对段落聚类的影响;数据集过滤划分进一步降低噪声对正文段落的影响;吸收伪噪声段落提高了正文段落的召回率。该方法克服了特定网站特定抓取的缺陷,增强了抽取新闻网页内容的通用性;对比已有技术,能够准确高效地抽取新闻内容,具有良好的效果。

著录项

  • 公开/公告号CN109271598B

    专利类型发明专利

  • 公开/公告日2021-03-12

    原文格式PDF

  • 申请/专利权人 数据地平线(广州)科技有限公司;

    申请/专利号CN201810863031.8

  • 发明设计人 陈贺;

    申请日2018-08-01

  • 分类号G06F16/958(20190101);G06F16/953(20190101);

  • 代理机构44326 广州容大知识产权代理事务所(普通合伙);

  • 代理人刘新年

  • 地址 511458 广东省广州市南沙区环市大道中27号1920房

  • 入库时间 2022-08-23 11:35:00

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号