首页> 中国专利> 基于网页文章的标题抽取方法及装置

基于网页文章的标题抽取方法及装置

摘要

本发明提出一种基于网页文章的标题抽取方法及装置,其中方法包括:获取网页文章对应的网页代码;根据渲染后的网页代码,构建DOM树;根据DOM树各个节点中元素的实际属性值对渲染后的网页代码进行调整;获取DOM树中正文区域前的叶子节点,并作为标题候选节点;根据标题候选节点中的文本内容特征,以及标题候选节点与正文区域之间的距离,计算标题候选节点的特征分数;将对应的特征分数最高的标题候选节点确定为标题节点,将其文本内容确定为网页文章的标题,从而能够结合正文区域所在位置,确定标题候选节点,结合标题候选节点中的文本内容特征,确定标题,避免了包装器的创建,实现了全自动化抽取,从而降低了成本,提高了抽取效率。

著录项

  • 公开/公告号CN108268433B

    专利类型发明专利

  • 公开/公告日2019-06-11

    原文格式PDF

  • 申请/专利权人 杭州数梦工场科技有限公司;

    申请/专利号CN201810163176.7

  • 发明设计人 张为;

    申请日2018-02-26

  • 分类号

  • 代理机构北京清亦华知识产权代理事务所(普通合伙);

  • 代理人张润

  • 地址 310024 浙江省杭州市转塘科技经济区块16号4幢326室

  • 入库时间 2022-08-23 10:33:58

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-06-11

    授权

    授权

  • 2018-08-03

    实质审查的生效 IPC(主分类):G06F 17/22 申请日:20180226

    实质审查的生效

  • 2018-08-03

    实质审查的生效 IPC(主分类):G06F 17/22 申请日:20180226

    实质审查的生效

  • 2018-07-10

    公开

    公开

  • 2018-07-10

    公开

    公开

  • 2018-07-10

    公开

    公开

查看全部

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号