首页> 中国专利> 一种基于标题的网页有效元数据内容提取方法

一种基于标题的网页有效元数据内容提取方法

摘要

本发明公开了一种基于标题的网页有效元数据内容提取方法,通过基于链接标题或网页标题来定义网页的主体内容所在的位置,可以无需对网页的HTML进行人工分析设定抽取规则,只需在识别时输入网页的HTML源码和链接标题信息即可以自动识别出与网页相关的各项元数据信息,本发明易维护,无需配置抽取规则,自动适应各种网站的网页风格,大大减轻了维护成本;速度快,无需学习模式,只要有标题经过简单过滤后识别即可以快速锁定文章的主体信息,在大规模识别网页内容时具备有速度快的特点;精准性高,易读性强,可以较好地保留原文的风格,如加粗、字体大小等风格。

著录项

  • 公开/公告号CN107145591B

    专利类型发明专利

  • 公开/公告日2020-10-16

    原文格式PDF

  • 申请/专利权人 广州瞬速信息科技有限公司;

    申请/专利号CN201710349934.X

  • 发明设计人 陈桂清;

    申请日2017-05-17

  • 分类号G06F16/957(20190101);G06F16/951(20190101);

  • 代理机构44523 广州越华专利代理事务所(普通合伙);

  • 代理人陈岑

  • 地址 510000 广东省广州市天河区员村四横路自编8号整栋(部位:4楼A13房)

  • 入库时间 2022-08-23 11:17:04

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号