首页> 中国专利> 基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法

基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法

摘要

本发明提供了一种基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,该方法包括:从所需要抽取出互联网论文数据的网站中抓取数据,进行页面清洗与预处理,基于MD5三叉树进行站内静态噪音去除,基于节点间相似度进行页间动态噪音去除,融合DBSCAN密度聚类算法对样本点数据进行密集区域与稀疏区域的划分,融合密度因素构建ACF树,修正密集区域与稀疏区域生成ACF森林,基于改进BIRCH算法进行字段单元构建,将得到的字段单元通过字段匹配与页面内容提取方法对字段单元和字段进行匹配,从而得到所需要提取的网页数据。本发明噪音去除技术更优,字段单元构建与字段匹配更高效,能有效解决互联网论文数据自动抽取问题。

著录项

  • 公开/公告号CN113486228A

    专利类型发明专利

  • 公开/公告日2021-10-08

    原文格式PDF

  • 申请/专利权人 燕山大学;

    申请/专利号CN202110751368.1

  • 申请日2021-07-02

  • 分类号G06F16/951(20190101);G06F16/35(20190101);G06F16/903(20190101);

  • 代理机构11474 北京孚睿湾知识产权代理事务所(普通合伙);

  • 代理人韩燕

  • 地址 066004 河北省秦皇岛市海港区河北大街西段438号

  • 入库时间 2023-06-19 12:49:58

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-10

    授权

    发明专利权授予

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号