首页> 中国专利> 一种基于neo4j图形数据库自动提取网页正文内容的方法

一种基于neo4j图形数据库自动提取网页正文内容的方法

摘要

本方法公布了一种基于neo4j图形数据库自动提取网页正文内容的方法。本方法包括:步骤S101,利用模拟浏览器请求技术从开源渠道获取网页的HTML源码作为训练集合;步骤S102,提取HTML标签并将HTML源码转换为树形结构;步骤S103,遍历树中的所有节点提取出表示节点之间关系的三元组;步骤S104,利用neo4j图形数据库将关系三元组转换成图;步骤S105,通过节点压缩和枝节压缩,去除图中的冗余节点;步骤S106,提取多维特征,通过机器学习训练正文节点分类模型;步骤S107,利用分类模型提取出网页中的正文节点,并由正文节点的子节点按顺序恢复出完整的网页正文内容。本发明提供了一种简单易用、准确高效地提取网页正文内容的实现方法。

著录项

  • 公开/公告号CN113343140B

    专利类型发明专利

  • 公开/公告日2022.12.13

    原文格式PDF

  • 申请/专利权人 四川大学;

    申请/专利号CN202010138403.8

  • 发明设计人 刘亮;李萧洋;郑荣锋;李孟铭;

    申请日2020.03.03

  • 分类号G06F16/958;G06F16/81;G06F16/84;

  • 代理机构

  • 代理人

  • 地址 610065 四川省成都市武侯区一环路南一段24号

  • 入库时间 2022-12-29 02:04:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-12-13

    授权

    发明专利权授予

获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号