首页> 中国专利> 一种基于neo4j图形数据库自动提取网页正文内容的方法

一种基于neo4j图形数据库自动提取网页正文内容的方法

页面导航

摘要
著录项
法律信息

摘要

本方法公布了一种基于neo4j图形数据库自动提取网页正文内容的方法。本方法包括：步骤S101，利用模拟浏览器请求技术从开源渠道获取网页的HTML源码作为训练集合；步骤S102，提取HTML标签并将HTML源码转换为树形结构；步骤S103，遍历树中的所有节点提取出表示节点之间关系的三元组；步骤S104，利用neo4j图形数据库将关系三元组转换成图；步骤S105，通过节点压缩和枝节压缩，去除图中的冗余节点；步骤S106，提取多维特征，通过机器学习训练正文节点分类模型；步骤S107，利用分类模型提取出网页中的正文节点，并由正文节点的子节点按顺序恢复出完整的网页正文内容。本发明提供了一种简单易用、准确高效地提取网页正文内容的实现方法。

著录项

公开/公告号CN113343140B

专利类型发明专利
公开/公告日2022.12.13

原文格式PDF
申请/专利权人四川大学;
展开▼

申请/专利号CN202010138403.8
发明设计人刘亮;李萧洋;郑荣锋;李孟铭;
展开▼

申请日2020.03.03
分类号G06F16/958;G06F16/81;G06F16/84;
代理机构
代理人
地址 610065 四川省成都市武侯区一环路南一段24号
入库时间 2022-12-29 02:04:49

法律信息

法律状态公告日

法律状态信息

法律状态
2022-12-13

授权

发明专利权授予