首页> 中国专利> 一种基于网页语义结构的网页分块方法

一种基于网页语义结构的网页分块方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供一种基于网页语义结构的网页分块方法，涉及网页编辑领域；所述网页分块方法包括以下步骤：S1,将获取到的网页html源码进行预处理，建立DOM语法树；S2，对DOM树进行物理块识别和整合；S3，在物理块类型基础上进行网页识别及监测；S4，输出分块后的网页。本发明提供的网页分块方法能更准确识别网页页面类型以及网页块的重要度，方便过滤一些广告块和权重较低的块；方便对原网页进行重新排版，并输出结构化数据；根据不同类型网页切分网页块，提升了内容抽取的精准度。

著录项

公开/公告号CN109492177A

专利类型发明专利
公开/公告日2019-03-19

原文格式PDF
申请/专利权人中国搜索信息科技股份有限公司;
展开▼

申请/专利号CN201811299864.2
发明设计人肖碧松;赵芳芳;
展开▼

申请日2018-11-02
分类号
代理机构北京市盛峰律师事务所;
代理人于国富
地址 100000 北京市大兴区北兴路(东段)2号1幢一层120房间
入库时间 2024-02-19 08:16:02

法律信息

法律状态公告日

法律状态信息

法律状态
2019-12-17

授权

授权
2019-04-12

实质审查的生效 IPC(主分类):G06F16/957 申请日:20181102

实质审查的生效
2019-03-19

公开

公开

说明书

技术领域

本发明涉及网页编辑领域，尤其涉及一种基于网页语义结构的网页分块方法。

背景技术

为了满足方便手机用户浏览互联网网页，将www网页内容转化为手机终端方便浏览的页面，我们提出了一种基于网页语义结构的网页分块方法，先把网页分成多个块，再跟据分块的把最优的块展现给手机终端用户。目前，该应用领域主要的解决方案为基于视觉的Web页面分块(Vision-based Page Segmentation，VIPS)。

VIPS利用了诸如字体、颜色、大小等版面特征.它根据一定的语义关联规则，将整个网页表示成一棵HTML DOM树，然后通过横竖线条将节点所对应的分块在网页中分隔开来，构成网页的标准分块，其主要技术特征包括：

1)DOM树进行页面语义分块，计算和保存DOM树中的所有节点的视觉信息。

2)从视觉特征对页面结构进行挖掘，如页面的视觉提示如背景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的间距等。

3)提取出所有的合适的页面块。

4)检测页面块之间的所有的分割条，包括水平和垂直方向，基于这些分割条切割网页块。

但是上述现有技术由于视觉特征的复杂性，如何保证视觉特征信息是一大难点；其次，VIPS算法需要计算和保存DOM树中的所有节点的视觉信息，这就导致该算法在时间和内存上消耗比较大，使得在处理含有大量节点的网页时性能不高。

发明内容

本发明的目的在于提供一种基于网页语义结构的网页分块方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于网页语义结构的网页分块方法，包括以下步骤：

S1,将获取到的网页html源码进行预处理，建立DOM语法树；

S2，对DOM树进行物理块识别和整合；

S3，在物理块类型基础上进行网页识别及监测；

S4，输出分块后的网页。

优选地，步骤S1中所述预处理包括空白字符压缩、网页标签统一转换为小写、将非标签的<符号转换为实体、处理需要过滤处理的标签内容和网页字符集识别与转换。

优选地，步骤S2包括：

S21，计算所述DOM语法树中每个节点的原子标签数量，识别物理块类型；

S22，对识别出来的物理块中不符合标准的块进行整合。

优选地，所述物理块类型包括原子块和原子集。

优选地，S22中所述不符合标准的块指块文字内容少、空html标签、a标签中href地址链接到其它网站以及广告链接的物理块。

优选地，步骤S3包括：

S31，在物理块类型的基础上再进行粗粒度网页页面类型识别；

S32，根据识别出来的物理块类型和粗粒度网页类型再进行更精细的网页逻辑块类型识别；

S33，根据网页逻辑块类型检查逻辑块类型相关数据是否与之前识别的粗粒度页面类型相吻合，如不吻合，则在网页逻辑块类型的基础上再进行粗粒度页面类型识别，跳转到S31；

S34，在网页逻辑块类型识别的基础上进行精细网页类型识别。

优选地，步骤S32之后还包括网页逻辑块融合，对一些识别质量较差的逻辑块进行融合，融合的原则根据粗粒度页面类型而定。

优选地，步骤S31中所述粗粒度网页类型包括导航类型网页，正文类型网页和图片类型网页。

优选地，步骤S32中所述网页逻辑块类型包括网页公用逻辑块，正文类型网页逻辑块，导航类型网页逻辑块和图片类型网页逻辑块。

优选地，步骤S34中所述惊喜网页类型包括门户网站首页、站内导航页、外链接导航列表页、新闻正文页、视频内容页、小说简介页、小说章节页、小说正文页、论坛帖子列表页、论坛帖子评论页、博客内容页、微博页、小图片列表页、大图片页和幻灯片页。

本发明的有益效果是：

本发明提供的网页分块方法能更准确识别网页页面类型以及网页块的重要度，方便过滤一些广告块和权重较低的块；方便对原网页进行重新排版，并输出结构化数据；根据不同类型网页切分网页块，提升了内容抽取的精准度。

附图说明

图1是实施例中基于网页语义结构的网页分块方法处理流程；

图2是判断物理原子块算法流程；

图3是网页逻辑块类型识别流程。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例

本实施例提供一种基于网页语义结构的网页分块方法，具体流程如图1所示：

1)预处理，将获取到的网页html源码进行预处理，此处的预处理包括空白字符压缩、网页标签统一转换为小写、将非标签的<符号转换为实体、处理需要过滤处理的标签内容以及网页字符集识别与转换，建立DOM语法树；

2)网页物理块类型识别，先计算DOM语法树中每个节点的原子标签数量，再识别物理块类型；

3)物理块融合，对识别出来的物理块中质量较低的块进行整合，包括块文字内容少、空html标签、a标签中href地址链接到其它网站以及广告链接等都属于质量较低的物理块；

4)粗粒度页面类型识别，在物理块类型的基础上再进行粗粒度网页页面类型识别；

粗粒度网页类型包括导航类型网页(导航页、外链导航页、长链接导航页、短链接导航页)、正文类型网页(长正文页、短正文页、连续正文页、间隔正文页)、图片类型网页(大图片类型网页、小图片类型网页)。

5)网页逻辑块类型识别，根据识别出来的物理块类型和粗粒度网页类型再进行更精细的网页逻辑块类型识别，网页逻辑块类型包括网页公用逻辑块(页头块、页尾块、广告块、表单块、导航列表块)、正文类型网页逻辑块(正文面包屑、标题块、发布时间块、正文来源块、作者块、正文摘要块、正文图片块、正文内容块、正文多媒体块、相关链接块、页码块、分享块、评论块)、导航类型网页逻辑块(短导航列表块、长导航列表块、主题类型导航列表块)、图片类型网页逻辑块(小图片列表块、图文混排块、大图片块)。

6)网页逻辑块融合，因网页逻辑块识别有可能不准确，需要对一些识别质量较差的逻辑块进行融合，融合的原则根据粗粒度页面类型而定。

7)粗粒度网页类型检测，根据网页逻辑块类型检查逻辑块类型相关数据是否与之前识别的粗粒度页面类型相吻合，如不吻合，则在网页逻辑块类型的基础上再进行粗粒度页面类型识别，跳转到步骤4)。

8)精细网页类型识别，在网页逻辑块类型识别的基础上进行精细网页类型识别，精细网页类型包括门户网站首页、站内导航页、外链接导航列表页、新闻正文页、视频内容页、小说简介页、小说章节页、小说正文页、论坛帖子列表页、论坛帖子评论页、博客内容页、微博页、小图片列表页、大图片页、幻灯片页等。

值得注意的是，物理块类型包括原子块和原子集，其中原子块包括多媒体块、小图片块、大图片块、图片块、短文本块、长文本块、文本段落块、短外链接文本块、长外链接文本块、短链接文本块、长链接文本块、外链接图片块和链接图片块，原子集包括横向短链接原子集、纵向短链接原子集、短链接原子集、横向长链接原子集、纵向长链接原子集、长链接原子集、短文本原子集、长文本原子集、横向图片原子集、纵向图片原子集、正文原子集以及图片文字原子集。

在进行判断原子块的数量时，方法如图2流程图所示，首先判断是否是一个原子块，如果是，则直接构建原子块，进行物理块识别；若不是，则需要建立原子集，再进行物理块识别，最后输出已经识别了物理块和原子集的DOM语法树。

网页进行逻辑块类型识别时，其识别过程如图3所示，首先识别粗粒度页面类型，如正文类、导航类，再根据页面类型识别网页的公用逻辑块，如页头块、页尾块、广告块、表单块、导航列表块等；根据识别出来的逻辑块结合粗粒度页面类型，再分别按粗粒度页面类型行进网页逻辑块识别，其中导航类型网页：识别短导航列表块、长导航列表块、主题类型导航列表块(主题类型导航是列表块是该列表块有主题内容，如体育、财经、科技等)；正文类型网页：识别正文面包屑、标题块、发布时间块、正文来源块、作者块、正文摘要块、正文图片块、正文内容块、正文多媒体块、相关链接块、页码块、分享块、评论块。图片类型网页：识别列表块、图文混排块、大图片块。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于网页语义结构的网页分块方法 [P] . 中国专利： CN109492177B . 2019.12.17
2. 一种基于网页结构语义的互联网信息对象定位方法 [P] . 中国专利： CN102662969B . 2013.11.27
3. SYSTEMS AND METHODS FOR OPTIMIZING A WEBPAGE BASED ON HISTORICAL AND SEMANTIC OPTIMIZATION OF WEBPAGE DECISION TREE STRUCTURES [P] . 美国专利： US2020081934A1 . 2020-03-12

机译：基于网页决策树结构的历史和语义优化的网页优化系统和方法
4. process by which to achieve a search engine that indicizzi web pages (and sites) of the internet on the basis of a semantic frasale and block in the output is the web pages (or sites) and those with low relevance [P] . ITPA20080010A1 . 2009-10-15

机译：实现基于语义框架标记互联网上的网页（和站点）并在输出中阻止的搜索引擎的过程是网页（或站点）和相关性较低的网页
5. Method for performing semantic search in e.g. political ontology, based on text segment in semantic web, involves designing pattern in document, and performing semantic search in ontology by application based on designed pattern [P] . 瑞士专利： CH704148A2 . 2012-05-31

机译：在例如网页中执行语义搜索的方法基于语义网中文本段的政治本体，包括在文档中设计模式，并根据基于所设计的模式的应用程序在本体中进行语义搜索