法律状态公告日
法律状态信息
法律状态
2023-03-17
未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL201310116907X 申请日:20130407 授权公告日:20161116
专利权的终止
2018-01-19
专利权的转移 IPC(主分类):G06F17/30 登记生效日:20171229 变更前: 变更后: 申请日:20130407
专利申请权、专利权的转移
2016-11-16
授权
授权
2014-04-23
实质审查的生效 IPC(主分类):G06F17/30 申请日:20130407
实质审查的生效
2014-03-26
公开
公开
技术领域
本发明涉及因特网信息处理领域,特别涉及一种基于网页主体特征和中介真值的网页主体提取方法。
背景技术
从内容上来说,一个网页一般是由导航信息、网页正文、广告信息、版权信息、相关链接等部分组成的。所谓网页主体提取,就是将网页的正文信息从网页中分离出来。而网页中除去正文信息以外的内容,本发明将其称为噪音内容。如何屏蔽噪音信息,将网页中的正文内容提取出来,对网页分类、Web信息抽取等技术具有重要的意义。
国内外的学者在此领域已经有大量的研究工作,分类方法也各有不同,目前主流的有以下几类研究方法。
(1)基于模板的网页主体提取方法
基于模板的网页主体提取方法依赖于HTML内部结构特征。它设定Web的同类网页中有着相似的结构特征或者相似的Dom树(Document Object Model)结构。可以通过制定模板获取同类网页的正文内容,网页中的主体数据可通过分装器(wrapper)程序来进行抽取。分装器可以根据网页的布局特征,制定模板,编写分析器,解析出正文在网页中的位置,即它根据特定的信息模式从信息源中抽取出需要匹配的内容,并以某些形式展示出来。
该方法的重点和难点是如何确定和维护模板,以及如何生成分装器。分装器的生成和维护都是费时费力的。目前研究人员仍在研究如何高效地构建分装器。目前较为流行的有TSIMMIs系统中的分装器,Ontology系统中的分装器,XWRA系统中的分装器等。
(2)基于视觉特征的网页主体提取方法
基于视觉特征的网页主体提取方法充分利用了网页中字体的大小、背景的颜色、空白区域等视觉特征,将一个网页分割成多个不同的视觉信息块,进而实现信息抽取。微软亚洲研究院提出的基于视觉的Web网页切割算法(Visual Based Page Segment Algorithm)就是使用该方法实现的。
互联网用户通常根据Web网页的布局特征感知Web正文区的内容,基于视觉的提取算法的主要思想就是模拟互联网用户的判断过程进行主体抽取。该算法的流程大致分为三步:首先根据视觉信息和HTML源代码将网页分割为多个网页块;然后将中间块分割为更多的小的网页块;其次对网页块与网页块之间的分隔条赋予权值;最后根据分隔条的权重进行网页合并,并将合并结束后的数据块提取出来,得到网页主体数据。
(3)基于语义信息的网页主体提取方法
所谓语义信息是指除了网页中的视觉信息之外的所有信息,包括HTML的标签信息,网页的文字信息,HTML的结构信息等。该类方法又可以分为如下三种:1)基于去除HTML标签的方法,该方法主要思想是先去除 HTML 标签,再根据去除 HTML 标签后的文字密度判断出正文区域,最后将所有的正文区域合并,获得网页主体内容;2)基于字符序列统计的方法,该方法先将网页生成一个Dom树,然后统计每个TABLE结点中包含的中文字符的数量,将包含字符数量最多的作为包含正文信息的结点;3)基于Table结点的方法,Table标签经常被用来完成网页的布局,该方法就是利用这一特点,从Table标签下提取正文内容,例如,中科院计算所软件研究室提出的TVPS算法(Table and Vision based Page Segmentation)就利用了TABLE标签和视觉特征来对网页进行语义块划分。
以上方法虽然各有优点,但是随着Internet的不断发展,Web网页变得越来越复杂,它们的不足也显现出来。方法(1)对基于同一个模板的网页集有很好的效果,然而互联网上有不计其数的网页模板,因此该方法不够通用。方法(2)虽然可以完成一定的信息抽取任务,然而由于视觉特征具有复杂而又不确定的特性,往往需要人工不断地修改调整抽取规则,使用起来很难保证规则集的一致性。而方法(3)中基于去除HTML标签的方法很难将无关的噪音全部过滤掉,也就是说,无法准确地提取出我们所需要的主体信息,基于字符序列统计的方法要求网页中所有的正文信息都必须放在同一个Table标签中,但实际上网页结构复杂的多,有很多网页甚至没有Table标签。TVPS算法中所设计的分块方法只对最底层的TABLE标签加以考虑,而现实中无论是网页的样式结构还是TABLE标签的嵌套关系都是很复杂的,网页正文信息全部存在于最底层TABLE标签中的可能性很小。
由此可见,目前还没有一种方法能适用于所有网页的主体提取,且已有网页主体提取方法准确性有待提高。为了进一步提高网页主体提取的准确性和通用性,本发明将中介真值程度度量(MMTD)应用于网页主体块的识别和提取中,提出了基于网页主体特征和中介真值程度度量(MMTD)的网页主体提取方法,本方法不仅大大提高了提取的准确率,并且具有更高的通用性。
发明内容
本发明目的在于提供一种Web网页主体提取方法以及实现流程,用于解决网页主体提取存在的准确性和通用性有待进一步提高的问题。
本发明解决其技术问题所采用的技术方案是:本发明是一种策略性方法,可以用于Web网页主体的识别和提取,也可根据本发明方法开发基于网页主体提取的Web信息抽取系统。网页主体提取的目标是将一个网页中所有周边内容都去掉,只留下网页中表达主题的主体部分。本发明首先将Web网页进行预处理,包括网页整理和网页去噪,即将不规则的HTML标签规范化和去除网页中极易判别的与其所要表达主题无关的一些噪声内容;然后基于网页主体特征和中介真值程度度量(MMTD)度量进行网页主体的识别和提取。本发明的目标是有效解决已有网页主体提取方法准确度不够高且通用性不够强的问题,提出一种适用于多种风格和类型网页的主体识别,且具有较高准确度的网页主体识别和提取方法。
本发明中使用如下概念和计算公式:
(1)子树:以一个结点某个孩子结点为根的树称为该结点的子树。
(2)子树数:一个结点所拥有的子树的数目。
(3)分支数:一个结点以自己为根的树中所有结点的数目减一。
(4)平均子树分支数:一个结点的各子树分支数的平均值,即一个结点各子树的分支数之和除以该结点的子树数。
(5)可显示字符数:一个结点以自己为根的树中的所有结点中可以显示到网页上的字符的数目。
(6)子树分支数极差:一个结点的所有子树的最大与最小分支数之差。
本发明将一个结点的子树数、分支数、平均子树分支数、可显示字符数、子树分支数极差称为这个结点的属性。基于对多种风格和类型的HTML网页主体的各属性的特征分析,本发明提出基于网页主体特征和中介真值程度度量(MMTD)的网页主体识别和提取方法,在经预处理过滤出来的所有结点中选出包含全部主体信息且包含最少噪音的结点,此结点的内容即为网页的主体内容,主要包括网页整理、网页去噪、生成结点树、计算网页结点数和各结点的属性、确定适用于本网页计算结点真值所需的各个属性的界值、计算网页每个结点是网页主体结点的真值程度、将真值最高结点作为主体结点并提取其包含的结点和内容并存为XML文档等过程,如图1所示。
方法流程:
本发明提供一种基于网页主体特征和中介真值的网页主体提取方法,包括如下步骤:
步骤1) 网页整理,即将不规则的HTML标签规范化;整理的内容包括添加结束标签,合理配对嵌套,以使其完全符合HTML的语法规则;
步骤2) 网页去噪,即将确信无疑是噪声的内容去掉;所谓网页噪声,指的是网页中与本网页主题表达无关的那部分内容;网页去噪包括:只输出body部分,不输出font标签,不输出属性,不输出源码中每行前的空格;删除脚本类标签和注释类标签以及其间的内容,删除空标签以及select、input等标签以及其间的内容,删除img标签;对于一个标签的删除,需考虑两种情况,一个是此标签有配对结束标签的情况,另一个是此标签没有单独结束标签的情况,对于有结束标签的,要将两个配对标签以及其间的内容全部去掉,对于没有结束标签的,要将在此标签中的全部内容去掉;
步骤3) 利用HTMLParser解析经过步骤1)和步骤2)预处理后的网页的HTML源码,生成分层次的结点树,之后的处理都针对预处理后的网页结点树;
步骤4) 计算网页的结点数并记为M,计算每个结点的4个属性:子树数、平均子树分支数、可显示字符数和子树分支数极差;
步骤5) 对4个属性分别确定计算中介真值程度需要的界值;对所有结点的4个属性分别排序,子树数、平均子树分支数和可显示字符数三个属性均按照从小到大的顺序进行排序,子树分支数极差按照从大到小的顺序进行排序,得到四个有序排列的序列;各个属性排在50%M(取整)位置上的属性值作为相应属性的第一个界点的值,70%M(取整)位置上的属性值作为相应属性的第二个界值,80%M(取整)位置上的属性值作为相应属性的第三个界值,90%M(取整)位置上的属性值作为相应属性的第四个界值,四个界值分别用a1、a2、a3、a4表示;对每个属性分别确定其四个界值,4个属性有4组界值;
步骤6) 对每个结点按照式(1)和式(2)计算“本结点是网页主体结点”的真值程度;设结点i的四个属性 ,其中第4个属性为子树分支数极差,结点i是网页主体结点的真值程度hn-T为:
(1)
其中,
(2)
其中,y为某属性值,a1,a2,a3,a4为该属性的四个界值;
步骤7) 找出真值程度最高的结点,判断其为主体信息所在的结点,并将此结点及结点内包含的结点和内容存储为XML格式文档,以备进一步的Web信息抽取,即从半结构化网页中抽取出网页正文信息并以结构化的形式存储,以方便后续使用。
本发明有益效果:
1、本发明通过考察网页结点树中每个结点的子树数、平均子树分支数、可显示字符数和子树分支数极差等属性,从多角度判别每个结点像是主体结点的程度,再综合各个角度的评判结果识别出网页的主体结点,从而具有较高的网页主体识别准确度。
2、本发明能够针对每个网页自动设定中介真值程度计算所需要的界值,多角度判别和自动设定界值一起使本发明适用于各种类型网页的主体识别和提取。
3、本发明方法有效解决了已有网页主体识别方法存在的准确率不够高和通用性不够强的问题。
附图说明
图1 本发明基于中介真值的网页主体识别和提取的流程图。
具体实施方式
为了方便描述,我们假定有如下应用实例:从当当网、苏宁易购、卓越亚马逊、蔚蓝书店、京东商城和凤凰网六个网站中随机各选取10个网页进行主体识别和提取。
本发明的具体实施方案为,
对每个网页分别进行如下操作:
(1)获取网页源码,整理网页,即将不规则的HTML标签规范化,包括添加结束标签,合理配对嵌套,使源码完全符合HTML的语法规则;
(2)将网页中确信无疑是噪声的内容去掉。网页去噪包括:只输出body部分,不输出font标签,不输出属性,不输出源码中每行前的空格;删除脚本类标签和注释类标签以及其间的内容,删除空标签以及select、input等标签以及其间的内容,删除img标签;对于一个标签的删除,需考虑两种情况,一个是此标签有配对结束标签的情况,另一个是此标签没有单独结束标签的情况,对于有结束标签的,要将两个配对标签以及其间的内容全部去掉,对于没有结束标签的,要将在此标签中的全部内容去掉;
(3)利用HTMLParser解析经过前两步处理后的网页的HTML源码,生成分层次的结点树,之后的处理都针对该网页结点树;
(4)计算网页的结点数并记为M,计算每个结点的4个属性:子树数、平均子树分支数、可显示字符数和子树分支数极差;
(5)对4个属性分别确定计算中介真值程度需要的界值。对所有结点的4个属性分别排序,子树数、平均子树分支数和可显示字符数三个属性均按照从小到大的顺序进行排序,子树分支数极差按照从大到小的顺序进行排序,得到四个有序排列的序列;各个属性排在50%M(取整)位置上的属性值作为相应属性的第一个界点的值,70%M(取整)位置上的属性值作为相应属性的第二个界值,80%M(取整)位置上的属性值作为相应属性的第三个界值,90%M(取整)位置上的属性值作为相应属性的第四个界值,四个界值分别用a1、a2、a3、a4表示。对每个属性分别确定其四个界值,4个属性有4组界值;
(6)对每个结点,先分别按照式(2)计算从单个属性角度看“本结点是网页主体结点”的真值程度,再将四个属性计算得到的真值程度求和得到结点是网页主体结点的综合真值程度;式(2)为:
(2)
其中,y为某属性值,a1,a2,a3,a4为该属性的四个界值。
(7)找出真值程度最高的结点,判断其为主体信息所在的结点,并将此结点及结点内包含的结点和内容存储为XML格式文档。
机译: IC标签胶体,带有IC标签胶的剥皮板,带有IC标签粘胶的皮剥皮的材料,用于IC标签粘胶体的材料卷,具有IC标签粘胶体的剥皮板的制造方法以及用于IC标签粘胶体的材料卷主体,内层粘性体,带中介层粘性体的剥皮板,带中介层粘性体的剥皮板的材料,中介层粘性体的材料轧制,带中介层粘稠的胶结体的板状带刺板的制造方法,制造中介层黏性主体材料的主体及其制造方法
机译: 一种更新网页信息内容的方法;向网络服务器提供来自终端的网页刷新信息的方法;维护网页的网络服务器;终端保持与维护网络页面的网络服务器的连接;计算机程序产品,该计算机程序产品由计算机存储在物理可读介质上,并且可以在数据处理设备上执行以维护网页;以及存储在计算机可读物理介质上并且可以在数据处理设备上执行的计算机程序产品,以向网络服务器提供关于在网页上进行的更新的信息。
机译: 网页处理装置和用于沿着网页处理装置的至少一个网页传输路径传送至少一种材料网页的方法