首页> 中国专利> 一种基于关系机制的多类别WEB对象抽取方法

一种基于关系机制的多类别WEB对象抽取方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明是一种基于关系机制的多类别WEB对象抽取方法，包括：利用维基百科数据构造多类别WEB对象关系库，该关系库由WEB对象及其类别、对象间关系、类别层次关系组成；在多类别WEB对象关系库中，迭代计算WEB对象类别间关系权值，提取WEB对象类别核心关系模板；将WEB页面转换为HTML标签树，根据HTML标签树节点的尺寸和特点，从WEB页面中抽取WEB对象记录块；利用模板匹配获得WEB对象记录块所属类别，并根据WEB对象类别核心关系模板，采用投票策略抽取WEB对象记录块的核心WEB对象及其相关WEB对象；利用信息可视化的方法，展示多类别WEB对象关系库中WEB对象的各种关系。本发明可以广泛的应用于互联网数据挖掘、信息检索等领域。

著录项

公开/公告号CN102436472A

专利类型发明专利
公开/公告日2012-05-02

原文格式PDF
申请/专利权人北京航空航天大学;
展开▼

申请/专利号CN201110294846.7
发明设计人陈小武;赵沁平;蒋恺;马永焘;
展开▼

申请日2011-09-30
分类号G06F17/30;
代理机构北京科迪生专利代理有限责任公司;
代理人许玉明
地址 100191 北京市海淀区学院路37号
入库时间 2023-12-18 04:59:56

法律信息

法律状态公告日

法律状态信息

法律状态
2013-10-30

授权

授权
2012-06-27

实质审查的生效 IPC(主分类):G06F17/30 申请日:20110930

实质审查的生效
2012-05-02

公开

公开

说明书

技术领域

本发明属于计算机网络、信息检索与集成技术领域，具体地说是一种基于关系机制的多类别WEB对象抽取方法。

背景技术

WEB信息抽取是海量Internet信息检索的有效手段。而WEB对象抽取也已经被广泛用于垂直搜索引擎应用当中。WEB对象的概念随着垂直搜索引擎的出现而产生，旨在解决传统搜索引擎搜索结果冗余、精确度低等问题。微软将WEB对象定义为“WEB的基本数据对象，其相关信息将被收集、索引并排序”。WEB对象的展现分为两个层次：对象块级别和属性级别。对象块级别的WEB对象只向用户展示与WEB对象相关的文字记录块，而 WEB对象的具体属性由用户自己通过阅读该记录判断。属性级别的WEB对象则包含了对象相关属性信息，这是在对象文字记录块基础上进一步抽取得到的。WEB对象块的抽取包括基于WEB文档结构的抽取方法和基于WEB文档视觉信息的方法。

美国南加州大学的Lerman等人提出了一种根据WEB文档结构自动抽取信息的方法。该方法通过学习某一网站的相似文档而学习同类文档的结构，该方法通常假设具有同一个父结点的子结点表达具有很强相关性的信息，以文档结构上的相似性来区分表达不同对象的结点，并根据该内容和位置假设从文档中抽取信息。

Gupta等人通过保留一个不断更新的广告服务器列表来移除广告，通过计算链接数、非链接文字数来移除链接列表。但是这种方法不能识别相关图片，也极易删除相关链接列表。而且对于不同的网页，需要手工调整参数的阈值才能达到最佳抽取效果。

Lin和Ho提出的InfoDiscover系统首先根据TABLE标签把网页分成若干个内容块，然后将词作为特征抽取出来并计算每个词的熵值，进而计算每个内容块的熵值。最后通过设定熵的阈值来划分有关内容块和无关内容块。尽管以上方法取得了一定的效果，但都是针对单一的站点，所以有一定的局限性。

美国芝加哥大学的Liu和Grossman等人提出了一种从结构化WEB页面中提取WEB对象列表的方法。该方法分为3步：构建HTML标签树，挖掘数据区域，识别数据记录。该方法对标签树进行预处理，对HTML标签中不需要配对的标签进行修正，以使原WEB文档中的所有标签都能够匹配，并将WEB文档转换为HTML标签树。

Kovacevic等人利用位置将页面分为头、脚、左、右和中间区域。这种方法的缺点是这种网页结构模板不可能适用于所有网页，而且这种划分区域的方法也难以保证每个区域的语义一致性。微软亚洲研究院的Cai等人根据WEB文档的颜色、文字区域、文字大小等视觉特征对WEB文档进行分块，从而生成一棵WEB文档的视觉结构树。

2008年在世界万维网会议上Yao等人提出类一种WEB实体全局模板的提取方法。该方法要求用户最先提供类别的部分属性，并以这些属性为关键词对搜索引擎返回的结果进行迭代分析，从而获取到网络上已经定义的给类别WEB对象的属性、属性别名等信息。该方法一次运行只能获取一项类别的描述模板，同时也需要用户提供先验知识，一定程度上也限制了多类别WEB对象的抽取。

在WEB对象可视化方面，德国康斯坦茨大学的Keim与Mansmann等人提出了层次圆环算法。在该算法中，各个层次被布局为多个放射状的同心圆环，内侧圆环代表着外侧的父结点，所有圆环按照最内层结点的数据类型被分为若干扇区以利于表现与内层结点对应的层次化信息。该算法利于表示分组信息；但不利于显示大数据量的信息，此时需要一定的用户交互(如气泡提示，信息过滤)作为辅助。2008年印度大学的Herr和Holloway 实现了马赛克视图用以可视化维基中的编辑活动。用黄色点表示每篇文，用点的大小表示文章的编辑频率，频率最大的文章则显示为其对应的图片，用红色点表示最近频繁编辑的文章。通过这种方法可以反映出维基的总体情况和热点话题，但是该可视化缺少与用户的交互功能使用户难以获取细节信息。2007年美国印第安纳大学的Holloway和 borner设计了维基可视化工具，用以用宏观角度可视化维基页面所覆盖的类别、编辑时间等属性。该工具定义并计算了维基类别间得相似度，以点代表维基中的一个页面，将维基所有页面的点按相似度分布在页面中，并用不同颜色代表页面所属的不同类别。

发明内容

为了克服现有技术的不足，本发明的目的在于：提出一种基于关系机制的多类别 WEB对象抽取方法，使其能够同时适合结构化和非结构化WEB页面的多类别WEB对象块抽取，并通过可视化使用户能够直观地浏览WEB对象之间的关系、WEB对象类别之间的关系、以及WEB对象和类别之间的从属关系。

为完成发明目的，本发明采取的技术方案是：利用维基百科数据构造多类别WEB对象关系库，其中包括WEB对象类别、WEB对象、WEB对象间关系、以及相关继承层次关系，从而构建WEB对象类别之间的关系；迭代计算WEB对象类别间关系权值，并提取WEB 对象类别之间的核心关系模板；将WEB页面转换为HTML标签树，以标签树结点的文本数量作为结点尺寸，滤除结点尺寸较小或文本支持度较低的标签树结点，以兄弟结点之间的尺寸相似度和结点的文本支持度，分别提取出结构化结点和非结构化结点，选取出尺寸最大的结点作为WEB对象记录块；利用模板匹配对WEB对象记录块进行分类，获得WEB 对象所属的类别，通过WEB对象类别的核心关系模板，采用投票策略抽取出WEB对象记录块的核心WEB对象及其相关WEB对象；可视化WEB对象的各种关系，使用户能够直观地浏览WEB对象之间的关系、WEB对象类别之间的关系、以及WEB对象和类别之间的从属关系。

在学习多类别核心关系模板方面，构造核心关系模板的第一步是要生成类别间关系。为此，本发明基于维基百科数据构造了多类别WEB对象关系库，其中包括WEB对象类别、WEB对象、WEB对象间关系、以及相关继承层次关系。对每项WEB对象间关系，在关系主、客体的类别间建立类别间关系，类别间关系具有权值，值为关系客体用于描述关系主体的频率。由于对象数、对象间关系数巨大，因此能够获得较为全面的类别间的关系。第二步是从生成的类别间关系中抽取核心关系模板。本发明提出WEB对象类别间关系权值计算和迭代算法获取核心关系模板。将同一类别主体的所有类别间关系按权值由大到小排序，每次将当前权值最大的关系加入核心关系集并计算该集合的信息冗余度。当核心关系集的冗余度大于某一阈值，且剩余关系的权值均小于一指定频率时，即认为获取到了该类别主体的核心关系集合。利用该方法对每一项WEB对象类别进行迭代，从而获得类别间相互描述的核心关系模板。

在抽取WEB对象记录块方面，选取选定HTML标签树上结点的尺寸作为网页类型判断、WEB对象记录块提取的依据。基于对大量WEB页面的实际观察，给出一系列结构化和非结构化页面判别和提取的前提假设，并根据这些假设给出网页类型判断和对象记录块提取的规则。该规则主要包括3点。第一，对于所有网页，该页面的主要内容占据了页面主体，因此，HTML标签树中同层兄弟结点间，那些尺寸明显较小的结点将被滤除，从而实现页面的粗过滤。第二，对于非结构化页面，由于其采用大段文字叙述的形式描述 WEB对象，其特征为对应HTML标签树的结点包含了大量的文字和标点。为衡量这一特征给出了文本支持度的概念。当结点的文本支持度的取值大于某一阈值时，该结点被判断为非结构化结点。第三，对于结构化页面，由于这种类型的页面绝大多数是通过模板生成的，因此对象列表中每个对象相同位置的子结点具有近似的尺寸。通过方差计算结点间尺寸的近似程度，当两个以上连续兄弟结点的子结点均具有近似的尺寸时，这些兄弟结点将被判别为构成WEB对象列表的结构化结点。

在抽取属性级别WEB对象方面，由于各个类别的核心关系模板已知，已知WEB对象的所属类别，就能够根据该类别的模板抽取其相关属性。属性级别的WEB对象抽取分为两步：对象分类和对象提取。在分类阶段，首先对WEB对象记录块中的文本进行分词，并将其中的名词与WEB对象关系库中的对象名称进行匹配，获取该对象记录块中所有对象的类别集合。这些类别的集合构成了描述该对象记录块的本地模板。利用模板匹配的方法将本地模板与核心关系模板进行匹配，既可以判断出WEB对象的类别。在已知WEB对象类别基础上，采用投票策略按照该类别的核心关系模板从对象记录块中抽取核心WEB对象及其相关WEB对象。

在可视化对象间关系方面，WEB对象库的海量信息和复杂的关系构成了庞大的知识网络。为使用户能够直观地浏览对象之间的各种关系，给出对象关系的可视化方法，该可视化不仅能够展示WEB对象分布、类别间关系等宏观信息，也能够具体反映出WEB对象的热度、对象间关系的细节信息。

本发明与现有方法技术相比，其有益的效果在于：1、本发明能够同时适合结构化和非结构化WEB页面的多类别WEB对象块抽取，从而解决了单一抽取方法适用性差的问题； 2、本发明的可视化方法能够全面地反映出维基中类别间层次关系、词条间关联关系和类别间的关联关系，并能够兼顾局部和整体的信息，使用户获取相对全面的信息，同时能够定位其感兴趣的信息。

附图说明：

图1是本发明的总体系统结构示意图；

图2是本发明的WEB对象关系结构示意图；

图3是本发明的WEB对象到第三层类别重映射流程示意图；

图4是本发明的类别间关系生成方法流程图；

图5是本发明的类别间核心关系提取方法流程图；

图6是本发明的WEB对象块抽取方法流程图；

图7是本发明的WEB对象记录块分类方法流程图。

具体实施方式：

下面结合附图对本发明作详细说明。

参阅图1本发明的总体系统结构示意图，本发明提出的基于关系机制的多类别WEB 对象抽取方法主要包括如下几个模块：WEB对象关系库模块、数据持久化模块、关系模板服务块、WEB对象记录块提取模块、WEB对象记录块分类模块与属性级WEB对象抽取模块。

WEB对象关系库用于存储维基的原始数据和经过处理加工的对象、类别及关系信息，主要包括WEB对象，WEB对象类别，WEB对象间关系，WEB对象及类别间从属关系，类别间关系。WEB对象关系库是后续操作的基础。由于维基提供的数据规模巨大，因此本发明对WEB对象关系库加以优化，建立索引，并采用分表等措施提高数据库的访问效率。

数据持久化模块借助Hibernate工具实现对数据库的访问，从而隔离数据库的逻辑、物理特性。利用Hibernate工具实现可以快速的构造数据访问层模块，是数据库的表间关系、表结构等特性相对业务逻辑透明，便于上层业务逻辑的开发。

核心关系模板服务模块提供了与核心关系模板相关的服务，包括类别间关系生成，核心关系模板学习，核心关系模板匹配等操作。核心关系模板服务模块是最主要的一个模块，在这个模块中，核心关系模板学习的过程是关键环节。

WEB对象抽取模块实现了从网页中抽取WEB对象记录块以及属性级别WEB对象的功能。它调用核心关系模板服务对记录块进行分类，调用数据持久化层将抽取的WEB对象存入WEB对象关系库。WEB对象抽取模块包含4个子模块，分别为WEB对象记录块提取模块、文本分词模块、记录块分类模块和属性级WEB对象抽取模块四个部分。

参阅图2本发明中WEB对象关系结构示意图，WEB对象关系库中包括WEB对象类别、 WEB对象、从属关系和关联关系。WEB对象类别源于维基中的目录系统，用于对WEB对象进行层次化分类。WEB对象源于维基中的具体词条，每项词条均有独立的WEB页面对其进行描述。

继承层次关系源于维基目录系统中类别与类别间、类别与词条间的从属关系。在维基中，每篇文章都从属于至少一个类别，同一个类别下的文章通常是讲述相同或相似的话题，类别又可以从属于更高一级的父类。这样，最终就形成一个目录系统层次结构。这种目录层次结构中，既有实体与类别的从属关系，也有子类与父类的从属关系。

WEB对象间的关系是指维基词条正文描述中通过超链接方式与其它词条间产生的关系。正文描述的词条对应WEB对象关系的主体，通过超链接链接到的其它词条为关系的客体。由于正文描述中关系的复杂性和缺乏语义信息，本发明无法确定关系的语义，因此，这里的关系仅仅是指两个主体与客体之间存在关系。每一项WEB对象之间的关系由关系的主体和客体的组合标识。

WEB对象类别之间的关系指存在关系的两WEB对象所属类别，或所属类别的父类间的关系。WEB对象类别间关系无法直接获取，需要通过WEB对象间关系和WEB对象及其类别间的从属关系计算而得。WEB对象类别间关系的分析与计算将在下一节详细描述。WEB对象间的关系只提供了作为实例个体间的关系，而WEB对象类别关系则在统计意义上提供了两类别间的关系信息。类别关系的权值有对WEB对象间关系数统计而得，可以用于判断类别间关系的强弱程度。

核心关系模板的学习方法主要包括三个步骤：首先将所有WEB对象重新映射到第三层类别(基于中文维基百科中的类别定义，每个类别距离顶层类别有不同的深度，由于第三层的多项类别中每类WEB对象的规模和颗粒度适中，故选用第三层类别作为 WEB对象类别映射的目标类别)，然后根据WEB对象间关系建立第三层类别间的关系，最后通过本发明提出的迭代算法从所有类别间关系中提取核心关系模板。WEB对象的重映射方法为由WEB对象所在的继承关系树的叶结点开始由下向上遍历所有到第三层类别结点的继承路径，并将WEB对象映射到所有遍历过的第三层类别结点。然而，由于维基的类别系统中继承层次较大，并存在多继承，这使得WEB对象将被重映射到大量无关的类别上。例如类别“计算机”将被重新映射到无关类别如“世界历史”，“西方艺术” 等。为解决该问题，通过实验本发明发现这些无关类别主要是因为多继承的存在使得遍历的宽度被放大，从而在对深层次路径的遍历时间接访问到了那些无关类别。而那些符合客观实际的映射关系通常只存在于较短的遍历路径当中。只要在重映射时对遍历路径的长度加以限制就可以有效提高重映射的准确率。因此本发明设置了阈值τ。设某WEB 对象到第三层类别的所有映射路径中最短长度为l，则WEB对象只被重新映射到那些路径长度小于l+τ的类别当中。

参阅图3本发明中WEB对象到第三层类别重映射流程示意图显示了WEB对象重新映射到第三层类别的过程，其详细流程如下：(1)通过Hibernate将所有WEB对象和从属关系加载入内存。由于WEB对象关系库中的WEB对象和继承层次关系的数量巨大，而在频繁访问数据库时，数据库的访问时间将成为程序运行的瓶颈，因此实现过程中将上述数据加载如内存并通过哈希表索引将显著提高程序的运行速度；(2)遍历每一个WEB对象，施行以下操作。本发明中的文本处理是以WEB对象为处理单元的。因此，对每一个WEB 对象的处理可以看作是一次元操作。而遍历对象的过程需做到稳定、高效；(3)判断是否有仍未处理的WEB对象，如果没有，表明所有WEB对象已重映射完毕，算法结束。否则取出一项WEB对象，令其路径长度为0，并将WEB对象压入临时栈；(4)对临时栈中的每一个元素查找其所有父类别，将父类路径长度设为该元素的路径长度值加1，并将所有父类元素加入临时栈。如果上述父类元素中存在第三层的类别，将该元素放入结果栈，并移出临时栈。如果判断栈中的对象元素全部弹出，则说明当前对象已处理完毕，跳转到步骤(5)，否则重复步骤(4)，直到临时栈为空；(5)对结果栈按路径长度排序，选取路径长度小于最短路径加3的类别为该轮WEB对象重映射到的第三层类别。

参阅图4本发明中类别间关系生成方法流程图，在完成WEB对象的重映射之后，需要根据已有WEB对象间关系在WEB对象类别间建立关系，同样出于程序执行效率的考虑，将 WEB对象间关系，层次继承关系加载入内存。遍历所有WEB对象间关系，执行下述过程。首先判断是否存在未处理得WEB对象间关系，如果没有则说明对象间关系处理完毕，类别间关系建立流程结束。如果有需要处理的关系，则获取存在关系的两WEB对象的所有父类别。查询父类别两两之间组成的类别间关系是否存在关系。如果存在，则将该关系权值加一。否则建立新的类别间关系，并且设这个新的类别关系权值为1。

根据以上过程获得的类别间关系有强弱之分，需要进一步对类别间关系进行分析，提取出类别间的核心关系。区分是否核心关系对关系的获取和对象的识别都有着重要意义。一方面区分出某一类别的核心关系有利于从该类别WEB对象的众多关系中找出最重要的关系，从而为用户提供优质的关系服务；一方面某一类别的核心关系组合可以视为该类别对象的描述模式，从而可以对未知对象按照其关系模式进行分类，按照核心关系模板抽取相关对象。两类别间关系的频率权值越大，说明两类别关系越密切，维基的编辑者越倾向于用关系客体描述关系主体。因此，可以简单选取权值大于某一阈值的类别间关系为类别之间的核心关系。给定类别cat(sub)_i和类别cat(obj)_j，类别间关系表示为 (cat(sub)_i，cat(obj)_j，freq_ij)，如果freq_ij大于阈值κ(本发明中为0.8)，则认为此关系是关系主体的核心关系。

但是仅仅依靠频率值并不能保证所有核心关系都被完整抽取。例如，在维基百科中存在着一些冷门类别，由于缺少领域知识，该类别的WEB对象间关系就会少于其他类别，从而导致该类别的频率值下降。这导致那些频率值较低的核心关系没有被抽取。

可以从另一角度考虑核心关系的意义。核心关系作为两类别WEB对象实例间普遍存在的一种关系，是主体的显著特征，即主体类别的所有核心关系的客体集合对标识该主体类别起到了主要作用；而非核心关系作为类别对象实例间偶然存在的关系，对标识主体类别贡献很小。因此一个类别的核心关系可以理解为该类别的某一关系子集，该子集能提供的信息已经足够丰富，可以代表并标识该类别的所有关系信息。为描述该子集的信息丰富程度，本发明引进了信息论中的熵和冗余度的概念。冗余度表示了由于同一主体的各个类别间关系出现的概率不同，而使信息熵减少的程度。即冗余度表示了为标识某一关系主体，该主体类别的所有类别间关系相对该主体的核心关系集的不必要的冗余部分的比例。因此，本发明利用冗余度来衡量核心关系集对所有类别间关系的标识能力。给定一个类别的所有类别间关系集合该集合中某一项关系r存在的概率P(r)由下式计算：

$p (r) = \frac{f_{ij}}{Σ_{k = 0}^{p} f_{ik}},$

其中，f_ij为该项关系出现频率，为所有关系出现频率之和。

对于R_all的子集R_sub，R_sub的信息冗余度可以表示为：

$redundancy (R_{sub}) = 1 - \frac{H (R_{sub})}{\log | R_{all} |},$

其中P(r)是子集R_sub中关系r存在的概率，|R_all|是R_all中元素的数目。

本发明给出了一种迭代算法从一个类别的所有类别间关系中抽取核心关系集合。首先对所有关系按频率权值排序。每一轮循环都从关系集的剩余元素中取出一项关系加入到当前核心关系集中并计算该集合是否满足迭代终止条件。综合考虑频率权值和冗余度，当迭代中新加入关系r(其频率为freq_tf)时，如果满足freq_tf＜κ且 redundancy(R_sub)＞λ，则认为关系r不应加入当前核心关系集合，该轮迭代终止。

参阅图5本发明的类别间核心关系提取方法流程1图，本发明提出了一种迭代算法用以提取类别间核心关系。每次迭代时，从同一主体的所有类别间关系中选取权值最大的加入核心关系集，并利用核心关系集的信息冗余度计算迭代的终止条件，具体步骤如下：(1)加载WEB对象类别和类别间关系到内存，与以上几个模块相似，同样以提高程序访问速度为目标；(2)对每一项WEB对象类别执行以下过程。获取一项未处理的对象类别为单元。判断是否存在未处理类别，如果不存在，则结束此过程。如果存在，则跳转到步骤(3)；(3)获取以当前类别A为主体的所有类别间关系，并对类别间关系按权值由大到小进行排序，保存于队列结构当中；(4)移出队列头部一项类别间关系并加入核心关系集。计算当前核心关系集的信息冗余度，判断当前集合是否满足迭代终止条件，如果满足转到步骤(5)，否则迭代执行步骤(4)；(5)保存当前核心关系集，并跳转到步骤(2)。

本发明根据对大量WEB页面的实际观察，围绕HTML标签树的结点尺寸给出了一系列结构化和非结构化页面判别和提取的前提假设，并根据这些假设给出了网页类型判断和对象记录块提取的规则。具体而言，各个假设的详细内容如下所述：(1)对于所有网页，该页面的主要内容占据了页面主体，因此WEB对象块分布在WEB页面对应HTML标签树中较大尺寸的结点上；(2)假设在大量观察的基础上，将包含WEB对象记录块的网页归结为两种类型，结构化和非结构化页面，也即，如果一个WEB页面包含WEB对象块，他要么只包含一项用大段文字描述的WEB对象块，要么是多个WEB对象块的列表；(3)结构化 WEB页面中，WEB对象块结点以兄弟结点形式分布并拥有相同的父结点；(4)对于结构化页面，由于其绝大多数是由模板生成的，因此如果其中包含WEB对象列表，则每一个WEB 对象块结点处于相同位置的子结点有着近似的尺寸。

参阅图6本发明中WEB对象块抽取方法流程图显示了WEB对象块的抽取流程。WEB对象记录块提取时，首先加载一个WEB页面到内存当中；随后，由于不同WEB页面编码不同，因此统一将所有WEB页面转换为UTE-8编码。在编码转换过程中，可能会出现一些转换编码后页面编码仍然为乱码的情况，此时程序将抛出异常，从而当前页面的处理将被跳过；然后程序去除WEB页面中的无用标签，基于WEB对象的发现与提取以HTML标签为基本单元。因此，在去除无用标签的过程也是去噪的初步处理的过程。利用Tidy工具对 WEB页面进行预处理，转换为XML文档。XML文档是标准的结构化文档，使得HTML页面能够通过DOM接口对生成标签树。在此基础上，由下至上递归计算各个结点的尺寸。然后利用文本支持度、兄弟结点的尺寸相似度，筛选出所有候选的文章结点和WEB对象列表结点。最终从候选WEB对象记录块结点中选取尺寸最大的结点作为最终结果返回。方法详细步骤如下：

(1)WEB页面预处理。首先，利用Tidy工具对WEB页面进行格式化，将HTML文档中缺失的标签补齐，并对特殊字符进行转换，最终转换为XML文档。之后将XML文档中的无用标签去除；然后，利用DOM建立标签树。该标签树中，一对标签被看作树上的一个标签结点，一个标签中的子标签被视为该标签结点的子结点。

(2)结点尺寸计算。考虑不同标签对尺寸的作用，将不同标签被赋予不同权值。令 n表示结点中的文字数或标点数，w表示权，则结点的尺寸size_node可以按如下公式递归计算得到：

${size}_{node} = (n_{words} * w_{words} + n_{punctuation} * w_{punctuation}) * w_{tag} + \underset{cn \in children}{Σ} {size}_{cn},$

其中n_words和n_punctuation是包含于结点当中但不含于任何子结点中的文字数和标点数， w_words、w_punctuation和w_tag分别表示文字、标点和标签的权重，是所有子节点尺寸之和。理想情况下每一个标签都应赋予一个不同的权值。但实际实验中发现，采用标签组的策略(即为类似标签进行分组，并为同一组的标签赋予相同的权)已经可以达到较好效果，并减小标签权定义的复杂度。

(3)WEB页面主要内容过滤。给出文本支持度的概念描述WEB页面特殊性。文本支持度textsupport可以表示如下公式：

${textsupport}_{node} = \frac{{wsize}_{node} + {psize}_{node}}{{lsize}_{node}},$

其中，wsize_node、psize_node和lsize_node分别表示文字、标点和超链接的尺寸。对于深层次结点，如果文本支持度textsupport小于阈值ε(本发明中为0.2)，则该结点将被过滤掉。

(4)WEB对象块提取。如果WEB页面中包含对象列表，则该列表的父结点成为列表结点。如果WEB页面为非结构化页面，包含唯一一个WEB对象块，则该WEB对象块的父结点成为文章结点。将对列表结点的探测转换为对尺寸模板的探测。一般来讲，列表结点有程序按照模板自动生成，因此列表结点的各个子结点的尺寸相差不大。给定一组子结点本发明利用方差来衡量所有子结点间的相似性，如下面公式所示：

$sim = \frac{\underset{n \in {{child}_{i}}_{i = 1}^{n}}{Σ} {({size}_{n} - {average}_{{{child}_{i}}_{i = 1}^{n}})}^{2}}{| {{child}_{i}}_{i = 1}^{n} |},$

其中size_n是某子节点尺寸，是所有同组子结点的平均尺寸，是子结点的数目。值越小表示结点间相似性越高。因此，当一组相邻结点具有相同子结点数，且每一组子结点的sim小于阈值σ(本发明中为64)则认为该相邻的结点构成了一组列表，其父结点被表示为潜在列表结点。

文章结点的探测相对简单。那些textsupport值较高，且标点数较多的结点可认为是文章结点。探测过程由根结点开始，一旦探测到textsupport大于1.5，且标点数量大于 6，则将该结点标识为文章结点，并不再对其子结点进行探测。

属性级别WEB对象抽取方法实现分为两步：WEB对象记录块分类和WEB对象抽取。在 WEB对象记录块分类的过程中，需要构造二维的客体支持度矩阵，和主体贡献度矩阵，在此基础上计算网页本地模板与核心关系模板的匹配值，并选取最为匹配的类别对WEB 对象记录块进行分类，参阅图7本发明中WEB对象记录块分类方法流程图，具体流程如下：(1)对WEB记录块中的文本进行分词，并提取其中的实体名词。本发明在实际分词中构造了停词表，记录了WEB页面中经常出现的不具分类特性的词汇，如国家名等词汇；(2)对所有名词进行匹配，查找各名词在WEB对象关系库中对应的WEB对象。由于基于维基数据构造的WEB对象关系库中的WEB对象名不区分繁简体，因此一次匹配没有命中，则将名词进行繁简转换，再次进行匹配。由于WEB对象关系库中已存在26万余条 WEB对象，并记录了WEB对象的各种别名，因此，可以预期WEB对象记录块中的大部分名词可以匹配到相应的WEB对象；(3)查询匹配出的WEB对象类别，构造本地类别关系模板。由于存在多继承，每个WEB对象会映射到多了类别。此步骤不对此进行处理，而是将所有类别集合在一起共同构成本地类别关系模板；(4)根据本地类别关系模板和核心关系模板计算客体支持度矩阵；根据本地类别关系模板和核心关系模板计算主体贡献度度矩阵；根据本地类别关系模板和核心关系模板计算模板匹配比。匹配比则是指客体支持度矩阵与主体支持度矩阵的比例数据关系，用来反映实体词的模板匹配度；(5)将客体支持度、主体贡献度度和模板匹配比相乘，计算所有匹配类别的模板匹配度；(6)对所有匹配类别按模板匹配度排序，并选取最为匹配的模板作为WEB对象记录块的分类结果。

其中客体支持度是给定一项类别B，用其描述类别A的概率；主体贡献度是指一个关系客体相对一个关系主体的所有关系客体的重要程度；模板匹配比是局部WEB对象模板与核心关系模板匹配的关系数相对核心关系模板中所有关系数的比值。

在已知WEB对象块的基础上，原WEB对象记录块中识别出的与核心关系模板不相符的对象将被过滤移除。因而，此时得到的是符合已分类别的核心关系模板的WEB对象集合 ${{relwo}_{i}}_{i = 0}^{m} .$

采用投票策略从中识别核心WEB对象wo_desc。首先，在WEB对象块中出现次数最多的WEB对象wo_freq将被从中移除。实验表明，出现次数最多的WEB对象有很高的概率就是核心WEB对象。之后，对WEB对象记录块中的每一个句子中中任何对象出现的上下文中，如果(包括wo_freq)有对象出现，则该对象被投正票，否则投否决票。在对所有句子进行投票后，所有WEB对象按得票进行排序，得票最多且从属于已分类别的WEB对象将被判别为核心WEB对象。经过以上步骤，完成了对WEB 页面的抽取，从而得到了WEB页面的类别以及WEB页面中相互间具有普遍关系的WEB对象。

本发明WEB对象关系可视化采用了文氏图的思想，利用闭合的正方形表示维基百科中的类别、方形中的点表示从属于该类别的词条，点的半径值与该词条拥有的词条间关系数目成正比。类别间通过Radial算法相互连接表示类别间的关联关系。由于每个类别的词条数目众多，难以同时呈现出所有词条的相互关系，因此本发明采用交互手段弥补这一不足。当鼠标悬停在某一个词条对应圆点上时，高亮显示所有与被选中词条存在关系的圆点，并在有关系的圆点间绘制边。

以上所述仅为本发明的一些基本说明，依据本发明的技术方案所做的任何等效变换，均应属于本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于关系机制的多类别WEB对象抽取方法 [P] . 中国专利： CN102436472B . 2013.10.30
2. 一种基于关系机制的多类别WEB对象抽取方法 [P] . 中国专利： CN102436472A . 2012-05-02
3. METHOD AND SYSTEM FOR IMPLEMENTING CONTEXT BASED DISPLAY OF OBJECTS IN WEB APPLICATIONS USING LINK RELATIONSHIPS [P] . 美国专利： US2019220501A1 . 2019-07-18

机译：使用链接关系在Web应用程序中实现基于对象的对象显示的方法和系统
4. METHOD AND SYSTEM FOR IMPLEMENTING CONTEXT BASED DISPLAY OF OBJECTS IN WEB APPLICATIONS USING LINK RELATIONSHIPS [P] . 美国专利： US2018253405A1 . 2018-09-06

机译：使用链接关系在Web应用程序中实现基于对象的对象显示的方法和系统
5. METHOD AND SYSTEM FOR IMPLEMENTING CONTEXT BASED DISPLAY OF OBJECTS IN WEB APPLICATIONS USING LINK RELATIONSHIPS [P] . 美国专利： US2017300460A1 . 2017-10-19

机译：使用链接关系在Web应用程序中实现基于对象的对象显示的方法和系统