首页> 中国专利> 针对多记录网页的记录项抽取系统及方法

针对多记录网页的记录项抽取系统及方法

摘要

本发明涉及一种针对多记录网页的记录项抽取系统及方法,该系统包括:记录树对齐模块,接收已抽取好的记录区域子树,并利用标签信息及语义信息进行树对齐,得到一棵超树,从而让相同语义的节点对应于超树的同一个节点;记录内容抽取模块,使用文本密度及文本密度和度量指标确定记录中记录内容位置;记录项输出模块,将记录区域里所有记录项及其语义标注按照树节点先序遍历输出;反馈框架,在抽取记录项后利用抽取结果检查记录区域定位是否正确,不正确则重新定位记录区域,进而修改记录项抽取结果,正确则直接结束抽取流程。该系统及方法能够高效、准确地对多记录网页中记录区域进行记录项抽取,抽取速度快、准确度高,通用性强,适用范围广。

著录项

  • 公开/公告号CN104217025A

    专利类型发明专利

  • 公开/公告日2014-12-17

    原文格式PDF

  • 申请/专利权人 福州大学;

    申请/专利号CN201410503955.9

  • 发明设计人 陈国龙;廖祥文;陈巧灵;

    申请日2014-09-28

  • 分类号G06F17/30;

  • 代理机构福州元创专利商标代理有限公司;

  • 代理人蔡学俊

  • 地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区

  • 入库时间 2023-12-17 03:04:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-04-13

    授权

    授权

  • 2015-01-07

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140928

    实质审查的生效

  • 2014-12-17

    公开

    公开

说明书

技术领域

本发明涉及信息抽取技术领域,更具体地,涉及一种针对多记录网页的记录项抽取系统及方法,能应用于微博、论坛、产品评论等包含多条相似记录的网页,适用于多种不同媒介和不同领域。

背景技术

随着Web2.0时代的到来,多记录网页已成为数据挖掘重要的数据来源。多记录网页是指网页中有一个多记录区域,由多个结构相似的记录组成,每个记录都会包含一些固定的记录项。传统多记录网页的页面往往由服务器的cgi程序从数据库检索出记录,然后以制定好的模板动态生成。由于有固定的模板,所以每条记录的结构相似度极高,十分规整。新式多记录网页由于有用户参与网页内容创作,其内容格式的自由开放性及页面结构的复杂性,使得抽取其中的记录项以供机器处理变成十分困难。

在现有技术中,有很多技术方法可用于多记录网页抽取。但是主要是对数据记录进行抽取,并没有进一步从数据记录中抽取数据项。而数据项的抽取更能满足数据集成、数据分析等数据挖掘任务的需求。传统的数据项抽取方法采用编写规则的方法,该方法能够简单快捷地从特定的数据源中抽取出记录项信息。但是当数据源规模增长成百上千个时,再依靠人工编写规则,会耗费大量的时间和精力,无法满足现在信息极速膨胀的处理需求。另一方面,各个数据源的网页模板不是一成不变的,一旦页面模板更新,就需要人工重新修改规则,造成巨大的维护成本。还有一些通过人工标注训练集来生成规则的方法,因为需要人为参与同样不适合抽取海量多变的多记录网页。

在现有技术中,存在着一些针对多记录网页的记录项抽取方法。这些方法主要关注于特定媒介特定记录项的抽取,如评论页面的评论内容;帖子页面的作者名、发布时间、帖子内容,而没有抽取其它记录项。而其它的记录项也有其应用价值,特别是对领域知识的深入挖掘需要更加全面的记录项信息。如要识别垃圾评论,需要利用评论记录中商品打分、评论有用性打分、评论者信息等,仅仅抽取评论内容是不能满足垃圾评论识别的需求,缺乏一种针对多记录网页通用的记录项抽取方法。

此外现有大多数记录项抽取方法都是采用两阶段方式,即在抽取记录后,再进行记录项的抽取。该方式的优点是层层深入,逐步求精,记录识别能大大降低记录项抽取难度,缺点是记录的抽取错误会严重影响记录项的抽取,导致错误的累积,同时在抽取记录时由于缺乏记录项的语义信息,会影响记录的抽取效果。另一种方式是记录项统一抽取方式,即同时进行记录抽取和记录项抽取,将两者都看成是对树节点的标注过程。该方式的优点是同时进行有利于两者信息的有效利用。记录项的语义信息将有助于记录抽取,同时记录抽取将有助于提高记录项抽取的准确性。缺点是文中的标注方法需要训练模型,且所需的特征集合是领域依赖的,需要人工标注训练集,而现在的海量数据迫切需要一种自动的抽取方法。现有的工作尚未实现以非监督、统一方式来进行记录项抽取。

随着近年来微博、论坛等社交媒介消息的不断产生,多记录网页已经拥有大量的数据资源,并需要通过数据挖掘技术来发现其中的热点话题、意见领袖等信息,这就对记录项信息抽取技术提出了一个挑战:如何构建一个统一有效的信息抽取系统来满足不同媒介的信息抽取需要。因此,迫切需要有一种高效准确的记录项抽取方法,该方法应能够自动抽取记录区域的记录项,并进行记录项语义对齐,同时能够在不同媒介、不同领域方便地使用。

发明内容

本发明的目的在于提供一种针对多记录网页的记录项抽取系统及方法,该系统及方法能够高效、准确地对多记录网页中记录区域进行记录项抽取,抽取速度快、准确度高,通用性强,适用范围广。

为实现上述目的,本发明的技术方案是:一种针对多记录网页的记录项抽取系统,包括:

记录树对齐模块,用于接收已抽取好的记录区域子树,并利用标签信息及语义信息进行树对齐,得到一棵超树,从而让相同语义的节点对应于超树的同一个节点;

记录内容抽取模块,使用文本密度及文本密度和度量指标确定记录中记录内容位置;

记录项输出模块,用于将记录区域里所有记录项及其语义标注按照树节点先序遍历输出;

反馈框架,用于在抽取记录项后利用抽取结果检查记录区域定位是否正确,如果不正确则重新定位记录区域,进而修改记录项抽取结果,直至抽取结果正确或者无法定位到新的记录区域异常结束,如果正确,则直接结束抽取流程。

进一步的,所述记录树对齐模块使用DOM树内节点标签及叶节点文本语义对子树进行对齐。

进一步的,所述记录内容抽取模块的工作流程包括以下步骤:

步骤a1:进行子树对齐得到一棵超树Ts,筛选出Ts中未有语义标注的节点集合US;

步骤a2:计算US集合节点的文本密度,进而求得每棵子树的文本密度和;

步骤a3:根据文本密度和,确定包含记录内容的最小子树集。

进一步的,所述反馈框架的工作流程包括以下步骤:

步骤b1:抽取记录;

步骤b2:抽取记录项,判断每条记录是否都有时间记录项及作者记录项,如果有,则抽取成功,如果没有,若仅有若干条记录不符合,则去除该些记录,若绝大多数记录不符合,则重新确定记录区域;

步骤b3:重复步骤b1、b2,直到抽取出来的记录满足条件,或者无法选择新的记录区域结束。

本发明还提供一种针对多记录网页的记录项抽取方法,包括以下步骤:

步骤1:由记录树对齐模块接收已抽取好的记录区域子树,并利用标签信息及语义信息进行树对齐,得到一棵超树,从而让相同语义的节点对应于超树的同一个节点;

步骤2:由记录内容抽取模块使用文本密度及文本密度和度量指标确定记录中记录内容位置;

步骤3:由记录项输出模块将记录区域里所有记录项及其语义标注按照树节点先序遍历输出;

步骤4:使用反馈框架,在抽取记录项后利用抽取结果检查记录区域定位是否正确,如果不正确则重新定位记录区域,进而修改记录项抽取结果,直至抽取结果正确或者无法定位到新的记录区域异常结束,如果正确,则直接结束抽取流程。

进一步的,在步骤1中,所述记录树对齐模块使用DOM树内节点标签及叶节点文本语义对子树进行对齐。

进一步的,在步骤2中,所述记录内容抽取模块的工作流程包括以下步骤:

步骤a1:进行子树对齐得到一棵超树Ts,筛选出Ts中未有语义标注的节点集合US;

步骤a2:计算US集合节点的文本密度,进而求得每棵子树的文本密度和;

步骤a3:根据文本密度和,确定包含记录内容的最小子树集。

进一步的,在步骤4中,所述反馈框架的工作流程包括以下步骤:

步骤b1:抽取记录;

步骤b2:抽取记录项,判断每条记录是否都有时间记录项及作者记录项,如果有,则抽取成功,如果没有,若仅有若干条记录不符合,则去除该些记录,若绝大多数记录不符合,则重新确定记录区域;

步骤b3:重复步骤b1、b2,直到抽取出来的记录满足条件,或者无法选择新的记录区域结束。

相较于现有技术,本发明的有益效果是可以高效、准确地对多记录网页(如微博记录网页、论坛帖子网页、产品评论网页等)进行记录项抽取,克服了现有的抽取方法错误累积、非自动的缺陷,不仅抽取速度快,准确度高,稳定性高,而且通用性强,适用范围广,能够在不同媒介、不同领域方便地应用,具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的系统结构示意图。

图2是本发明实施例中记录内容抽取实例示意图。

图3是本发明实施例中反馈框架的工作流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明针对多记录网页的记录项抽取系统,如图1所示,包括:

(1)记录树对齐模块,用于接收已抽取好的记录区域子树,并利用标签信息及语义信息进行树对齐,得到一棵超树,从而让相同语义的节点对应于超树的同一个节点。所述记录树对齐模块使用DOM树内节点标签及叶节点文本语义对子树进行对齐。

(2)记录内容抽取模块,使用文本密度及文本密度和度量指标确定记录中记录内容位置。

(3)记录项输出模块,用于将记录区域里所有记录项及其语义标注按照树节点先序遍历输出。

(4)反馈框架,用于在抽取记录项后利用抽取结果检查记录区域定位是否正确,如果不正确则重新定位记录区域,进而修改记录项抽取结果,直至抽取结果正确或者无法定位到新的记录区域异常结束,如果正确,则直接结束抽取流程。

下面分别详细描述各模块的实现方案。

(1)记录树对齐模块

首先,描述记录树对齐模块如何进行树对齐操作的,即,如何把相同语义的节点对应于超树的同一个节点。

现有对齐方式是后序遍历DOM树,使用树编辑距离来进行子树的匹配。在匹配的过程中,只要求标签一致,而不考虑记录项值,但Html标签只是用于对网页信息布局的设计,缺乏语义的表达能力。当一个子树能和多个子树匹配时,选择最先出现的子树进行匹配。这种对齐方式虽然简单,但准确率不高。为了提高准确率,本发明中,对有明显语义的记录项(时间、作者等)进行标注,将相同语义的标签进行对齐,就能避免类似的错误。当一个子树能和多个子树匹配时,选择有相同语义的子树进行匹配,而如果没有匹配到相同语义的子树,则选择最先出现的子树。如果一个节点有多个语义标注,在匹配时只要某一个语义能和另一个节点匹配上,则进行对齐。

(2)记录内容抽取模块

其次,描述记录内容抽取模块是如何确定记录内容的。在DOM树中,诸如作者、时间等短文本记录项通常对应DOM树中一个叶节点,而记录内容对应了一些复杂的子树而非一个简单的叶节点,其抽取难度要大于其它记录项。由于记录内容相较于其它记录项为长文本,借助文本密度这个度量值来确定记录中的记录内容。该方法采用3步策略:首先,按照前文所述方法进行子树对齐得到一棵超树Ts,筛选出Ts中未有语义标注的节点集合US;然后计算US集合节点的文本密度,进而求得每棵子树的文本密度和;最后根据文本密度和,确定包含记录内容的最小子树集。下面是对每一步的具体介绍。

1. 子树对齐

按照上节所介绍的对齐方法进行记录子树对齐,所有子树通过插入一些节点变成同构的,使得各个树中相同语义的节点被对齐为Ts中的一个节点。而Ts的语义标注采用投票原则,当有超过半数的记录都将该节点标注为某语义时,则节点标注为某语义。同时对超树Ts的每个文本叶节点的字符数进行标注。标注规则为

其中Ci为超树Ts的第i个叶节点的字符数,Cij为i节点在第j棵子树的字符数。

2. 文本密度和文本密度和

本发明使用文本密度和文本密度和计算公式来确定无标注的子树节点中包含记录内容的最小子树集。首先计算所有剩余节点的文本密度(formula 2)及文本密度和(formula 3)。

 (1)

 (2)

3. 确定包含记录内容的最小子树集

找到文本密度和最大的节点DensitySummax,将以该节点为根的子树加入结果集。从DensitySummax到记录根节点的路径中确定文本密度和最小的节点,该节点的文本密度和作为阈值。然后遍历所有剩余节点,若该节点文本密度大于阈值,则从该节点的子节点中找出文本密度和最大的节点,则以它为根节点的子树为记录内容块。在很多情况下,记录内容会分为很多文本块,所以需要对每个文本密度大于阈值的节点进行相同的操作,找齐所有的记录内容子树集。图2展示了一棵对齐后的超树Ts,以它为例介绍下确定记录内容子树集的过程。阴影节点为无语义标注节点,其中T代表文本节点,括号内的数字为文本节点的字符数,其余标签节点旁边的数字为该节点的文本密度,括号内的数字为该节点下子树的文本密度和。可以看出文本密度和为230的<div>节点是密度和最大的,将以它为根的子树加入结果集。从该节点到记录根节点密度和最小的值为151,则阈值定为151。剩余节点中只有文本密度为167的<div>节点超过阈值,因其没有其它子节点,则直接将以它为根的子树加入结果集。最后得到最小子树集,图中用线圈表示。

(3)记录输出模块

最后,描述记录输出模块。记录输出模块将记录区域里所有文本节点按层次顺序遍历输出,在碰到分隔符时输出分隔线,得到最终的抽取结果。

(4)反馈框架

现有大多数记录项抽取方法都是采用两阶段方式,即在抽取记录后,再进行记录项的抽取。该方式的优点是层层深入,逐步求精,记录识别能大大降低记录项抽取难度,缺点是记录的抽取错误会严重影响记录项的抽取,导致错误的累积,同时在抽取记录时由于缺乏记录项的语义信息,会影响记录的抽取效果。记录项抽取的统一方式,即同时进行记录抽取和记录项抽取,将两者都看成是对树节点的标注过程。该方式的优点是同时进行有利于两者信息的有效利用。记录项的语义信息将有助于记录抽取,同时记录抽取将有助于提高记录项抽取的准确性。缺点是文中的标注方法需要训练模型,且所需的特征集合是领域依赖的,需要人工标注训练集,而现在的海量数据迫切需要一种自动的抽取方法。

本发明在两阶段方式的基础上提出反馈框架,该方式能在记录项抽取结果的基础上再次修改记录抽取,从而提高最终的抽取效果。

假设:UGC网页每条记录都应包含一个或以上的时间记录项及作者记录项。

根据该假设如果抽取出来的记录未包含时间记录项及作者记录项,则要再次进行记录区域定位,记录抽取,直到记录满足假设或者异常终止。该方式流程:

1、抽取记录

2、抽取记录项,判断每条记录是否都有时间记录项及作者记录项

如果有,则抽取成功结束

如果没有,仅有一两条记录不符合,则这些不符合的记录为广告记录等,去除。

绝大多数记录都不符合,则确定次长文本节点或次多记录数为根节点的记录区域块为新的记录区域。

3、重复1、2步,直到抽取出来的记录满足条件,或者无法选择新的记录区域(遍历完所有的文本节点或者记录数小于3,通常多记录网页记录数大等于3)时结束。

该方式流程是全自动的,在判断记录是否满足假设时也是依据自动的语义标注结果,无需人工干预,同时又能很好地修正记录抽取的错误,避免错误的累积。

本发明最大的创新点包含以下三点:

1、本发明首次在树对齐的时候同时考虑了内节点标签值和叶节点文本语义,两者的结合能够避免树对齐一些明显的错误,如内节点标签值相同而叶节点语义不同的情况。

2、本发明首次使用文本密度和文本密度和来确定记录中记录内容,因为在DOM树中,诸如作者、时间等短文本记录项通常对应DOM树中一个叶节点,而记录内容对应了一些复杂的子树而非一个简单的叶节点,其抽取难度要大于其它记录项。由于记录内容相较于其它记录项为长文本,借助文本密度这个度量值可以确定记录中的记录内容。

3、本发明首次提出反馈框架,该流程的设计能够避免两阶段抽取流程错误累积的问题,同时又能解决统一抽取方式需要人工标注语料、领域依赖的问题,达到高效准确地抽取数据记录及记录项。

据此,本发明提出了针对多记录网页的记录项抽取方法,包括以下步骤:

步骤1:由记录树对齐模块接收已抽取好的记录区域子树,并利用标签信息及语义信息进行树对齐,得到一棵超树,从而让相同语义的节点对应于超树的同一个节点;

步骤2:由记录内容抽取模块使用文本密度及文本密度和度量指标确定记录中记录内容位置;

步骤3:由记录项输出模块将记录区域里所有记录项及其语义标注按照树节点先序遍历输出;

步骤4:同时使用反馈框架,即在抽取记录项后利用抽取结果检查记录区域定位是否正确,如果不正确则重新定位记录区域,进而修改记录项抽取结果,直至抽取结果正确或者无法定位到新的记录区域异常结束,如果正确,则直接结束抽取流程。

在步骤1中,所述记录树对齐使用DOM树内节点标签及叶节点文本语义对子树进行对齐。

在步骤2中,所述记录内容抽取模块的工作流程包括以下步骤:

步骤a1:进行子树对齐得到一棵超树Ts,筛选出Ts中未有语义标注的节点集合US;

步骤a2:计算US集合节点的文本密度,进而求得每棵子树的文本密度和;

步骤a3:根据文本密度和,确定包含记录内容的最小子树集。

在步骤4中,所述反馈框架是全自动的,如图3所示,其工作流程包括以下步骤:

步骤b1:抽取记录;

步骤b2:抽取记录项,判断每条记录是否都有时间记录项及作者记录项,如果有,则抽取成功,如果没有,若仅有若干条记录不符合,则该些不符合的记录为广告记录等,去除该些记录,若绝大多数记录不符合,则重新确定记录区域;

步骤b3:重复步骤b1、b2,直到抽取出来的记录满足条件,或者无法选择新的记录区域结束。

以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号