首页> 中国专利> 更新数据库中非永久性的关系数据的方法及系统

更新数据库中非永久性的关系数据的方法及系统

摘要

本发明提供一种更新数据库中非永久性的关系数据的方法及系统,所述方法包括:抓取网络中到当前时间点为止的预定时间段内增加或者更新的网页;从抓取到的网页中提取关系类型属于待更新的数据库的非永久性关系集合的关系三元组数据;根据提取出的关系三元组数据更新数据库中非永久性的关系数据。采用本发明提供的技术方案,可以实时地根据网络中到当前时间点为止的预定时间段内增加或者更新的网页,对数据库中非永久性的关系数据进行更新,从而保证数据库中非永久性的关系数据的准确性和时效性。

著录项

  • 公开/公告号CN105069045A

    专利类型发明专利

  • 公开/公告日2015-11-18

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201510437705.4

  • 申请日2015-07-23

  • 分类号G06F17/30;

  • 代理机构广州三环专利代理有限公司;

  • 代理人温旭

  • 地址 100085 北京市海淀区上地十街10号百度大厦三层

  • 入库时间 2023-12-18 12:16:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-07-31

    授权

    授权

  • 2015-12-16

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150723

    实质审查的生效

  • 2015-11-18

    公开

    公开

说明书

技术领域

本发明涉及互联网领域,更为具体而言,涉及更新数据库中非永久性的 关系数据的方法及系统。

背景技术

数据库通常包括实体(所述实体指客观存在并可相互区别的事物,可以 是具体的人、事、物,也可以是抽象的概念)、实体的属性数据(例如人物实 体的出生日期等)以及实体间的关系数据(例如人物实体的夫妻关系数据等)。 其中,关系数据可以分为永久性的关系数据(例如父子关系数据等)和非永 久性的关系数据(例如夫妻关系数据、职位关系数据等)。其中,非永久性的 关系数据可能在某个时间点失效,然而,在现有技术中没有涉及到数据库中 非永久性的关系数据的更新工作,因此无法保证数据库中非永久性的关系数 据的准确性和时效性。

发明内容

为有效地解决上述技术问题,本发明提供了一种更新数据库中非永久性 的关系数据的方法及系统。

一方面,本发明的实施方式提供了一种更新数据库中非永久性的关系数 据的方法,所述方法包括:

抓取网络中到当前时间点为止的预定时间段内增加或者更新的网页;

从抓取到的网页中提取关系类型属于待更新的数据库的非永久性关系集 合的关系三元组数据;

根据提取出的关系三元组数据更新数据库中非永久性的关系数据。

另一方面,本发明的实施方式还提供了一种更新数据库中非永久性的关 系数据的系统,所述系统包括:

抓取模块,用于抓取网络中到当前时间点为止的预定时间段内增加或者 更新的网页;

提取模块,用于从所述抓取模块所抓取到的网页中提取关系类型属于待 更新的数据库的非永久性关系集合的关系三元组数据;

更新模块,用于根据所述提取模块所提取出的关系三元组数据更新数据 库中非永久性的关系数据。

实施本发明提供的更新数据库中非永久性的关系数据的方法及系统可以 实时地根据网络中到当前时间点为止的预定时间段内增加或者更新的网页, 对数据库中非永久性的关系数据进行更新,从而保证数据库中非永久性的关 系数据的准确性和时效性。

附图说明

图1是根据本发明实施方式的一种更新数据库中非永久性的关系数据的 方法的流程图;

图2示出了图1所示的处理S130的一种实施方式;

图3是根据本发明实施方式的另一种更新数据库中非永久性的关系数据 的方法的流程图;

图4示出了图3所示的处理S240的一种实施方式;

图5是根据本发明实施方式的一种更新数据库中非永久性的关系数据的 系统的结构示意图;

图6示出了图5所示的更新模块130的一种实施方式;

图7示出了图5所示的更新模块130的另一种实施方式;

图8示出了图5所示的更新模块130的又一种实施方式。

具体实施方式

为使本发明的实施例的目的、技术方案和优点更加清楚,下面将结合附 图对本发明作详细描述。

图1是根据本发明实施方式的一种更新数据库中非永久性的关系数据的 方法的流程图。参见图1,所述方法包括:

S110:抓取网络中到当前时间点为止的预定时间段内增加或者更新的网 页;

其中,所述预定时间段例如可以是1小时,本领域的技术人员可以根据 实际需要采用其它合理时间;

S120:从抓取到的网页中提取关系类型属于待更新的数据库的非永久性 关系集合的关系三元组数据;

S130:根据提取出的关系三元组数据更新数据库中非永久性的关系数据。

其中,所述关系三元组数据(即SPO:subject-predicate-object,主体-谓词- 客体)可以包括:实体对、关系类型以及辅助信息(例如时间信息);同时,所 述非永久性关系集合可以包括:所述待更新的数据库中的非永久性的关系类 型以及所述非永久性的关系类型的关联关系类型,其中,所述关联关系类型 可以包括:事件关系类型,例如,针对“夫妻”这一非永久性的关系类型, 其关联关系类型可以包括:“结婚”、“离婚”等事件关系类型。

在本发明的实施方式中,可以预先构建所述非永久性关系集合,并且针 对所述非永久性关系集合中的各元素分别构建相应的关系提取器集合(包括 两个以上的关系提取器),关系提取器用于识别实体对的关系类型是否为与所 述关系提取器对应的关系类型,同一关系提取器集合中的各关系提取器的用 于进行关系类型识别的判定模型不同。

在本发明的实施方式中,处理S120可以通过以下方式实现:

通过构建出的所述关系提取器集合从所述抓取到的网页中提取所述关系 三元组数据。

在本发明的实施方式中,通过处理S110所抓取到的网页可以是一个也可 以是多个,当抓取到的网页为多个时,可以针对抓取到的各个网页分别执行 处理S120以及处理S130;同时,通过处理S120所提取出的关系三元组数据可 以是一个也可以是多个,当提取出的关系三元组数据是多个时,可以针对提 取出的各个关系三元组数据分别执行处理S130。

为提升数据库更新的质量,在本发明的一种优选的实施方式中,在执行 处理S130前,识别所述提取出的关系三元组数据是否为正确数据,若所述关 系三元组数据识别为是正确数据,则继续执行处理S130,若所述关系三元组 数据识别不是正确数据,则删除所述关系三元组数据;其中,识别所述提取 出的关系三元组数据是否为正确数据可以通过以下方式中的任一种实现:

1)判断是否不同的关系提取器均确定待识别的关系三元组数据的实体对 的基于给定句子的关系类型为目标关系类型,若所述不同的关系提取器均确 定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系 类型,则确定所述待识别的关系三元组数据是正确数据,若存在确定待识别 的关系三元组数据的实体对的基于给定句子的关系类型不为目标关系类型的 关系提取器,则确定所述待识别的关系三元组数据不是正确数据,其中,所 述目标关系类型为所述待识别的关系三元组数据的关系类型,所述给定的句 子为用于提取出所述待识别的关系三元组数据的句子,所述不同的关系提取 器均对应于所述目标关系类型;

2)获取待识别的关系三元组数据的累积提取次数,将获取的所述累积提 取次数与预定阈值进行比较,若所述累积提取次数大于或者等于所述预定阈 值,则确定所述待识别的关系三元组数据是正确数据;若所述累积提取次数 小于所述预定阈值,则确定所述待识别的关系三元组数据不是正确数据。

如图2所示,处理S130具体可以通过以下方式实现:

S131:识别提取出的关系三元组数据的关系类型,若所述关系类型识别 为事件关系类型,则执行S132,若所述关系类型识别为非永久性的关系类型, 则执行S137;

S132:从更新规则库中获取与所述事件关系类型对应的更新规则;

S133:根据获取的更新规则以及提取出的关系三元组数据,在所述数据 库中定位待更新的非永久性的关系数据;

S134:识别是否定位到待更新的非永久性的关系数据,若是,则执行S135, 若否,则执行S136;

S135:在定位到的数据上执行基于所述提取出的关系三元组数据中的辅 助信息以及所述获取的更新规则的数据处理,跳转到S139;

S136:在所述数据库中建立所述待更新的非永久性的关系数据,并在建 立的数据上执行基于所述提取出的关系三元组数据中的辅助信息以及所述获 取的更新规则的数据处理,跳转到S139;

S137:识别所述数据库中是否存在与提取出的关系三元组数据对应的关 系数据,若否,则执行S138,若是,则跳转到S139;

S138:将提取出的关系三元组数据存储至所述数据库中;

S139:结束。

以下结合具体例子,对本发明的实施方式进行具体说明。图3是根据本发 明实施方式的另一种更新数据库中非永久性的关系数据的方法的流程图。参 见图3,所述方法包括:

S210:抓取网络中在当前时间点之前的预定时间段(例如1小时)内增 加或更新的网页,形成网页集合;

S220:识别形成的网页集合中是否存在未进行关系三元组数据提取的网 页,若是,则执行S230,若否,则执行S270;

S230:从形成的网页集合中任意选取一个未进行关系三元组数据提取的 网页;

S240:从选取的网页中提取关系类型属于待更新的数据库的非永久性关 系集合的关系三元组数据;

S250:识别提取的结果是否为空,若否,则执行S260,若是,则执行S220;

其中,在本发明的实施方式中,所述非永久性关系集合包括:所述待更 新的数据库中的非永久性的关系类型以及所述非永久性的关系类型的关联关 系类型,所述关联关系类型包括:事件关系类型,例如,针对“夫妻”这一 非永久性的关系类型,其关联关系类型可以包括:“结婚”、“离婚”等事件关 系类型;

S260:根据提取出的关系三元组数据更新数据库中非永久性的关系数据, 并返回执行S220;

S270:等待所述预定时间段(1小时)后返回执行S210。

可以在首次执行所述方法时,预先构建所述非永久性关系集合;并针对 所述非永久性关系集合中的各元素分别构建相应的关系提取器集合(包括两 个以上的关系提取器),关系提取器用于识别实体对的关系类型是否为与所述 关系提取器对应的关系类型,同一关系提取器集合中的各关系提取器的用于 进行关系类型识别的判定模型不同。

在本发明的实施方式中,处理S240具体可以通过以下方式实现:

通过构建出的所述关系提取器集合从所述抓取到的网页中提取所述关系 三元组数据。具体地,如图4所示,处理S240可以包括:

S241:从网页中提取句子集合;

S242:识别提取出的句子集合中是否存在未进行实体识别的句子,若是, 则执行S243,若否,则执行S2411;

S243:从句子集合中任意选取一个未进行实体识别的句子;

S244:识别选取的句子中是否具有两个以上的实体,若否,则转到S242, 若是,则执行S245;

S245:识别选取的句子中是否具有三个以上的实体,若是,则执行S246, 若否,则执行S247;

S246:穷举出所述实体所构成的全部的实体对以形成实体对集合,并执 行S248;

S247:基于这两个实体形成一个实体对以形成实体对集合;

S248:识别实体对集合中是否存在未进行特征向量生成的实体对,若是, 则执行S249,若否,则执行S242;

S249:从实体对集合中选取任意一个未进行特征向量生成的实体对;

S2410:针对选取的实体对生成特征向量,并将生成的特征向量分别输入 到构建出的各个关系提取器集合中,并针对各关系提取器集合分别执行以下 处理:通过关系提取器集合中的各关系提取器分别识别选取的实体对的关系 类型是否为目标关系类型(与所述关系提取器集合对应的关系类型),若至少 两个以上的关系提取器识别所述实体对的关系类型为目标关系类型,则根据 所述实体对以及所述实体对的关系类型等信息提取出关系三元组数据(包括 实体对、关系类型(所述实体对的关系类型)以及辅助信息),返回执行S238;

S2411:结束。

在本发明的实施方式中,例如,针对选取的实体对生成特征向量的具体 实现过程为:对选取的句子进行分词、词性标注以及依存句法分析;基于选 取的句子提取所述选取的实体对的词性、所述选取的实体对间的词语集合、 词语集合的词性信息以及所述选取的实体对的依存路径标记构成特征集合; 将以上提取出的特征集合转化为特征向量。

在上述处理过程中,针对每个实体对(例如张某/杨某),可以通过多个关 系提取器集合提取出多个关系三元组数据,例如:(张某,夫妻,杨某,时间 2013年5月22日)以及(张某,结婚,杨某,时间2013年5月22日),可 以从中选取出置信度(置信度,也叫可靠度、置信水平或者置信系数,它是 指特定个体相信特定命题的真实性的程度,其基于关系提取器集合中的各关 系提取器的识别结果)大于或者等于其它任何一个关系三元组数据的置信度 的关系三元组数据(即选取出置信度最大的关系三元组数据),丢弃其它的关 系三元组数据。

在本发明的实施方式中,可以对提取出的关系三元组数据进行归一操作, 具体包括:对关系三元组数据中的实体进行实体消歧操作,即将实体映射到 数据库中的实体义项id(identification,身份标识符),以及将关系类型映射到 数据库中的关系schema(名称),例如关系三元组数据(张某,夫妻,杨某,时 间2013年5月22日)经过归一操作后为(张某id=590836,夫妻schema=fuqi, 杨某id=3047007,时间2013/5/22)。

在本发明的实施方式中,处理S260的具体实现方式同图2所示的处理 S130的具体实现方式,在此不再赘述,以下结合一个样例具体解释处理S260 的具体实现过程。例如,提取出的关系三元组数据为(张某,离婚,杨某,时 间2014年10月24日),对其进行归一操作后为(张某id=590836,离婚 schema=lihun,杨某id=3047007,时间2014/10/24),识别出该关系三元组数 据的关系类型为事件关系类型(离婚),从规则库中获取与“离婚”对应的更 新规则(例如“离婚”可以更新“夫妻”关系),其中,更新规则包括规定哪 些关系类型之间可以进行更新(例如“结婚”可以建立“夫妻”关系、“结婚” 可以更新“夫妻”关系、“离婚”可以更新“夫妻”关系等等),基于获取到 的更新规则以及提取出的关系三元组数据,从数据库中定位张某/杨某的夫妻 关系数据(张某id=590836,夫妻schema=fuqi,杨某id=3047007,起始时间 =2013/5/22,结束时间=null),若定位成功,则根据提取出的关系三元组数据 中的辅助信息以及获取的更新规则将定位到的夫妻关系数据中的结束时间从 null(空)更新为2014/10/24,并将提取出的关系三元组数据写入数据库中, 若定位失败,则进行出错处理,即在数据库中补充建立张某/杨某的夫妻关系 数据,并在建立的数据上执行上述根据提取出的关系三元组数据中的辅助信 息以及获取的更新规则将定位到的夫妻关系数据中的结束时间从null(空)更 新为2014/10/24,并将提取出的关系三元组数据写入数据库中的处理。

在本发明的实施方式中,通过处理S240所提取出的关系三元组数据可以 是一个也可以是多个,当提取出的关系三元组数据是多个时,可以针对提取 出的各个关系三元组数据分别执行上述处理S260。

为提升数据库更新的质量,在执行处理S260前,识别所述提取出的关系 三元组数据是否为正确数据,若所述关系三元组数据识别为是正确数据,则 继续执行处理S260,若所述关系三元组数据识别为不是正确数据,则删除所 述关系三元组数据;其中,识别所述提取出的关系三元组数据是否为正确数 据可以通过以下方式中的任一种实现:

1)判断是否不同的关系提取器均确定待识别的关系三元组数据的实体对 的基于给定句子的关系类型为目标关系类型,若所述不同的关系提取器均确 定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系 类型,则确定所述待识别的关系三元组数据是正确数据,若存在确定待识别 的关系三元组数据的实体对的基于给定句子的关系类型不为目标关系类型的 关系提取器,则确定所述待识别的关系三元组数据不是正确数据,其中,所 述目标关系类型为所述待识别的关系三元组数据的关系类型,所述给定的句 子为用于提取出所述待识别的关系三元组数据的句子,所述不同的关系提取 器均对应于所述目标关系类型;

2)获取待识别的关系三元组数据的累积提取次数,将获取的所述累积提 取次数与预定阈值进行比较,若所述累积提取次数大于或者等于所述预定阈 值,则确定所述待识别的关系三元组数据是正确数据,若所述累积提取次数 小于所述预定阈值,则确定所述待识别的关系三元组数据不是正确数据。

此外,可以将数据库中通过本发明所提供的更新数据库中非永久性的关 系数据的方法而进行更新的数据更新到在线实体检索系统的索引库中,所述 在线实体检索系统基于更新的索引库支持实体的在线查询。

图5是根据本发明实施方式的一种更新数据库中非永久性的关系数据的 系统的结构示意图。参见图5,该系统100包括:抓取模块110、提取模块120 以及更新模块130,具体地:

抓取模块110,用于抓取网络中到当前时间点为止的预定时间段内增加或 者更新的网页;

其中,所述预定时间段例如可以是1小时,本领域的技术人员可以根据 实际需要采用其它合理时间;

提取模块120,用于从所述抓取模块110所抓取到的网页中提取关系类型 属于待更新的数据库的非永久性关系集合的关系三元组数据;

更新模块130,用于根据所述提取模块120所提取出的关系三元组数据更 新数据库中非永久性的关系数据。

其中,所述关系三元组数据(即SPO:subject-predicate-object,主体-谓词- 客体)可以包括:实体对、关系类型以及辅助信息(例如时间信息);同时,所 述非永久性关系集合可以包括:所述待更新的数据库中的非永久性的关系类 型以及所述非永久性的关系类型的关联关系类型,其中,所述关联关系类型 可以包括:事件关系类型,例如,针对“夫妻”这一非永久性的关系类型, 其关联关系类型可以包括:“结婚”、“离婚”等事件关系类型。

在本发明的实施方式中,该系统100还可以包括非永久性关系集合构建 模块以及关系提取器集合构建模块,具体地:

非永久性关系集合构建模块,用于构建所述非永久性关系集合;

关系提取器集合构建模块,用于针对所述非永久性关系集合构建模块所 构建的非永久性关系集合中的各元素分别构建相应的关系提取器集合(包括 两个以上的关系提取器),关系提取器用于识别实体对的关系类型是否为与所 述关系提取器对应的关系类型,同一关系提取器集合中的各关系提取器的用 于进行关系类型识别的判定模型不同。

在本发明的实施方式中,所述提取模块120可以包括:提取单元121,用 于通过构建出的所述关系提取器集合从所述抓取到的网页中提取所述关系三 元组数据。

如图6所示,在本发明的一种实施方式中,更新模块130可以包括:第 一识别单元131、获取单元132、定位单元133以及处理单元134,具体地:

第一识别单元131,用于识别提取出的关系三元组数据的关系类型;

获取单元132,用于当所述第一识别单元131识别所述关系类型为事件关 系类型时,从更新规则库中获取与所述事件关系类型对应的更新规则;

定位单元133,用于根据所述获取单元132所获取的更新规则以及提取出 的关系三元组数据,在所述数据库中定位待更新的非永久性的关系数据;

处理单元134,用于在定位单元133所定位到的数据上执行基于所述提取 出的关系三元组数据中的辅助信息以及所述获取的更新规则的数据处理。

如图7所示,在本发明的另一种实施方式中,更新模块130’可以包括:第 一识别单元131’、获取单元132’、定位单元133’、建立单元134’以及处理单元 135’,具体地:

第一识别单元131’、获取单元132’以及定位单元133’分别同前述的第一 识别单元131、获取单元132以及定位单元133,在此不再赘述;

建立单元134’,用于当所述定位单元133’定位失败时,在所述数据库中 建立所述待更新的非永久性的关系数据;

处理单元135’,用于在定位单元133’所定位到的数据上执行基于所述提 取出的关系三元组数据中的辅助信息以及所述获取的更新规则的数据处理, 并且,还用于在所述建立单元134’所建立的数据上执行基于所述提取出的关 系三元组数据中的辅助信息以及所述获取的更新规则的数据处理。

如图8所示,在本发明的又一种实施方式中,更新模块130”可以包括: 第一识别单元131”、获取单元132”、定位单元133”、建立单元134”、处理单 元135”、第二识别单元136”以及存储单元137”,具体地:

第一识别单元131”、获取单元132”、定位单元133”、建立单元134”以及 处理单元135”分别同前述的第一识别单元131’、获取单元132’、定位单元133’、 建立单元134’以及处理单元135’,在此不再赘述;

第二识别单元136”,用于当所述第一识别单元131”识别所述关系类型为 非永久性的关系类型时,识别所述数据库中是否存在与提取出的关系三元组 数据对应的关系数据;

存储单元137”,用于当所述第二识别单元136”的识别结果为不存在时, 将提取出的关系三元组数据存储至所述数据库中。

在本发明的实施方式中,该系统100还可以包括:识别模块以及删除模 块,具体地:

识别模块,用于识别提取模块所提取出的关系三元组数据是否为正确数 据;

删除模块,用于当识别模块识别所述提取出的关系三元组数据不是正确 数据时,删除所述关系三元组数据;

并且,当识别模块识别所述提取出的关系三元组数据是正确数据时,触 发执行所述更新模块。

在本发明的实施方式中,所述识别模块可以包括:第三识别单元,或者 第四识别单元,具体地,

第三识别单元,包括:用于判断是否不同的关系提取器均确定待识别的 关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型的判断 组件,以及用于当所述判断组件判定所述不同的关系提取器均确定待识别的 关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型时,确 定所述待识别的关系三元组数据是正确数据,当所述判断组件判定存在确定 待识别的关系三元组数据的实体对的基于给定句子的关系类型不为目标关系 类型的关系提取器时,确定所述待识别的关系三元组数据不是正确数据的第 一确定组件,其中,所述目标关系类型为所述待识别的关系三元组数据的关 系类型,所述给定的句子为用于提取出所述待识别的关系三元组数据的句子, 所述不同的关系提取器均对应于所述目标关系类型;

第四识别单元,包括:用于获取待识别的关系三元组数据的累积提取次 数的获取组件,用于将获取组件所获取的所述累积提取次数与预定阈值进行 比较的比较组件,以及用于当所述比较组件比较出所述累积提取次数大于或 者等于所述预定阈值时,确定所述待识别的关系三元组数据是正确数据,当 所述比较组件比较出所述累积提取次数小于所述预定阈值时,确定所述待识 别的关系三元组数据不是正确数据的第二确定组件。

实施本发明提供的更新数据库中非永久性的关系数据的方法及系统可以 实时地根据网络中到当前时间点为止的预定时间段内增加或者更新的网页, 对数据库中非永久性的关系数据进行更新,从而保证数据库中非永久性的关 系数据的准确性和时效性。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发 明可全部借助软件实现,也可以借助软件结合硬件平台的方式来实现。基于 这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以 软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如 ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是 个人计算机,服务器,智能手机或者网络设备等)执行本发明各个实施例或 者实施例的某些部分所述的方法。

本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限 定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前 提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的范围只 由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合 理的意思进行理解。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号