首页> 中国专利> 一种用于标识打通的方法、装置、设备以及存储介质

一种用于标识打通的方法、装置、设备以及存储介质

摘要

本公开提供了一种用于标识打通的方法、装置、设备以及存储介质,涉及计算机技术领域,尤其涉及大数据领域。具体实现方案为:该方法在获取到的待打通标识未指定标识类型的情况下,仅根据待打通标识生成键(而不是根据待打通标识和标识类型生成键),并根据待打通标识生成的键查询用于标识打通的数据库,获得与待打通标识匹配的记录,其中,数据库中预先存储有待打通标识生成的键和相应键对应的待打通标识。如此,在没有指定标识类型的情况下,也可以仅将根据待打通标识来进行标识打通,而且不会因为未指定标识类型遗漏标识打通结果,从而使标识打通的结果更准确,适用的场景更广泛。

著录项

  • 公开/公告号CN114780611A

    专利类型发明专利

  • 公开/公告日2022-07-22

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN202210401012.X

  • 发明设计人 金博夫;

    申请日2022-04-14

  • 分类号G06F16/2458;G06F16/22;G06F21/60;G06F21/62;G06K9/62;

  • 代理机构北京乐知新创知识产权代理事务所(普通合伙);

  • 代理人张永喆

  • 地址 100089 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-06-19 16:04:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-22

    公开

    发明专利申请公布

说明书

技术领域

本公开涉及计算机技术领域,尤其涉及大数据技术领域。

背景技术

标识打通(ID-Mapping)是大数据分析中的基本环节,主要指把多份不同来源的数据,通过各种技术手段识别为同一个对象或主题的关联数据的过程。标识打通能把碎片化的数据全部串联起来,消除数据孤岛,提供一个对象或主题的完整信息视图,同时让某一个领域的数据在另一个领域绽放出巨大的价值。

通常,在标识打通过程中,除了要求输入标识之外,还需要输入标识类型,例如,国际移动设备识别码(International Mobile Equipment Identity,IMEI)、MAC地址和AndroidID等,但这些信息并不一定为人所熟知,而不输入标识类型,或输入了错误的标识类型,就很可能会遗漏部分的标识打通结果。

发明内容

本公开提供了一种用于标识打通的方法、装置、设备以及存储介质。

根据本公开的一方面,提供了一种用于标识打通的方法,包括:获取待打通标识,待打通标识不包括标识类型;对待打通标识进行键生成处理,得到与待打通标识对应的键;根据键,查询用于标识打通的数据库,获得与键和待打通标识匹配的记录,其中,数据库中预先存储有根据待打通标识生成的键和相应键对应的待打通标识。

根据本公开的另一方面,提供了一种用于标识打通的装置,包括:标识获取模块,用于获取待打通标识,待打通标识不包括标识类型;健生成处理模块,用于对待打通标识进行键生成处理,得到与待打通标识对应的键;数据查询模块,用于根据键,查询用于标识打通的数据库,获得与键和待打通标识匹配的记录,其中,数据库中预先存储有根据待打通标识生成的键和相应键对应的待打通标识。

根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述任一项用于标识打通的方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述任一项用于标识打通的方法。

根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述任一项用于标识打通的方法。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是一种标识打通的基本流程示意图;

图2是本公开第一实施例实现用于标识打通的方法的流程示意图;

图3是本公开第二实施例实现用于标识打通的方法的部分流程示意图;

图4是本公开第三实施例实现用于标识打通的方法的部分流程示意图;

图5是本公开第四实施例实现用于标识打通的方法的灌库流程示意图;

图6是本公开第四实施例实现用于标识打通的方法的查询流程示意图;

图7是本公开第五实施例对用于标识打通的数据库的表结构优化示意图;

图8是本公开实施例的用于标识打通的装置的结构示意图;

图9是用来实现本公开实施例的用于标识打通的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

图1示出了一种标识打通的基本流程,如图1所示,标识打通可以分为两个部分,第一部分为数据库左侧所示的灌库部分;第二部分为数据库右侧所示的查询部分。

其中,灌库部分主要用于收集来自多个数据来源的标识及与标识关联的数据。通常,灌库过程是一个持续更新和输入的过程,如图1所示,主要包括:持续接收从各个数据来源(例如,不同应用中或不同设备上)收集到的待打通标识及与标识关联的数据;对从各个数据来源收集到的待打通标识及与标识关联的数据,进行一系列数据处理,得到符合设计标准和规范的标识键值对(key,value)数据;将得到的键值对存储至用于标识打通的数据库(ID-Mapping database)中。

待打通标识指各个数据来源中所使用的不同类型的标识,其中,可能包含有同一个对象(或实体)在不同数据来源中所使用的不同标识。例如,在不同应用中,同一对象对应的不同标识;或在不同设备上,同一对象进行登录后产生的不同标识等。

在初次灌库之后,就可以利用上述存储在用于标识打通的数据库中的键值对,进行大数据分析和标识打通处理等数据挖掘。

例如,通过与标识关联的数据,发现和建立待打通标识之间的关联关系,确定与同一对象对应的各个标识,并将与同一对象对应的各个标识统一映射到该对象的全局唯一标识。如此,可通过该对象的全局唯一标识打通各个数据来源中的标识,获取该对象在不同数据来源中的数据,实现信息的整合。

而图1所示的查询部分主要用于:1)在标识打通过程中,通过数据待打通标识,获取到待打通标识的关联数据,并据此进行数据分析和挖掘,确定各个待打通标识之间的关联关系;2)在标识打通之后,通过任一数据来源中所提供的待打通标识,查询到该标识以及与该标识关联的其它标识在该数据库中的全部关联数据。

为了便于区分或明确标识类型,在上述灌库和查询过程中所使用的待打通标识,目前的方案中基本上都是使用包括标识类型的标识,例如,对于标识类型为“IME”的标识“10000000001”来说,使用“IME_10000000001”作为标识。其中,常用的标识类型,包括国际移动设备识别码(International Mobile Equipment Identity,IMEI)、MAC地址和AndroidID等。

但相对于标识本身,标识类型往往不为人所熟知。在进行查询时,可能因为无法提供标识的标识类型而导致数据遗漏或缺失。

为此,本公开创造性地提供了一种打通标识的方法,应用该方法即使不提供标识的标识类型,也可以查询到与该标识关联的期望数据。

图2就示出了本公开一实施例实现上述用于打通标识的方法的主要流程。参见图2,该方法包括:

操作S210,获取待打通标识,待打通标识不包括标识类型;

在本公开实施例中,获取的待打通标识不包括标识类型。例如,对于标识类型为“IME”的标识“10000000001”来说,仅需获取标识“10000000001”即可,而无需获取标识类型“IME”。

操作S220,对待打通标识进行键生成处理,得到与待打通标识对应的键;

由于不同类型的标识在字符长度和所使用的字符集上都可能存在差异,如果使用标识本身作为键值对数据中的键,会造成存储空间的浪费,并会使查询效率变低。此外,使用标识本身作为键值对数据中的键还存在泄露用户信息的风险。

因此,在本公开实施例中,并没有使用标识本身作为键值对数据中的键,而是对各种标识类型的待打通标识进行统一的键生成处理,生成长度相同的键,以进一步提高存储空间利用率和查询效率。

操作S230,根据键,查询用于标识打通的数据库,获得与键和待打通标识匹配的记录,其中,数据库中预先存储有根据待打通标识生成的键和相应键对应的待打通标识。

由于键是对待打通标识进行健生成处理后得到的,而这一过程存在不同的待打通标识会生成相同的键的机率,这就导致一个键可能对应多个待打通标识。因此,在本公开实施例中,根据键查询用于标识打通的数据库的过程中还会进一步比较待打通标识,从而准确地获取与待打通标识匹配的记录。

此处所查询的数据库是经过灌库过程,预先存储有键值对数据的用于标识打通的数据库。

其中,用于标识打通的数据库中的键可以是与操作S220中生成的键相同的键;也可以是其它健生成方法所生成的键。

但如果是其它健生成方法所生成的键,则需要在键值对数据中的值中包含根据操作220相同的健生成方法和待打通标识生成的键。这种实施方式常见于在现有的数据库中,增补根据待打通标识生成的键的情况,如此,可使现有的数据库中既能兼容已有的查询模式(指定标识类型),又可支持本公开所提供的用于标识打通的方法中的查询模式(不指定标识类型)。

用于标识打通的数据库中键值对数据中的值,还需包括生成键所使用的待打通标识。如此,当存在与同一个键对应的多个待打通标识所对应的多条记录时,可根据待打通标识确定与指定的待打通标识匹配的记录。

由于本公开实施例在查询过程中,仅需获取待打通标识,而无需获取待打通标识的标识类型,即使发起查询的用户或程序不知晓待打通标识所对应的标识类型,也可以进行查询到与待打通标识匹配的记录(如果存在的话)。

如此,可避免因无法提供标识类型而造成无法获取准确的查询结果,导致遗漏标识打通结果的情况,进而使标识打通的结果更准确,适用的场景更广泛。

图3示出了本公开另一实施例,为了实现图2的查询过程所进行的灌库过程。如图3,该过程主要包括:

操作S310,获取待打通标识;

其中,所获取的待打通标识是从各个数据来源收集到的,有待加工并存储至用于标识打通的数据库中的待打通标识。

操作S320,对待打通标识进行键生成处理,得到与待打通标识对应的键;

此处,所进行的键生成处理与操作S220所进行的键生成处理相同,故在此不再赘述。

操作S330,将键和待打通标识存储至数据库。

其中,待打通标识会作为键值对中值的一部分存储至用于标识打通的数据库中,以便在一个键对应多个待打通标识对应的多条记录时,可以通过待打通标识确定与指定的待打通标识匹配的记录。

如果实施者也想保留标识类型以便后续处理时使用,可将标识类型作为键值对中值的一部分存储至用于标识打通的数据库中。

在图3所示的实施例中,在灌库过程中所使用的键值对的键就是基于不包括标识类型的待打通标识生成的。因此,在查询时,可使用同样根据不包括标识类型的待打通标识生成的键进行快速查询,无需获取标识的标识类型且查询效率更高。

图4示出了本公开另一实施例实现用于标识打通的方法的主要流程。

在本公开实施例所应用在的某些场景中,在灌库过程中收集到的待打通标识是经过加密的标识,但在查询时,由于用户或程序所提供的待打通标识是未加密的待打通标识,而导致遗漏与之匹配的记录;或者与之相反,在灌库过程中收集到的待打通标识是未经过加密的数据,但在查询时,由于用户或程序所提供的待打通标识是加密后的待打通标识,而导致遗漏与之匹配的记录。

为此,本公开实施例除了采用图3所示的过程灌入其中一份数据之外,还通过图4所示的过程灌入另一份数据,包括:

操作S410,对待打通标识进行加密,得到加密后的待打通标识;

其中,对待打通标识进行加密后所得到的加密后的待打通标识,需与用户或程序所提供的加密后的待打通标识所使用的加密方法一致,从而可根据用户或程序所提供的加密后的待打通标识查询到与之匹配的记录。

为此,在本公开实施例中,用于标识打通的数据库的灌库端与查询端会使用事先约定好所使用的加密算法,以确保灌库时所使用的加密后的待打通标识,与用户或程序所提供的加密后的待打通标识所使用的加密方法一致。

操作S420,对加密后的待打通标识进行键生成处理,得到与加密后的待打通标识对应的加密键;

操作S430,将加密键和加密后的待打通标识存储至数据库。

在图4所示的本公开实施例中,针对同一待打通标识的数据,灌入两份键值对数据:一份是根据未加密的待打通标识所生成的键,所灌入的键值对数据;另一份则是对待打通标识进行加密后得到加密后的待打通标识,再根据加密后的待打通标识所生成的键,所灌入的键值对数据。如此,在查询过程中,无论提供的是加密后的待打通标识,还是未加密后的待打通标识,均可查询到与之匹配的记录。

图5和图6示出了本公开另一实施例实现用于标识打通的方法的主要流程。

其中,图5示出了本公开实施例实现的灌库过程。如图5所示,在本公开实施例实现的灌库过程中,会通过两个处理节点(第一处理节点501和第二处理节点502),对从各个数据源收集到的待打通标识集与标识关联的数据(标识对ID-pair数据),进行数据处理,得到符合特定设计标准和规则的标识键值对(非关系型数据库simpleDB格式的数据)。

第一处理节点501用于将输入的标识对数据(ID-pair数据)转化为序列化结构数据(例如,protobuf格式的数据),并存放至临时路径(temp path)上。

其中,标识对数据为一种以待打通标识和与相应待打通标识关联的数据成对出现的数据结构,例如,(“Notype_ID_1”,“Information_1”)。

序列化结构数据指将结构化数据进行序列化后得到的数据,其优势在于所占存储空间较小且数据解析速度快。protobuf格式是protocol buffers的一种数据格式,protocol buffers类似于XML是一种语言无关、平台无关、可扩展的数据描述语言,可用于通信协议、数据存储等。因此,将输入的标识对数据(ID-pair数据)转化为protobuf格式的序列化结构数据,可便于传输和存储且适用范围更广。

第一处理节点501还用于对输入的标识对数据(ID-pair数据)中不包括标识类型的待打通标识,进行键生成处理,得到键(key)。具体地,在本公开实施例中,第一处理节点501会从输入的标识对数据中获取不包括标识类型的待打通标识(如果标识对中包括标识类型,则去除标识类型),例如,“Notype_ID_1”;然后对不包括标识类型的待打通标识进行哈希、移位等操作生成key,并且额外增加了对待打通标识进行加密后再生成key的数据。

如此,无论用户或程序所提供的待打通标识是否指定了标识类型,或者所提供的待打通标识是否加密,都不会遗漏与之配匹的记录。

具体地,本公开实施例在进行键生成处理时,使用了拉链哈希法。拉链哈希法将所有哈希地址为i的元素构成一个同义词链的单链表,并将单链表的头指针存在哈希表的第i个单元中,查找/插入/删除操作都在同义词链中进行。因此,使用拉链哈希法生成键,不仅可减少不同待打通标识生成相同键的机率,还可使持续灌库过程中经常进行的插入和更新操作更为快捷。

由于同一个待打通标识的值,也会因为其大小写而导致加密结果的不同,所以本公开实施例在对待打通标识进行加密时,对明文标识统一做了转大写、转小写的操作再加密;同时,当待打通标识的字符串的长度较长时(例如,超过64位的)还会采用前一半转大写,后一半转小写后再加密的加密策略。

此外,为了应对查询时所使用的各种加密方法,在本公开实施例中,还将多种主流加密方法都纳入进来对标识进行加密灌库,例如md5加密,sha256加密等,生成多份不同加密算法加密得到的数据,具体步骤主要包括:使用至少一种加密算法,对待打通标识进行加密,得到至少一种加密后的待打通标识;对至少一种加密后的待打通标识进行键生成处理,得到与加密后的待打通标识对应的至少一个加密键;将至少一个加密键中的每一加密键和加密后的待打通标识存储至数据库,得到与每一加密键对应的至少一条记录。

第二处理节点502用于将序列化结构数据(protobuf格式的数据),转化为非关系型数据(例如,simpleDB格式的数据),存放到正式路径(official path)上。

其中,非关系型数据主要指数据之间无关系的一种数据,通常存储在非关系型数据库中,由于无关系性且数据结构简单,读写性能优先且容易扩展,特别适用于对大数据的读写和处理。

图6示出了本公开实施例实现的查询过程,以普通用户查询与待打通标识关联的数据为例,主要包括:

操作S610,接收用户输入的标识,该标识为不带标识类型的待打通标识;

操作S620,生成对应的键(key),并根据键查询数据库(simpleDB);

操作S630,判断是否存在于键对应的记录,若是,则继续操作S640,若否,则继续操作650;

其中,在非关系型数据库,例如,simpleDB中存储的是一个键值对记录,包括键和值。

操作S640,在记录中的值里寻找和输入的标识(id)值相同的记录;

如果查询到与键比对成功的记录,则可在这些记录里面遍历搜索,直到搜寻到和输入标识相同的记录。

操作S650,提示未找到匹配的值;

如果没有找到用户输入的标识,则给出“NotFound”的结果。

操作S660,输出查询结果。

按照既定好的格式,返回输出结果给用户。

在本公开实施例中,用户仅需输入明文的不包括标识类型的原始标识值(待打通标识),不用关心标识真实类型和是否加密的情况,即可在simpleDB里面查询与标识关联的数据,不用担心会因为未提供标识类型或未对标识加密而查询不到原本存在的记录。

在海量数据时代,不同类型的标识值难免会发生冲突,可能是用户填错,或者系统上报错误得改,例如,发生baiduid标识类型和IMEI标识类型的待打通标识的值是一样的,实际上只有其中一个类型是正确的。

由于本公开实施例在查询时输入的是不带标识类型的标识,则有可能会查询到标识相同但标识类型不同的多个记录。虽然,这种机率非常小,但在本公开的另一个实施例中,仍然针对这一问题对图6所示的查询过程进行了进一步优化,以应对查询到标识相同但标识类型不同的多个记录的情况。

具体包括在操作S640中,添加以下判断逻辑并根据判断结果执行相应的操作:

若与键和待打通标识匹配的记录包括属于不同标识类型的至少两条记录,则使用记录碰撞选举模型从至少两条记录中确定一条记录,记录碰撞选举模型为用于根据标识特征确定标识类型的机器学习模型。

通常,不同标识类型的待打通标识在标识格式上存在差异明显,例如,idfa标识类型的待打通标识是以“-”进行分隔的;baiduid标识类型的待打通标识是32位16进制的字符串等;不同标识类型的待打通标识的长度也不尽相同,有10/15/32/64位等等。因此,可以通过记录碰撞选举模型提取标识的上述特征,例如,标识模式(pattern)和标识长度等,对碰撞选举模型进行训练,以根据标识特征确定标识类型,从而移除标识类型错误的记录,在训练模型时,可以使用以下至少一种算法训练得到的模型作为记录碰撞选举模型:支持向量机算法;随机森林算法;Adaboost算法。

具体到地,本公开实施中,在特征提取阶段,使用了多维特征向量,包括:字符串长度、是否含有“:”以及含有“:”的个数、是否含有“|”以及含有“|”的个数、是否含有“-”以及含有“-”的个数、是否为纯数字、是否大写,是否小写、是否一半大写一半小写、本类型对应的标识长度共有几种等。使用真实的标识类型作为分类标签,然后把数据处理成模型可以分析的格式,并进一步把数据集拆分成训练集和数据集,按照8:2的比例(该比例还可进行调节),其中,训练集用于模型训练,测试集用于模型评估。

在训练过程中,本公开实施例使用了多种方法进行训练,然后对各自模型的输出结果进行融合,作为最终预测的结果。其中,一个方法是支持向量机算法,可以提高泛化性能,解决非线性问题和高维问题;第二个方法是随机森林算法,可以处理高维数据,不用做特征选择,训练速度快;第三个方法是Adaboost算法,adaboost是一种高精度分类器,计算结果可理解,不用担心过拟合问题。

如此,本公开实施例可较好得应对在使用不包括标识类型的待打通标识进行查询的场景下,发生不同类型标识冲突和碰撞的情况。

图7示出了本公开的另一个实施例,该实施例对用于标识打通的数据库的表结构进行了优化,即将常用的两个表结构(表a和表b)合并为一个表结构(表c)。

通常在用于标识打通的数据库中,会存储有两个表:一个是表a,即包含【xid-udwid】映射关系的反向表;另一个是表b,即包含【udwid-xid】映射关系的正向表。其中,xid为本公开实施例中的待打通标识,而udwid为多个xid共同对应的同一个对象的全局唯一标识。

在查询时,可根据表a中【xid-udwid】的映射关系,查询到对应的udwid,然后通过udwid去查询表b,根据【udwid-xid】的映射关系查询到与udwid关联的所有xid。

在图7所示的本公开实施例中,将表a和表b合并为包含【xid-udwid-xidlist】映射关系的表c。

如此,在查询时,只需根据表c中【xid-udwid-xidlist】的映射关系即可获取与指定xid关联的全部xid(即,xidlist)。

如此,在查询时,从双表查询升级为的单表查询,可大幅节省查询时间。

为此,在图7所示的本公开实施例在灌库过程中,还增加了以下操作来补充【xid-udwid-xidlist】的映射关系:确定数据库中对应同一对象的至少一个待打通标识(例如,xid);确定同一对象的全局唯一标识(例如,udwid);根据同一对象对应的至少一个待打通标识,确定全局唯一标识对应的标识列表;将全局唯一标识和与全局唯一标识对应的标识列表,存储至标识列表中每一个标识对应的记录。

在本公开的另一些实施例中,为了兼容现有需要指定标识类型的标识打通方法,还提供了“无类型加密参数”。如果用户经常使用本系统,清楚了解标识类型,可以把无类型加密参数置为false,选择使用已有的标识打通功能;也可以把无类型加密参数置为true,使用本公开所提供的无需指定标识类型或加密的用于打通标识的方法。如此,可通过本公开所提供的无需指定标识类型或加密的用于打通标识的方法作为已有方法的一种补充,进一步提高填错或不填标识类型、加密或不加密标识情况下的打通率。

本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。

根据本公开的实施例,本公开还提供了一种用于标识打通的装置,如图8所示,该装置80包括:标识获取模块801,用于获取待打通标识,所述待打通标识不包括标识类型;健生成处理模块802,用于对所述待打通标识进行键生成处理,得到与所述待打通标识对应的键;数据查询模块803,用于根据所述键,查询用于标识打通的数据库,获得与所述键和所述待打通标识匹配的记录,其中,所述数据库中预先存储有根据待打通标识生成的键和与相应键对应的待打通标识。

根据本公开一实施例,健生成处理模块802具体用于使用拉链哈希算法,对所述待打通标识进行键生成处理。

根据本公开一实施例,该装置80还包括:标识数据获取模块,用于获取待打通标识;标识数据存储模块,将所述键和所述待打通标识存储至所述数据库。

根据本公开一实施例,该装置80还包括:同一对象确定模块,用于确定所述数据库中对应同一对象的至少一个待打通标识;全局唯一标识确定模块,用于确定所述同一对象的全局唯一标识;标识列表确定模块,用于根据所述同一对象对应的至少一个待打通标识,确定所述全局唯一标识对应的标识列表;关联关系存储模块,用于将所述全局唯一标识和与所述全局唯一标识对应的标识列表,存储至所述标识列表中每一个标识对应的记录。

根据本公开一实施例,该装置80还包括:待打通标识加密模块,用于对所述待打通标识进行加密,得到加密后的待打通标识;相应地,健生成处理模块802,还用于对所述加密后的待打通标识进行键生成处理,得到与所述加密后的待打通标识对应的加密键;标识数据存储模块,还用于将所述加密键和所述加密后的待打通标识存储至所述数据库。

根据本公开一实施例,待打通标识加密模块具体用于使用至少一种加密算法,对所述待打通标识进行加密,得到至少一种加密后的待打通标识;相应地,健生成处理模块802具体用于对所述至少一种加密后的待打通标识进行键生成处理,得到与所述加密后的待打通标识对应的至少一个加密键;相应地,标识数据存储模块具体用于将所述至少一个加密键中的每一加密键和所述加密后的待打通标识存储至所述数据库,得到与所述每一加密键对应的至少一条记录。

根据本公开一实施例,该装置80还包括:结构化序列数据生成模块,用于根据待打通标识生成一种结构化序列数据;相应地,标识数据存储模块具体用于将所述键和所述结构化序列数据存储至所述数据库。

根据本公开一实施例,该装置80还包括:若所述与所述键和所述待打通标识匹配的记录包括属于不同标识类型的至少两条记录,则使用记录碰撞选举模型从所述至少两条记录中确定一条记录,所述记录碰撞选举模型为用于根据标识特征确定标识类型的机器学习模型。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如本公开用于标识打通的方法。例如,在一些实施例中,本公开用于标识打通的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的本公开用于标识打通的方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开用于标识打通的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号