首页> 中国专利> 针对真实性验证和可信溯源的大数据处理方法及云服务器

针对真实性验证和可信溯源的大数据处理方法及云服务器

摘要

本申请公开的针对真实性验证和可信溯源的大数据处理方法及云服务器,由于是基于待分析目标数据片段相对于当前业务场景的数据来源可信度信息,以及针对业务数据传递终端而言对应于待分析业务终端的数据下发路径的路径状态解析结果来确定其对应的数据状态更新记录,根据数据状态更新记录来检测待分析目标数据片段是否中包括由待分析业务终端生成的虚假数据内容,数据来源可信度信息能表征待分析目标数据片段的数据真实性,路径状态解析结果能表征待分析目标数据片段与业务数据传递终端间的实际路径传递记录,根据待分析目标数据片段的数据真实性以及与业务数据传递终端间的实际路径传递记录所进行的虚假数据内容的检测,准确度和可信度更高。

著录项

  • 公开/公告号CN112749181A

    专利类型发明专利

  • 公开/公告日2021-05-04

    原文格式PDF

  • 申请/专利权人 丁同梅;

    申请/专利号CN202110076707.0

  • 发明设计人 丁同梅;

    申请日2021-01-20

  • 分类号G06F16/23(20190101);G06F16/2458(20190101);G06F21/62(20130101);

  • 代理机构

  • 代理人

  • 地址 650100 云南省昆明市西山区秀苑路经典商务大厦A座706室

  • 入库时间 2023-06-19 10:51:07

说明书

技术领域

本申请涉及大数据处理技术领域,特别涉及一种针对真实性验证和可信溯源的大数据处理方法及云服务器。

背景技术

现目前,随着大数据技术的快速发展,大数据技术已经被广泛应用于电子商务、区块链金融、智能工厂、智能医疗、智能交通等领域。在互联网大数据分析方面,大数据技术能够分析用户购物数据,构建用户画像,准确地掌握用户购物倾向,实现精准营销。在交通大数据分析方面,大数据技术能够对数据按时间切片分析,构建实时热点分布图,进行景区热力预警分析。在医疗健康大数据分析方面,大数据技术通过对大量电子病历的学习,医学研究机构可以更清晰地发现疾病演变规律,并作出更科学、准确的诊断。

由于大数据价值密度高,大数据往往吸引大量攻击者铤而走险。现目前的大数据场景需要应对诸多的技术挑战,首选,需要在满足可用性的前提下实现大数据机密性:以数据加密为例,大数据应用不仅对加密算法性能提出了更高的要求,而且要求密文具备适应大数据处理的能力,例如数据检索与并发计算。其次,需要实现大数据的安全共享:在大数据访问控制中,用户难以信赖服务商正确实施访问控制策略,且在大数据应用中实现用户角色与权限划分更为困难。进一步地,还需要确保大数据挖掘和分析的精准性。

然而,在确保大数据挖掘和分析的精准性的问题上,现有技术难以给出有效的改善或者解决方案。

发明内容

本申请实施例之一提供一种针对真实性验证和可信溯源的大数据处理方法,包括:

获取待分析业务终端在第一预设数据业务处理时段内的多组初始业务数据;

确定所述多组初始业务数据中的每组初始业务数据对应的关联业务数据;

根据所述关联业务数据,确定每组初始业务数据中至少一个待分析目标数据片段相对于当前业务场景的数据来源可信度信息;

根据所述关联业务数据,确定所述至少一个待分析目标数据片段针对业务数据传递终端而言对应于所述待分析业务终端的数据下发路径的路径状态解析结果,其中,所述业务数据传递终端用于获取所述多组初始业务数据;

根据所述数据来源可信度信息和所述路径状态解析结果,确定所述至少一个待分析目标数据片段的数据状态更新记录;

若检测到所述数据状态更新记录满足第一预设判定条件,则判定所述至少一个待分析目标数据片段中包括由所述待分析业务终端生成的虚假数据内容。

在一些优选的实施例中,在所述获取待分析业务终端在第一预设数据业务处理时段内的多组初始业务数据之后,所述方法还包括:

对所述多组初始业务数据中的每组初始业务数据进行数据片段拆分,提取至少一个目标数据片段,以及所述至少一个目标数据片段中每个目标数据片段的至少一个目标数据加工日志;

从所述至少一个目标数据加工日志中提取出满足第二预设判定条件的数据挖掘指标信息,以及确定所述数据挖掘指标信息所对应的至少一个待分析静态数据片段;

将所述至少一个待分析静态数据片段作为所述至少一个待分析目标数据片段;

其中,在所述确定所述多组初始业务数据中的每组初始业务数据对应的关联业务数据之后,所述方法还包括:

根据所述关联业务数据,确定所述至少一个待分析静态数据片段对应的数据来源路径的可信度信息;

从所述至少一个待分析静态数据片段对应的数据来源路径的可信度信息中确定出大于预设可信度阈值的至少一个待分析动态数据片段;

将所述至少一个待分析动态数据片段作为所述至少一个待分析目标数据片段。

在一些优选的实施例中,所述根据所述关联业务数据,确定每组初始业务数据中至少一个待分析目标数据片段相对于当前业务场景的数据来源可信度信息,包括:

对所述至少一个待分析目标数据片段对应的至少一个目标数据加工日志进行文本识别,并从所述关联业务数据中,确定出所述至少一个目标数据加工日志中实时数据加工日志的全局业务状态变化数据相对于当前业务场景的第一全局可信度信息,以及所述至少一个目标数据加工日志中数据来源路径的全局业务状态变化数据相对于当前业务场景的第二全局可信度信息;

将所述第一全局可信度信息和所述第二全局可信度信息作为所述至少一个待分析目标数据片段相对于当前业务场景的数据来源可信度信息;

其中,所述根据所述关联业务数据,确定所述至少一个待分析目标数据片段针对业务数据传递终端而言对应于所述待分析业务终端的数据下发路径的路径状态解析结果,包括:

对所述至少一个待分析目标数据片段对应的至少一个目标数据加工日志进行文本识别,并从所述关联业务数据中,确定出所述至少一个目标数据加工日志中实时数据加工日志的全局业务状态变化数据相对于所述业务数据传递终端的状态关联信息;

根据所述状态关联信息,确定所述至少一个目标数据加工日志中实时数据加工日志的全局业务状态变化数据在热门业务状态服务中的第一变化数据特征;

根据所述热门业务状态服务与冷门业务状态服务间的映射关系,确定所述第一变化数据特征在所述冷门业务状态服务中的第二变化数据特征;

根据所述第二变化数据特征,确定所述至少一个目标数据加工日志中实时数据加工日志的全局业务状态变化数据针对所述业务数据传递终端对应于所述待分析业务终端的数据下发路径的路径状态解析结果。

在一些优选的实施例中,所述根据所述数据来源可信度信息和所述路径状态解析结果,确定所述至少一个待分析目标数据片段的数据状态更新记录,包括:

根据所述数据来源可信度信息,确定所述第一全局可信度信息的第一迭代更新记录,以及所述第二全局可信度信息的第二迭代更新记录;

根据所述路径状态解析结果,确定所述至少一个待分析目标数据片段针对所述业务数据传递终端对应于所述待分析业务终端的数据下发路径的第三迭代更新记录;

根据所述第一迭代更新记录、所述第二迭代更新记录和所述第三迭代更新记录,确定所述至少一个待分析目标数据片段的数据状态更新记录。

在一些优选的实施例中,若所述至少一个待分析目标数据片段为多个,所述若检测到所述数据状态更新记录满足第一预设判定条件,则判定所述至少一个待分析目标数据片段中包括由所述待分析业务终端生成的虚假数据内容,包括:

在第二预设数据业务处理时段内,若检测到:

所述至少一个待分析目标数据片段中任意两个待分析目标数据片段中的每个待分析目标数据片段各自对应的所述第一迭代更新记录和所述第二迭代更新记录均处于更新窗口期,

所述第三迭代更新记录为所述任意两个待分析目标数据片段均存在对应于所述待分析业务终端的数据下发路径的片段内容标签,

且所述任意两个待分析目标数据片段对应于所述业务数据传递终端的数据传递路径和所述待分析业务终端的数据下发路径之间的路径相似度小于第一预设路径相似度阈值,

则判定所述任意两个待分析目标数据片段中每个待分析目标数据片段的数据状态更新记录均满足所述第一预设判定条件,所述任意两个待分析目标数据片段均存在由所述待分析业务终端通过业务交互生成的虚假数据内容。

在一些优选的实施例中,若所述至少一个待分析目标数据片段为一个,所述若检测到所述数据状态更新记录满足第一预设判定条件,则判定所述至少一个待分析目标数据片段中包括由所述待分析业务终端生成的虚假数据内容,包括:

在第三预设数据业务处理时段内,若检测到:

所述待分析目标数据片段的所述第一迭代更新记录和所述第二迭代更新记录均包括先删除再补全的更新记录,

所述第一全局可信度信息和对应的所述第二全局可信度信息相对于当前业务场景的路径解析的最小路径相似度小于第二预设路径相似度阈值,

且所述第三迭代更新记录为所述待分析目标数据片段存在对应于所述待分析业务终端的数据下发路径的片段内容标签时,

则判定所述数据状态更新记录满足所述第一预设判定条件,所述待分析目标数据片段中包括由所述待分析业务终端通过数据扩充生成的虚假数据内容。

在一些优选的实施例中,所述若检测到所述数据状态更新记录满足第一预设判定条件,则判定所述至少一个待分析目标数据片段中包括由所述待分析业务终端生成的虚假数据内容,包括:

在所述第四预设数据业务处理时段内,若检测到:

所述第一迭代更新记录和所述第二迭代更新记录均包括先补全再删除的更新记录,

所述第一全局可信度信息和对应的所述第二全局可信度信息相对于当前业务场景的路径解析的最小路径相似度小于第三预设路径相似度阈值时,

且所述第三迭代更新记录为所述待分析目标数据片段存在对应于所述待分析业务终端的数据下发路径的片段内容标签时,

则判定所述数据状态更新记录满足所述第一预设判定条件,则确定所述待分析目标数据片段中包括由所述待分析业务终端通过数据替换生成的虚假数据内容。

在一些优选的实施例中,在判定所述至少一个待分析目标数据片段中包括由所述待分析业务终端生成的虚假数据内容之后,所述方法还包括:对所述至少一个待分析目标数据片段中包括的所述虚假数据内容进行剔除。

在一些优选的实施例中,所述对所述至少一个待分析目标数据片段中包括的所述虚假数据内容进行剔除,包括:

根据所述至少一个待分析目标数据片段对应的数据片段标识获取多个样本业务数据内容;

利用所述多个样本业务数据内容对原始业务画像提取模型进行训练,直至得到满足第一训练终止条件的业务画像提取模型;将所述多个样本业务数据内容依次输入所述业务画像提取模型,得到多个业务数据画像集,其中,每个业务数据画像集中包括与所述样本业务数据内容对应的显性画像标签和潜在画像标签;

利用所述多个业务数据画像集及与每个所述样本业务数据内容对应的样本权重指标,来对原始内容关联性解析模型进行训练,直至得到满足第二训练终止条件的内容关联性解析模型,其中,所述样本权重指标用于指示所述样本业务数据内容所对应的的内容分类;

获取所述至少一个待分析目标数据片段的目标业务数据内容;将所述目标业务数据内容输入到所述业务画像提取模型中,以获取所述目标业务数据内容对应的目标显性画像标签和目标潜在画像标签,其中,所述业务画像提取模型为利用所述多个样本业务数据内容进行训练后所得到的用于进行业务数据识别的前向反馈神经网络模型;

将所述目标显性画像标签和所述目标潜在画像标签输入所述内容关联性解析模型中,以得到与所述目标业务数据内容匹配的目标业务挖掘有效性指数,其中,所述内容关联性解析模型为在所述业务画像提取模型的基础上,利用所述多个样本业务数据内容进行训练后所得到的神经网络模型,用于评估当前输入的业务数据内容需要通过所述业务画像提取模型进行业务数据识别的业务挖掘有效性指数;

在所述目标业务挖掘有效性指数大于有效性指数阈值的情况下,获取所述目标业务数据内容与参考业务数据内容之间的内容相似度;在所述内容相似度大于相似度阈值的情况下,根据所述目标业务数据内容所指示的第一数据挖掘策略与所述参考业务数据内容所指示的第二数据挖掘策略从所述至少一个待分析目标数据片段确定出所述虚假数据内容,将所述虚假数据内容进行剔除;

其中,所述获取所述目标业务数据内容与参考业务数据内容之间的内容相似度包括:

遍历预先构建的关系型数据库,依次获取每一组业务数据内容作为所述参考业务数据内容,其中,所述关系型数据库中的每一组业务数据内容需要通过所述业务画像提取模型进行业务数据识别的业务挖掘有效性指数均大于所述有效性指数阈值;

获取所述目标业务数据内容的所述目标潜在画像标签与所述参考业务数据内容的参考潜在画像标签之间的余弦距离,作为所述目标业务数据内容与所述参考业务数据内容之间的所述内容相似度;

其中,在将所述目标显性画像标签和所述目标潜在画像标签输入内容关联性解析模型中,以得到与所述目标业务数据内容匹配的目标业务挖掘有效性指数之后,还包括:在所述目标业务挖掘有效性指数小于等于所述有效性指数阈值的情况下,生成识别无效提示信息,其中,所述识别无效提示信息用于指示重新获取所述目标业务数据内容;

其中,所述利用所述多个样本业务数据内容对原始业务画像提取模型进行训练,直至得到满足第一训练终止条件的业务画像提取模型包括:

重复执行以下步骤,直至满足所述第一训练终止条件,其中,所述原始业务画像提取模型中的模型参数值为预设参数值:

将当前样本业务数据内容输入当前业务画像提取模型,其中,所述当前业务画像提取模型中包括特征提取子网络、局部画像标签识别子网络、全局画像标签识别子网络及画像挖掘子网络,所述特征提取子网络用于提取所述当前样本业务数据内容中的内容特征,所述局部画像标签识别子网络和所述全局画像标签识别子网络用于对所述内容特征进行计算处理,得到当前显性画像标签,所述画像挖掘子网络用于将所述当前显性画像标签映射为潜在业务场景中的当前潜在画像标签;

将所述当前潜在画像标签和与所述当前样本业务数据内容匹配的当前画像提取指标数据输入所述当前业务画像提取模型中的第一模型状态评估层,得到第一当前模型状态评估系数,其中,所述当前画像提取指标数据用于指示所述当前样本业务数据内容所对应的的内容分类;

在所述当前业务画像提取模型对应的迭代次数大于等于第一预设迭代次数,和/或,所述第一当前模型状态评估系数小于等于第一设定评估系数的情况下,确定满足所述第一训练终止条件,并将所述当前业务画像提取模型确定为完成训练的所述业务画像提取模型。

本申请实施例之一提供一种云服务器,包括处理引擎、网络模块和存储器;所述处理引擎和所述存储器通过所述网络模块通信,所述处理引擎从所述存储器中读取计算机程序并运行,以执行上述的方法。

在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。

本发明实施例提供了一种针对真实性验证和可信溯源的大数据处理方法及云服务器,首先,获取待分析业务终端在第一预设数据业务处理时段内的多组初始业务数据,然后,确定该多组初始业务数据中的每组初始业务数据对应的关联业务数据,然后,根据多组初始业务数据中的每组初始业务数据对应的关联业务数据,确定每组初始业务数据中至少一个待分析目标数据片段相对于当前业务场景的数据来源可信度信息,以及根据该关联业务数据,确定至少一个待分析目标数据片段针对用于获取多组初始业务数据的业务数据传递终端对应于待分析业务终端的数据下发路径的路径状态解析结果,然后,根据数据来源可信度信息和路径状态解析结果,确定该至少一个待分析目标数据片段的数据状态更新记录,若检测到该数据状态更新记录满足第一预设判定条件,则判定该至少一个待分析目标数据片段中包括由待分析业务终端生成的虚假数据内容。也就是说,在确定多组初始业务数据中每组初始业务数据对应的关联业务数据之后,根据该关联业务数据确定对应组初始业务数据中的至少一个待分析目标数据片段相对于当前业务场景的数据来源可信度信息和针对业务数据传递终端而言对应于待分析业务终端的数据下发路径的路径状态解析结果,然后,根据该数据来源可信度信息和路径状态解析结果,确定至少一个待分析目标数据片段的数据状态更新记录,一旦检测到该数据状态更新记录满足第一预设判定条件,则判定该至少一个待分析目标数据片段中包括由待分析业务终端生成的虚假数据内容。

由于是基于待分析目标数据片段相对于当前业务场景的数据来源可信度信息,以及针对业务数据传递终端而言对应于待分析业务终端的数据下发路径的路径状态解析结果来确定其对应的数据状态更新记录,进而根据数据状态更新记录来检测待分析目标数据片段是否中包括由待分析业务终端生成的虚假数据内容,其中,数据来源可信度信息能够表征待分析目标数据片段的数据真实性,路径状态解析结果能够表征待分析目标数据片段与业务数据传递终端间的实际路径传递记录,根据待分析目标数据片段的数据真实性以及与业务数据传递终端间的实际路径传递记录所进行的虚假数据内容的检测,准确度和可信度更高。

附图说明

本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:

图1是根据本发明的一些实施例所示的一种示例性针对真实性验证和可信溯源的大数据处理方法和/或过程的流程图;

图2是根据本发明的一些实施例所示的一种示例性针对真实性验证和可信溯源的大数据处理装置的框图;

图3是根据本发明的一些实施例所示的一种示例性针对真实性验证和可信溯源的大数据处理系统的框图,以及

图4是根据本发明的一些实施例所示的一种示例性云服务器中硬件和软件组成的示意图。

具体实施方式

为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。

应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。

如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。

发明人经研究和分析发现,发明人经研究和分析发现,随着数据规模的不断扩大,一定数量的虚假信息混杂在真实信息之中,往往影响数据分析结果的准确性,可能会导致大数据分析得出无意义或者错误的结果。为此,需要对虚假信息进行检测,以实现对大数据的数据清洗。

针对上述问题,发明人针对性地提出了针对真实性验证和可信溯源的大数据处理方法及云服务器。

首先,对针对真实性验证和可信溯源的大数据处理方法进行示例性的说明,请参阅图1,是根据本发明的一些实施例所示的一种示例性针对真实性验证和可信溯源的大数据处理方法和/或过程的流程图,针对真实性验证和可信溯源的大数据处理方法可以包括以下步骤S101-步骤S106所描述的技术方案。

S101:获取待分析业务终端在第一预设数据业务处理时段内的多组初始业务数据。

在具体实施过程中,可以是通过业务数据传递终端来获取待分析业务终端在第一预设数据业务处理时段内的多组初始业务数据,该业务数据传递终端可以是智能电子设备(包括但不限于各类确定机、便携式终端等),在具体应用中可以使智能电子设备和待分析业务终端之间建立动态可调的通信协议,以此来保证最大限度地减少其他数据业务处理过程对初始业务数据的影响,提高对虚假数据内容的检测准确度和检测可信度。

此外,待分析业务终端可以是针对在线电商业务的业务终端,还可以是针对大数据挖掘业务的业务终端,还可以是针对区块链支付业务的业务终端,还可以是针对数据安全防护业务的业务终端,在此不做限定。其中,第一预设数据业务处理时段为一连续时间段,比如,22点01分08秒至22点01分24秒这一时间段,当然,第一预设数据业务处理时段还可以为根据实际数据业务场景所设定的数据业务处理时段,在此不做限定。在第一预设数据业务处理时段内所获取的多组初始业务数据,可以是该第一预设数据业务处理时段对应的已激活业务中的每组业务数据。在通过智能电子设备获取多组初始业务数据时,所获取的多组初始业务数据可以是包括多组交互型初始业务数据和多组非交互型初始业务数据。

S102:确定所述多组初始业务数据中的每组初始业务数据对应的关联业务数据。

在具体实施过程中,在通过智能电子设备获取该多组初始业务数据之后,可以是依据业务数据的风险传导原理,生成对应的潜在风险业务标签和潜在安全业务标签,然后,再根据潜在风险业务标签和潜在安全业务标签结合业务数据传递终端对应的热门业务执行记录确定出关联业务数据。

S103:根据所述关联业务数据,确定每组初始业务数据中至少一个待分析目标数据片段相对于当前业务场景的数据来源可信度信息;

在具体实施过程中,在确定多组初始业务数据中的每组初始业务数据对应的关联业务数据之后,利用关联业务数据、业务数据传递终端对应的热门业务执行记录和热门业务访问记录确定得到数据加工进程中的待分析目标数据片段的具体业务状态对应的变化数据特征,根据该业务状态对应的变化数据特征能够确定待分析目标数据片段的数据来源可信度信息,数据来源可信度信息用于表征待分析目标数据片段的数据真实性。根据关联业务数据来确定至少一个待分析目标数据片段的数据来源的可信度信息的过程可以是,根据关联业务数据中的状态关联信息分割出前景和背景,结合二维业务数据中的数据片段拆分的变化数据,以及关联业务数据中的业务数据分割结果,确定二维业务数据检测出的数据来源目标在关联业务数据中的变化数据,将数据来源目标的状态关联信息映射关系到冷门业务状态服务中,从而确定出目标在冷门业务状态服务下的具体变化数据业务状态,进而获取数据来源可信度信息。

S104:根据所述关联业务数据,确定所述至少一个待分析目标数据片段针对业务数据传递终端而言对应于所述待分析业务终端的数据下发路径的路径状态解析结果,其中,所述业务数据传递终端用于获取所述多组初始业务数据。

在具体实施过程中,在确定多组初始业务数据中的每组初始业务数据对应的关联业务数据之后,利用关联业务数据、业务数据传递终端对应的热门业务执行记录和热门业务访问记录确定得到数据加工进程中的待分析目标数据片段的具体业务状态对应的变化数据特征在采用上述方法确定数据加工进程中的待分析目标数据片段的具体业务状态对应的变化数据特征,然后,根据该业务状态对应的变化数据特征,确定出每组初始业务数据中每个待分析目标数据片段针对业务数据传递终端而言对应于所述待分析业务终端的数据下发路径的路径状态解析结果。

S105:根据所述数据来源可信度信息和所述路径状态解析结果,确定所述至少一个待分析目标数据片段的数据状态更新记录。

在具体实施过程中,该数据状态更新记录可以是待分析目标数据片段相对于当前业务场景存在数据来源可信度匹配的数据下发路径的迭代更新记录,可以是待分析目标数据片段针对业务数据传递终端而言对应于待分析业务终端的数据下发路径的迭代更新记录,在此不做限定。

S106:若检测到所述数据状态更新记录满足第一预设判定条件,则判定所述至少一个待分析目标数据片段中包括由所述待分析业务终端生成的虚假数据内容。

在具体实施过程中,可以根据实际大数据除噪业务中虚假数据内容的具体情况来设定第一预设判定条件,在此不做限定。由于是基于待分析目标数据片段相对于当前业务场景的数据来源可信度信息,以及针对业务数据传递终端而言对应于待分析业务终端的数据下发路径的路径状态解析结果来确定其对应的数据状态更新记录,进而根据数据状态更新记录来检测待分析目标数据片段是否中包括由待分析业务终端生成的虚假数据内容,由于整个检测过程为根据待分析目标数据片段的数据真实性以及与业务数据传递终端间的实际路径传递记录所进行的虚假数据内容的检测,检测准确度和可信度更高。从而能够能够为后续的虚假数据内容的剔除提供准确的决策依据,进而防止大数据分析得出无意义或者错误的结果。

在具体实施过程中,步骤S103和步骤S104无执行的先后顺序,可以是先执行步骤S103然后执行步骤S104,还可以是先执行步骤S104然后执行步骤S103,还可以是同时执行步骤S103和步骤S104,在此不做限定,如图1为先执行步骤S103然后执行步骤S104的方法流程图。

此外,在具体实施过程中,根据关联业务数据、业务数据传递终端对应的热门业务执行记录和热门业务访问记录确定得到数据加工进程中的待分析目标数据片段的具体业务状态对应的变化数据特征,从而根据该业务状态对应的变化数据特征确定出待分析目标数据片段相对于当前业务场景的表征数据来源数据真实性的数据来源可信度信息,以及待分析目标数据片段针对业务数据传递终端而言对应于待分析业务终端的数据下发路径的路径状态解析结果,进而根据数据来源可信度信息的迭代更新记录和路径状态解析结果的迭代更新记录来确定待分析目标数据片段的数据状态更新记录,进而进行虚假数据内容的检测,整个检测过程中,无论采集多组初始业务数据的业务数据传递终端与待分析业务终端间的路径解析逻辑条件如何设定,仍可采用根据表征数据来源的数据真实性的数据来源可信度对应的迭代更新记录,和表征数据来源与业务数据传递终端对应于待分析业务终端的数据下发路径的路径解析结果的迭代更新记录来确定待分析目标数据片段的数据状态更新记录,进而根据数据状态更新记录进行虚假数据内容检测这一规则,在整个虚假数据内容的检测判断过程中,具有较佳的普适性。

在本发明实施例中,在步骤S101:获取待分析业务终端在第一预设数据业务处理时段内的多组初始业务数据之后,所述方法还包括:S201:对所述多组初始业务数据中的每组初始业务数据进行数据片段拆分,提取至少一个目标数据片段,以及所述至少一个目标数据片段中每个目标数据片段的至少一个目标数据加工日志;S202:从所述至少一个目标数据加工日志中提取出满足第二预设判定条件的数据挖掘指标信息,以及确定所述数据挖掘指标信息所对应的至少一个待分析静态数据片段;S203:将所述至少一个待分析静态数据片段作为所述至少一个待分析目标数据片段。

在具体实施过程中,步骤S201至步骤S203的具体实现过程如下:

首先,对多组初始业务数据中的每组初始业务数据进行数据片段拆分,提取至少一个目标数据片段,以及提取该至少一个目标数据片段中每个目标数据片段的至少一个目标数据加工日志,其中,至少一个目标数据加工日志包括目标数据加工日志的挖掘指标加工日志、实时数据加工日志和数据来源路径中的至少一个。在具体实施过程中,在通过智能电子设备获取该多组初始业务数据时,可以是对交互型初始业务数据进行数据片段拆分,还可以是对非交互型初始业务数据进行数据片段拆分,具体可以是使用机器学习模型来进行数据片段拆分,比如,可以是使用一些成熟的算法来进行数据片段拆分,实现对挖掘指标加工日志、实时数据加工日志和数据来源路径的检测和提取,将挖掘指标加工日志、实时数据加工日志对应的数据来源路径进行关联,确定同一目标数据片段对应的目标数据加工日志。

然后,从至少一个目标数据加工日志中提取出满足第二预设判定条件的数据挖掘指标信息,以及确定该数据挖掘指标信息所对应的至少一个待分析静态数据片段。其中,第二预设判定条件可以是根据实际大数据除噪业务需要所设定的判定条件,比如,第二预设判定条件为符合用户画像数据挖掘指标特征的判定条件,比如,数据挖掘指标权重大于预设阈值,相应地,判定对应的目标数据片段为兴趣画像片段,反之,在数据挖掘指标权重小于预设阈值时,判定对应的目标数据片段为非画像片段,当然,还可以根据实际大数据除噪业务需要设定其它判定条件作为第二预设判定条件,在此不做限定。

然后,将至少一个待分析静态数据片段作为至少一个待分析目标数据片段,也就是说,通过对第二预设判定条件的数据挖掘指标信息的设定,从至少一个目标数据片段中筛选出符合第二预设判定条件的数据挖掘指标信息的目标数据片段所对应的至少一个待分析目标数据片段,然后,再对所筛选出的至少一个待分析目标数据片段进行虚假数据内容的检测。比如,通过设定第二预设判定条件,实现对兴趣画像片段与非画像片段的筛选,将符合第二预设判定条件的兴趣画像片段所对应的目标数据片段作为待分析目标数据片段,进而实现对兴趣画像片段对应的待分析目标数据片段的虚假数据内容的判定,从而避免了在兴趣画像片段携带非画像片段时,对非画像片段进行虚假数据内容的判定,进一步提高了虚假数据内容检测的效率。

在本发明实施例中,在步骤S102:确定所述多组初始业务数据中的每组初始业务数据对应的关联业务数据之后,所述方法还包括:S301:根据所述关联业务数据,确定所述至少一个待分析静态数据片段对应的数据来源路径的可信度信息;S302:从所述至少一个待分析静态数据片段对应的数据来源路径的可信度信息中确定出大于预设可信度阈值的至少一个待分析动态数据片段;S303:将所述至少一个待分析动态数据片段作为所述至少一个待分析目标数据片段。

首先,根据多组初始业务数据中的每组初始业务数据对应的关联业务数据,确定至少一个待分析静态数据片段对应的数据来源路径的可信度信息,其中,数据来源路径的可信度信息能够表征对应待分析静态数据片段的数据真实性,然后,从至少一个待分析静态数据片段对应的数据来源路径的可信度信息中确定出大于预设可信度阈值的至少一个待分析动态数据片段,然后,将至少一个待分析动态数据片段作为至少一个待分析目标数据片段,也就是说,从符合第一预设判定条件的至少一个待分析静态数据片段中进一步筛选出数据来源路径的可信度信息中大于预设可信度阈值的至少一个待分析动态数据片段,将所筛选出的至少一个待分析动态数据片段作为进行虚假数据内容检测的至少一个待分析目标数据片段,从而进一步地提高了对虚假数据内容检测的效率。

此外,预设可信度阈值可以是根据实际大数据除噪业务需要所设定的数值,比如,预设可信度阈值为0.8,当目标数据片段的数据来源身高高于0.8时,则需要目标数据片段携带可信度认证签名方能传输到待分析业务终端中。在通过数据挖掘指标信息筛选目标数据片段的同时,结合数据来源路径的可信度信息进一步从中筛选出符合第二预设判定条件的至少一个待分析目标数据片段,从而实现对筛选出的至少一个待分析目标数据片段进行虚假数据内容的检测,提高了虚假数据内容的检测准确度和可信度。

在本发明实施例中,步骤S103:根据所述关联业务数据,确定每组初始业务数据中至少一个待分析目标数据片段相对于当前业务场景的数据来源可信度信息,包括:S401:对所述至少一个待分析目标数据片段对应的至少一个目标数据加工日志进行文本识别,并从所述关联业务数据中,确定出所述至少一个目标数据加工日志中实时数据加工日志的全局业务状态变化数据相对于当前业务场景的第一全局可信度信息,以及所述至少一个目标数据加工日志中数据来源路径的全局业务状态变化数据相对于当前业务场景的第二全局可信度信息;S402:将所述第一全局可信度信息和所述第二全局可信度信息作为所述至少一个待分析目标数据片段相对于当前业务场景的数据来源可信度信息。

在具体实施过程中,步骤S401至步骤S402的具体实现过程如下:

首先,对至少一个待分析目标数据片段对应的至少一个目标数据加工日志进行文本识别,具体的文本识别过程为在一个已激活业务的后续组中找到当前组中定义的目标数据加工日志的过程,比如,连续组已激活业务的先前组业务数据中出现了一组对应于待分析业务终端的数据块,后续就需要在当前组业务数据中继续找到该数据块的变化数据,通常来讲,同一数据块在前后两组业务数据中的数据大小和数据格式变化数据不会发生较大的变化,先前组业务数据中在该数据块的业务逻辑路径上存在一定数量的业务数据集,提取该业务数据集中数据块的特征信息,通过预设的数据识别模型识别出当前组业务数据中存在异常的数据块所在的变化数据,通过对存在异常的数据块的文本识别,能够确定出存在异常的数据块的迭代更新记录。

然后,从关联业务数据中,确定出至少一个目标数据加工日志中实时数据加工日志的全局业务状态变化数据相对于当前业务场景的第一全局可信度信息,以及至少一个目标数据加工日志中数据来源路径的全局业务状态变化数据相对于当前业务场景的第二全局可信度信息,然后,将第一全局可信度信息和第二全局可信度信息作为至少一个待分析目标数据片段相对于当前业务场景的数据来源可信度信息,从而实现了对每个待分析目标数据片段的数据来源可信度的确定。在后续处理中,通过对实时数据加工日志和对应的数据来源路径进行文本识别,能够确定实时数据加工日志的全局业务状态变化数据相对于当前业务场景的第一全局可信度信息的迭代更新记录,以及数据来源路径的全局业务状态变化数据相对于当前业务场景的第二全局可信度信息的迭代更新记录,进而实现了对待分析目标数据片段的数据真实性的迭代更新记录的线性评估。

在本发明实施例中,步骤S104:根据所述关联业务数据,确定所述至少一个待分析目标数据片段针对业务数据传递终端而言对应于所述待分析业务终端的数据下发路径的路径状态解析结果,包括:S501:对所述至少一个待分析目标数据片段对应的至少一个目标数据加工日志进行文本识别,并从所述关联业务数据中,确定出所述至少一个目标数据加工日志中实时数据加工日志的全局业务状态变化数据相对于所述业务数据传递终端的状态关联信息;S502:根据所述状态关联信息,确定所述至少一个目标数据加工日志中实时数据加工日志的全局业务状态变化数据在热门业务状态服务中的第一变化数据特征;S503:根据所述热门业务状态服务与冷门业务状态服务间的映射关系,确定所述第一变化数据特征在所述冷门业务状态服务中的第二变化数据特征;S504:根据所述第二变化数据特征,确定所述至少一个目标数据加工日志中实时数据加工日志的全局业务状态变化数据针对所述业务数据传递终端对应于所述待分析业务终端的数据下发路径的路径状态解析结果。

在具体实施过程,步骤S501至步骤S504的具体实现过程如下:

首先,对至少一个待分析目标数据片段对应的至少一个目标数据加工日志进行文本识别,并从关联业务数据中,确定出至少一个目标数据加工日志中实时数据加工日志的全局业务状态变化数据相对于业务数据传递终端的状态关联信息。举个具体的例子来说,当业务数据传递终端为业务数据传递终端d1时,待分析目标数据片段的实时数据加工日志jour与业务数据传递终端d1和待分析业务终端d2之间存在业务对应关系。具体来讲,将业务数据传递终端d1的业务进程作为热门业务状态服务c1的初始化进程,在热门业务状态服务c1中,局部业务服务对应于业务数据传递终端d1的延时数据下发路径,全局业务服务对应于业务数据传递终端d1的实时数据下发路径,反馈业务服务对应于业务数据传递终端d1的数据上传路径。将业务数据传递终端d1的业务进程在当前业务场景所在场景全局业务队列中的映射进程作为冷门业务状态服务c2的初始化进程。比如,待分析目标数据片段的实时数据加工日志的全局业务状态变化数据对应于冷门业务状态服务c2的动态场景全局业务队列内,且在热门业务状态服务c1的动态场景全局业务队列内,实时数据加工日志的全局业务状态变化数据相对于业务数据传递终端d1的业务进程的状态关联信息为m1,该状态关联信息往往对应在关联业务数据中。

然后,根据所述状态关联信息,确定所述至少一个目标数据加工日志中实时数据加工日志jour的全局业务状态变化数据在热门业务状态服务c1中的第一变化数据特征,根据实时数据加工日志的全局业务状态变化数据相对于业务数据传递终端d1的业务进程的状态关联信息m1,确定出实时数据加工日志jour的全局业务状态变化数据在热门业务状态服务c1中的变化数据业务状态为(state1,...,statei),其中,(state1,...,statei)为实时数据加工日志jour的全局业务状态变化数据在热门业务状态服务c1中的第一变化数据特征。

然后,根据所述热门业务状态服务与冷门业务状态服务间的映射关系,确定所述第一变化数据特征在所述冷门业务状态服务中的第二变化数据特征,在确定实时数据加工日志jour的全局业务状态变化数据在热门业务状态服务c1中的第一变化数据特征为(state1,...,statei)之后,通过热门业务状态服务c1到冷门业务状态服务c2的映射关系,得到冷门业务状态服务c2下实时数据加工日志jour的全局业务状态变化数据业务状态为(STATE1,...,STATEi),(STATE1,...,STATEi)为(state1,...,statei)在冷门业务状态服务c2中的第二变化数据特征。

然后,根据所述第二变化数据特征,确定所述至少一个目标数据加工日志中实时数据加工日志的全局业务状态变化数据针对所述业务数据传递终端对应于所述待分析业务终端的数据下发路径的路径状态解析结果。在确定出实时数据加工日志jour的全局业务状态变化数据在冷门业务状态服务c2中的第二变化数据特征为(STATE1,...,STATEi)之后,STATEi为数据来源的实时数据加工日志jour的全局变化数据的可信度信息,STATE1为数据来源的实时数据加工日志jour的全局变化数据在存在异常数据下发路径的业务数据传递终端d1中的路径解析特征信息。

在本发明实施例中,步骤S105:根据所述数据来源可信度信息和所述路径状态解析结果,确定所述至少一个待分析目标数据片段的数据状态更新记录,包括:S601:根据所述数据来源可信度信息,确定所述第一全局可信度信息的第一迭代更新记录,以及所述第二全局可信度信息的第二迭代更新记录;S602:根据所述路径状态解析结果,确定所述至少一个待分析目标数据片段针对所述业务数据传递终端对应于所述待分析业务终端的数据下发路径的第三迭代更新记录;S603:根据所述第一迭代更新记录、所述第二迭代更新记录和所述第三迭代更新记录,确定所述至少一个待分析目标数据片段的数据状态更新记录。

在具体实施过程中,步骤S601至步骤S603的具体实现过程如下:

首先,根据数据来源可信度信息,确定第一全局可信度信息的第一迭代更新记录,以及第二全局可信度信息的第二迭代更新记录,也就是说,根据每组初始业务数据中每个待分析目标数据片段的可信度信息,能够确定出连续组已激活业务中待分析目标数据片段的实时数据加工日志的全局业务状态变化数据的可信度信息的迭代更新记录,以及数据来源路径的全局业务状态变化数据的可信度信息的迭代更新记录。此外,还可以根据每个待分析目标数据片段的实时数据加工日志的全局业务状态变化数据针对业务数据传递终端而言对应于待分析业务终端的路径状态解析结果,从而确定至少一个待分析目标数据片段针对业务数据传递终端而言对应于待分析业务终端的数据下发路径的第三迭代更新记录。由于实时数据加工日志往往不易被篡改,从而提高了对实时数据加工日志的全局业务状态变化数据的可信度信息的获取的准确度,以及提高了对实时数据加工日志的全局业务状态变化数据针对业务数据传递终端而言对应于待分析业务终端的数据下发路径的路径状态解析结果的获取的准确度和可信度,从而提高了根据第一迭代更新记录、第二迭代更新记录和第三迭代更新记录,对至少一个待分析目标数据片段的数据状态更新记录的获取的准确度和可信度。

在具体实施过程中,由于关联业务数据中往往携带有业务数据传递终端与目标数据加工日志间的路径状态解析结果,通过热门业务状态服务与冷门业务状态服务间的映射关系,能够确定出目标数据加工日志与待分析业务终端间的实际路径传递记录,该实际路径传递记录在连续组已激活业务中的迭代更新记录,能够用于检测多个待分析目标数据片段间的数据状态情况,进一步提高对虚假数据内容的检测准确度和可信度。

在本发明实施例中,步骤S106的具体检测可以有以下三种实现方式,也就是说,可以采用如下三种实现方式来进行虚假数据内容的检测,但又不仅限于以下三种实现方式,在此不做限定。

第一种实现方式

若所述至少一个待分析目标数据片段为多个,步骤S106:若检测到所述数据状态更新记录满足第一预设判定条件,则判定所述至少一个待分析目标数据片段中包括由所述待分析业务终端生成的虚假数据内容,对应的第一种实现方式包括:在第二预设数据业务处理时段内,若检测到所述至少一个待分析目标数据片段中任意两个待分析目标数据片段中的每个待分析目标数据片段各自对应的所述第一迭代更新记录和所述第二迭代更新记录均处于更新窗口期,所述第三迭代更新记录为所述任意两个待分析目标数据片段均存在对应于所述待分析业务终端的数据下发路径的片段内容标签,且所述任意两个待分析目标数据片段对应于所述业务数据传递终端的数据传递路径和所述待分析业务终端的数据下发路径之间的路径相似度小于第一预设路径相似度阈值,则判定所述任意两个待分析目标数据片段中每个待分析目标数据片段的数据状态更新记录均满足所述第一预设判定条件,所述任意两个待分析目标数据片段均存在由所述待分析业务终端通过业务交互生成的虚假数据内容。

在具体实施过程中,在第二预设数据业务处理时段内,若检测到至少一个待分析目标数据片段中任意两个待分析目标数据片段中的每个待分析目标数据片段各自对应的第一迭代更新记录和第二迭代更新记录均处于更新窗口期,比如,在待分析业务终端对应的检测数据加工日志时,待分析目标数据片段A和待分析目标数据片段B的实时数据加工日志的全局业务状态变化数据的第一迭代更新记录为全局业务状态变化数据基本不变,待分析目标数据片段A和待分析目标数据片段B的数据来源路径的全局业务状态变化数据的第二迭代更新记录为全局业务状态变化数据基本不变。此外,第三迭代更新记录为任意两个待分析目标数据片段均存在对应于待分析业务终端的数据下发路径的片段内容标签,比如,待分析目标数据片段A和待分析目标数据片段B均存在对应于待分析业务终端的数据下发路径的片段内容标签。在该任意两个待分析目标数据片段针对业务数据传递终端而言待分析业务终端的数据下发路径之间的路径相似度小于第一预设路径相似度阈值,则判定该任意两个待分析目标数据片段中每个待分析目标数据片段的数据状态更新记录均满足第一预设判定条件,则该任意两个待分析目标数据片段均存在由该待分析业务终端的虚假数据内容。也就是说,在检测数据加工日志中确定出任意两个待分析目标数据片段在第二预设数据业务处理时段内,两者之间的路径解析相似度小于第一预设路径相似度阈值,且两者均一起对应于待分析业务终端的数据下发路径的片段内容标签,则判定这两个待分析目标数据片段间存在由待分析业务终端通过业务交互生成的虚假数据内容。

第二种实现方式

若所述至少一个待分析目标数据片段为一个,步骤S106:若检测到所述数据状态更新记录满足第一预设判定条件,则判定所述至少一个待分析目标数据片段中包括由所述待分析业务终端生成的虚假数据内容,对应的第二种实现方式包括:在第三预设数据业务处理时段内,若检测到所述待分析目标数据片段的所述第一迭代更新记录和所述第二迭代更新记录均包括先删除再补全的更新记录,所述第一全局可信度信息和对应的所述第二全局可信度信息相对于当前业务场景的路径解析的最小路径相似度小于第二预设路径相似度阈值,且所述第三迭代更新记录为所述待分析目标数据片段存在对应于所述待分析业务终端的数据下发路径的片段内容标签时,则判定所述数据状态更新记录满足所述第一预设判定条件,所述待分析目标数据片段中包括由所述待分析业务终端通过数据扩充生成的虚假数据内容。

在具体实施过程中,在第三预设数据业务处理时段内,若检测到待分析目标数据片段的第一迭代更新记录和第二迭代更新记录均包括先删除再补全的更新记录,比如,在检测数据加工日志时,检测到待分析目标数据片段C的实时数据加工日志的全局业务状态变化数据包括先删除再补全的更新记录,以及检测到的待分析目标数据片段C的数据来源路径的全局业务状态变化数据包括先删除再补全的更新记录。此外,第一全局可信度信息和对应的第二全局可信度信息相对于当前业务场景的路径解析的最小路径相似度小于第二预设路径相似度阈值,比如,待分析目标数据片段C的实时数据加工日志的全局业务状态变化数据和其数据来源路径的全局业务状态变化数据相对于当前业务场景的路径解析的最小路径相似度小于第二预设路径相似度阈值。此外,第三迭代更新记录为该待分析目标数据片段存在对应于待分析业务终端的数据下发路径的片段内容标签时,判定该待分析目标数据片段的数据状态更新记录满足第一预设判定条件,该待分析目标数据片段中包括由待分析业务终端通过数据扩充生成的虚假数据内容。

第三种实现方式

步骤S106:若检测到所述数据状态更新记录满足第一预设判定条件,则判定所述至少一个待分析目标数据片段中包括由所述待分析业务终端生成的虚假数据内容,对应的第三种实现方式包括:在所述第四预设数据业务处理时段内,若检测到所述第一迭代更新记录和所述第二迭代更新记录均包括先补全再删除的更新记录,所述第一全局可信度信息和对应的所述第二全局可信度信息相对于当前业务场景的路径解析的最小路径相似度小于第三预设路径相似度阈值时,且所述第三迭代更新记录为所述待分析目标数据片段存在对应于所述待分析业务终端的数据下发路径的片段内容标签时,则判定所述数据状态更新记录满足所述第一预设判定条件,则确定所述待分析目标数据片段中包括由所述待分析业务终端通过数据替换生成的虚假数据内容。

在具体实施过程中,在第四预设数据业务处理时段内,若检测到待分析目标数据片段的第一迭代更新记录和第二迭代更新记录均包括先补全再删除的更新记录,比如,在检测数据加工日志时,检测到待分析目标数据片段D的实时数据加工日志的全局业务状态变化数据包括先补全再删除的更新记录,以及检测到的待分析目标数据片段D的数据来源路径的全局业务状态变化数据包括先补全再删除的更新记录。此外,第一全局可信度信息和对应的第二全局可信度信息相对于当前业务场景的路径解析的最小路径相似度小于第三预设路径相似度阈值,比如,待分析目标数据片段D的实时数据加工日志的全局业务状态变化数据和其数据来源路径的全局业务状态变化数据相对于当前业务场景的路径解析的最小路径相似度小于第三预设路径相似度阈值。此外,第三迭代更新记录为该待分析目标数据片段存在对应于待分析业务终端的数据下发路径的片段内容标签时,判定该待分析目标数据片段的数据状态更新记录满足第一预设判定条件,该待分析目标数据片段中包括由待分析业务终端通过数据替换生成的虚假数据内容。

在上述内容的基础上,为了确保后续大数据挖掘和分析的精准性,还需要将虚假数据内容进行提出,从而减少待挖掘数据内容的噪声比例,为实现这一目的,在上述步骤S101-步骤S106的基础上,在判定所述至少一个待分析目标数据片段中包括由所述待分析业务终端生成的虚假数据内容之后,所述方法还包括步骤100:对所述至少一个待分析目标数据片段中包括的所述虚假数据内容进行剔除。

为了避免在剔除虚假数据内容时对真实数据内容的误删除,步骤100进一步可以通过以下步骤110-步骤160实现。

步骤110,根据所述至少一个待分析目标数据片段对应的数据片段标识获取多个样本业务数据内容。比如,样本业务数据内容可以从预先搜集好的样本业务数据集合中获取。

步骤120,利用所述多个样本业务数据内容对原始业务画像提取模型进行训练,直至得到满足第一训练终止条件的业务画像提取模型;将所述多个样本业务数据内容依次输入所述业务画像提取模型,得到多个业务数据画像集,其中,每个业务数据画像集中包括与所述样本业务数据内容对应的显性画像标签和潜在画像标签。

步骤130,利用所述多个业务数据画像集及与每个所述样本业务数据内容对应的样本权重指标,来对原始内容关联性解析模型进行训练,直至得到满足第二训练终止条件的内容关联性解析模型,其中,所述样本权重指标用于指示所述样本业务数据内容所对应的的内容分类。

比如,在步骤120和步骤130中,业务画像提取模型以及内容关联性解析模型可以是机器学习模型。对于步骤120中的业务画像提取模型而言,其训练过程可以如下。

重复执行以下步骤,直至满足所述第一训练终止条件,其中,所述原始业务画像提取模型中的模型参数值为预设参数值:将当前样本业务数据内容输入当前业务画像提取模型,其中,所述当前业务画像提取模型中包括特征提取子网络、局部画像标签识别子网络、全局画像标签识别子网络及画像挖掘子网络,所述特征提取子网络用于提取所述当前样本业务数据内容中的内容特征,所述局部画像标签识别子网络和所述全局画像标签识别子网络用于对所述内容特征进行计算处理,得到当前显性画像标签,所述画像挖掘子网络用于将所述当前显性画像标签映射为潜在业务场景中的当前潜在画像标签;将所述当前潜在画像标签和与所述当前样本业务数据内容匹配的当前画像提取指标数据输入所述当前业务画像提取模型中的第一模型状态评估层,得到第一当前模型状态评估系数,其中,所述当前画像提取指标数据用于指示所述当前样本业务数据内容所对应的的内容分类;在所述当前业务画像提取模型对应的迭代次数大于等于第一预设迭代次数,和/或,所述第一当前模型状态评估系数小于等于第一设定评估系数的情况下,确定满足所述第一训练终止条件,并将所述当前业务画像提取模型确定为完成训练的所述业务画像提取模型。

在一个可替换的实施例中,在步骤130中,获取与每个所述样本业务数据内容对应的样本权重指标包括以下之一:根据与每个所述样本业务数据内容匹配的业务挖掘需求对所述多个样本业务数据内容进行k均值聚类,得到M个内容分类的样本业务数据内容集;对每个内容分类的样本业务数据内容集中包含的样本业务数据内容进行业务数据特征的提取,得到与所述内容分类对应的类别业务数据特征;对所述类别业务数据特征进行权重指标计算,得到与所述内容分类对应的所述样本权重指标,并将所述样本权重指标作为所述内容分类下所述样本业务数据内容集中每个样本业务数据内容对应的所述样本权重指标;或者,将每个所述样本业务数据内容和与每个所述样本业务数据内容匹配的业务挖掘需求依次输入所述业务画像提取模型,以通过所述业务画像提取模型中的权重指标识别层确定出与每个所述样本业务数据内容对应的样本权重指标。

在一个可替换的实施例中,对于步骤130中的内容关联性解析模型而言,其训练过程可以如下:重复执行以下步骤,直至满足所述第二训练终止条件,其中,所述原始内容关联性解析模型中的模型参数值为预设参数值:确定当前样本业务数据内容对应的当前业务数据画像集,及与所述当前样本业务数据内容对应的当前样本权重指标;将所述当前业务数据画像集及所述当前样本权重指标,输入当前内容关联性解析模型,得到与所述当前样本业务数据内容对应的当前业务挖掘有效性指数,其中,所述当前业务挖掘有效性指数为用于评估所述当前样本业务数据内容需要通过所述业务画像提取模型进行业务数据识别的业务挖掘有效性指数;将所述当前业务数据画像集、所述当前样本权重指标、所述当前业务挖掘有效性指数及当前配置的潜在业务场景标签输入所述当前内容关联性解析模型中的第二模型状态评估层,得到第二当前模型状态评估系数;在所述当前内容关联性解析模型对应的迭代次数大于等于第二预设迭代次数,和/或,所述第二当前模型状态评估系数小于等于第二设定评估系数的情况下,确定满足所述第二训练终止条件,并将所述当前内容关联性解析模型确定为完成训练的所述内容关联性解析模型。

步骤140,获取所述至少一个待分析目标数据片段的目标业务数据内容;将所述目标业务数据内容输入到所述业务画像提取模型中,以获取所述目标业务数据内容对应的目标显性画像标签和目标潜在画像标签。比如,所述业务画像提取模型为利用所述多个样本业务数据内容进行训练后所得到的用于进行业务数据识别的前向反馈神经网络模型。

步骤150,将所述目标显性画像标签和所述目标潜在画像标签输入所述内容关联性解析模型中,以得到与所述目标业务数据内容匹配的目标业务挖掘有效性指数,其中,所述内容关联性解析模型为在所述业务画像提取模型的基础上,利用所述多个样本业务数据内容进行训练后所得到的神经网络模型,用于评估当前输入的业务数据内容需要通过所述业务画像提取模型进行业务数据识别的业务挖掘有效性指数。比如,业务挖掘有效性指数用于表征业务数据对应的业务挖掘可行性以及挖掘价值,业务挖掘有效性指数越高,表明对应的业务数据越具有挖掘潜质。在该步骤之后,还包括:在所述目标业务挖掘有效性指数小于等于所述有效性指数阈值的情况下,生成识别无效提示信息,其中,所述识别无效提示信息用于指示重新获取所述目标业务数据内容。

步骤160,在所述目标业务挖掘有效性指数大于有效性指数阈值的情况下,获取所述目标业务数据内容与参考业务数据内容之间的内容相似度;在所述内容相似度大于相似度阈值的情况下,根据所述目标业务数据内容所指示的第一数据挖掘策略与所述参考业务数据内容所指示的第二数据挖掘策略从所述至少一个待分析目标数据片段确定出所述虚假数据内容,将所述虚假数据内容进行剔除。

在一些可能的实施例中,所述获取所述目标业务数据内容与参考业务数据内容之间的内容相似度包括:遍历预先构建的关系型数据库,依次获取每一组业务数据内容作为所述参考业务数据内容,其中,所述关系型数据库中的每一组业务数据内容需要通过所述业务画像提取模型进行业务数据识别的业务挖掘有效性指数均大于所述有效性指数阈值;获取所述目标业务数据内容的所述目标潜在画像标签与所述参考业务数据内容的参考潜在画像标签之间的余弦距离,作为所述目标业务数据内容与所述参考业务数据内容之间的所述内容相似度。

在本方案中,数据挖掘策略可以包括针对不同业务数据的挖掘逻辑信息(包括但不限于挖掘方向、挖掘类型、特征整合方式等)。可以理解,通过将不同的数据挖掘策略考虑在内,能够有效区分待分析目标数据片段中的虚假数据内容和真实数据内容,从而避免在剔除虚假数据内容时对真实数据内容的误删除,进而确保真实数据内容的完整性。

其次,针对上述针对真实性验证和可信溯源的大数据处理方法,本发明实施例还提出了一种示例性的针对真实性验证和可信溯源的大数据处理装置,如图2所示,针对真实性验证和可信溯源的大数据处理装置200可以包括以下的功能模块。

数据获取模块210,用于获取待分析业务终端在第一预设数据业务处理时段内的多组初始业务数据。

数据确定模块220,用于确定所述多组初始业务数据中的每组初始业务数据对应的关联业务数据。

信息确定模块230,用于根据所述关联业务数据,确定每组初始业务数据中至少一个待分析目标数据片段相对于当前业务场景的数据来源可信度信息。

结果确定模块240,用于根据所述关联业务数据,确定所述至少一个待分析目标数据片段针对业务数据传递终端而言对应于所述待分析业务终端的数据下发路径的路径状态解析结果,其中,所述业务数据传递终端用于获取所述多组初始业务数据。

记录确定模块250,用于根据所述数据来源可信度信息和所述路径状态解析结果,确定所述至少一个待分析目标数据片段的数据状态更新记录。

数据检测模块260,用于若检测到所述数据状态更新记录满足第一预设判定条件,则判定所述至少一个待分析目标数据片段中包括由所述待分析业务终端生成的虚假数据内容。

关于上述装置实施例的内容可以参阅对图1所示的方法的描述,在此不作更多说明。

然后,基于上述的方法实施例和装置实施例,本发明实施例还提出了一种系统实施例,也即针对真实性验证和可信溯源的大数据处理系统,请结合参阅图3,针对真实性验证和可信溯源的大数据处理系统30可以包括互相之间通信的云服务器10、待分析业务终端21以及业务数据传递终端22,进一步地,针对真实性验证和可信溯源的大数据处理系统30的功能性描述如下。

一种针对真实性验证和可信溯源的大数据处理系统,包括互相之间通信的云服务器、待分析业务终端以及业务数据传递终端,其中,所述云服务器用于:获取待分析业务终端在第一预设数据业务处理时段内的多组初始业务数据;确定所述多组初始业务数据中的每组初始业务数据对应的关联业务数据;根据所述关联业务数据,确定每组初始业务数据中至少一个待分析目标数据片段相对于当前业务场景的数据来源可信度信息;根据所述关联业务数据,确定所述至少一个待分析目标数据片段针对业务数据传递终端而言对应于所述待分析业务终端的数据下发路径的路径状态解析结果,其中,所述业务数据传递终端用于获取所述多组初始业务数据;根据所述数据来源可信度信息和所述路径状态解析结果,确定所述至少一个待分析目标数据片段的数据状态更新记录;若检测到所述数据状态更新记录满足第一预设判定条件,则判定所述至少一个待分析目标数据片段中包括由所述待分析业务终端生成的虚假数据内容。

进一步地,请结合参阅图4,云服务器10可以包括处理引擎110、网络模块120和存储器130,处理引擎110和存储器130通过网络模块120通信。

处理引擎110可以处理相关的信息和/或数据以执行本申请中描述的一个或多个功能。例如,在一些实施例中,处理引擎110可以包括至少一个处理引擎(例如,单核处理引擎或多核处理器)。仅作为示例,处理引擎110可以包括中央处理单元(Central ProcessingUnit,CPU)、专用集成电路(Application-Specific Integrated Circuit,ASIC)、专用指令集处理器(Application-Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、精简指令集计算机(Reduced Instruction-Set Computer,RISC)、微处理器等或其任意组合。

网络模块120可以促进信息和/或数据的交换。在一些实施例中,网络模块120可以是任何类型的有线或无线网络或其组合。仅作为示例,网络模块120可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网络(Wireless Local Area Network,WLAN)、城域网(Metropolitan Area Network,MAN)、公用电话交换网(Public Telephone SwitchedNetwork,PSTN)、蓝牙网络、无线个域网络、近场通讯(Near Field Communication,NFC)网络等或上述举例的任意组合。在一些实施例中,网络模块120可以包括至少一个网络接入点。例如,网络模块120可以包括有线或无线网路接入点,如基站和/或网路接入点。

存储器130可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器130用于存储程序,所述处理引擎110在接收到执行指令后,执行所述程序。

可以理解,图4所示的结构仅为示意,云服务器10还可包括比图2中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。

需要理解的是,针对上述内容,本领域技术人员可以根据上述所公开的内容进行前后推导毫无疑义地确定相关技术术语所指代的含义,例如针对一些值、系数、权重、指数、因子等术语,本领域技术人员可以根据前后的逻辑关系进行推导和确定,这些数值的取值范围可以根据实际情况进行选取,例如0~1,又例如1~10,再例如50~100,在此均不作限定。

本领域技术人员可以根据上述已公开的内容毫无疑义对一些预设的、基准的、预定的、设定的以及目标的技术特征/技术术语进行确定,例如阈值、阈值区间、阈值范围等。对于一些未作解释的技术特征术语,本领域技术人员完全能够基于前后文的逻辑关系进行合理地、毫无疑义地推导,从而清楚、完整地实施上述技术方案。未作解释的技术特征术语的前缀,例如“第一”、“第二”、“上一个”、“下一个”、“前一个”、“后一个”、“当前”、“历史”、“最新”、“最佳”、“目标”、“指定”和“实时”等,可以根据前后文进行毫无疑义地推导和确定。未作解释的技术特征术语的后缀,例如“列表”、“特征”、“序列”、“集合”、“矩阵”、“单元”、“元素”、“轨迹”和“清单”等,也可以根据前后文进行毫无疑义地推导和确定。

本发明实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解,本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本申请所记载的内容进行的,因此上述内容并不是对整体方案的创造性的评判。

应当理解,上述所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。

需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。

此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。

同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有适应性的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。

最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号