公开/公告号CN113836128A
专利类型发明专利
公开/公告日2021-12-24
原文格式PDF
申请/专利权人 北京拾味岛信息科技有限公司;
申请/专利号CN202111123578.2
发明设计人 马俊波;
申请日2021-09-24
分类号G06F16/215(20190101);G06K9/62(20060101);G06N3/02(20060101);
代理机构51308 成都鱼爪智云知识产权代理有限公司;
代理人张丽
地址 100071 北京市丰台区马家堡西路15号5层1—603
入库时间 2023-06-19 13:49:36
技术领域
本发明涉及数据识别技术领域,具体而言,涉及一种异常数据识别方法。
背景技术
结构化数据和非结构化数据是大数据的两种类型,这两者之间并不存在真正的冲突。客户如何选择不是基于数据结构,而是基于使用它们的应用程序,关系数据库用于结构化数据,大多数其他类型的应用程序用于非结构化数据。
在进行异常数据识别时,异常数据的类型可能是结构化数据也可能是非结构化数据,现有技术中未进行数据的区分,而是将两种结构的数据均放到同一分类模型中进行区分,这可能会出现识别效率慢、识别不准确等状况。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种异常数据识别方法、系统、设备及存储介质,用于提高异常数据的识别效率。
本发明的实施例是这样实现的:
第一方面,本发明实施例提供一种异常数据识别方法,包括以下步骤:S101、获取待检测的目标数据;S102、判断上述目标数据为结构化数据或非结构化数据;S103、若上述目标数据为结构化数据,则将上述目标数据输入到预先构建的树模型中,由上述树模型输出识别结果判定上述目标数据为正常数据或异常数据;S104、若上述目标数据为非结构化数据,则将上述目标数据输入到预先构建的神经网络模型中,由上述神经网络模型输出识别结果判定上述目标数据为正常时数据或异常数据。
基于第一方面,在本发明一些实施例中,上述判断上述目标数据为结构化数据或非结构化数据包括:构建分类器模型,将上述目标数据输入分类器模型中,由上述分类器模型输出分类结果。
基于第一方面,在本发明一些实施例中,上述树模型的构建包括:S201、获取原始训练样本;S202、对上述原始训练样本进行处理得到目标训练集; S203、基于上述目标训练集进行模型训练得到树模型。
基于第一方面,在本发明一些实施例中,上述对上述原始训练样本进行处理得到目标训练集包括:基于随机孤立森林算法计算上述原始训练样本的异常分值;将上述异常分值与预设的阈值进行对比,根据对比结果对上述原始训练样本进行分类,分类得到正样本和负样本;对上述正样本和上述负样本进行随机组合,形成目标训练集。
基于第一方面,在本发明一些实施例中,上述基于上述目标训练集进行模型训练得到树模型包括:将上述目标训练集随机切分成K等份的训练子集,其中,K为正整数;随机抽取K-1份上述训练子集组合形成模型训练集,对初始二叉树模型进行模型训练;将剩余的上述训练子集作为交叉验证集,对训练后的上述初始树模型进行交叉验证,输出验证结果;根据上述验证结果对上述初始树模型进行迭代更新,直至上述初始树模型收敛,输出收敛后的树模型。
基于第一方面,在本发明一些实施例中,上述结构化数据包括数字、符号。
基于第一方面,在本发明一些实施例中,上述非结构化数据包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息。
第二方面,本发明实施例提供一种异常数据识别系统,包括:获取模块,用于获取待检测的目标数据;判断模块:用于判断上述目标数据为结构化数据或非结构化数据;第一执行模块:用于将上述结构化数据输入到预先构建的树模型中,根据上述树模型输出的识别结果判定上述目标数据为正常数据或异常数据;第二执行模块:用于将上述非结构化数据,输入到预先构建的神经网络模型中,根据上述神经网络模型输出的识别结果判定上述目标数据为正常时数据或异常数据。
第三方面,本发明实施例提供一种电子设备,上述电子设备包括:至少一个处理器、至少一个存储器和数据总线;其中,上述处理器与上述存储器通过上述数据总线完成相互间的通信;上述存储器存储有可被上述处理器执行的程序指令,上述处理器调用上述程序指令以执行上述一个或多个程序或方法,例如执行:S101、获取待检测的目标数据;S102、判断上述目标数据为结构化数据或非结构化数据;S103、若上述目标数据为结构化数据,则将上述目标数据输入到预先构建的树模型中,由上述树模型输出识别结果判定上述目标数据为正常数据或异常数据;S104、若上述目标数据为非结构化数据,则将上述目标数据输入到预先构建的神经网络模型中,由上述神经网络模型输出识别结果判定上述目标数据为正常时数据或异常数据。
第四方面,本申请实施例提供一种计算机可读存储介质,上述非暂态计算机可读存储介质存储计算机程序,上述计算机程序使上述计算机执行上述一个或多个程序或方法,例如执行:S101、获取待检测的目标数据;S102、判断上述目标数据为结构化数据或非结构化数据;S103、若上述目标数据为结构化数据,则将上述目标数据输入到预先构建的树模型中,由上述树模型输出识别结果判定上述目标数据为正常数据或异常数据;S104、若上述目标数据为非结构化数据,则将上述目标数据输入到预先构建的神经网络模型中,由上述神经网络模型输出识别结果判定上述目标数据为正常时数据或异常数据。
与现有技术相比,本申请实施例至少具有以下有益效果:
通过对目标数据进行判断、分类,判断目标数据属于结构化数据还是非结构化数据,依据数据类型,将待检测的目标数据送入对应的预测模型中,可提高模型的识别效率和准确率。另外,在本申请中可以根据实际情况选择对应领域的训练样本,依据样本训练树模型和神经网络模型,如此可实现多领域的应用。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请一实施例提供的一种异常数据识别方法步骤流程示意图;
图2为本申请另一实施例提供的一种异常数据识别方法步骤流程示意图;
图3为本申请实施例提供的一种异常数据识别系统的结构框图;
图4为本申请实施例提供的一种电子设备的结构框图。
图中:1-处理器;2-存储器;3-数据总线;100-获取模块;200-判断模块;300-第一执行模块;400-第二执行模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包括,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
实施例1
请参阅图1,图1为本申请实施例提供的一种异常数据识别方法,其特征在于,包括以下步骤:
S101、获取待检测的目标数据;
目标数据包括结构化数据或非结构化数据,其中结构化数据,是高度组织和整齐格式化的数据,它是可以放入表格和电子表格中的数据类型,结构化数据也被成为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号。在项目中,保存和管理这些的数据一般为关系数据库,当使用结构化查询语言或SQL时,计算机程序很容易搜索这些术语。结构化数据具有的明确的关系使得这些数据运用起来十分方便,不过在商业上的可挖掘价值方面就比较差。典型的结构化数据包括:信用卡号码、日期、财务金额、电话号码、地址、产品名称等。
非结构化数据本质上是结构化数据之外的一切数据。它不符合任何预定义的模型,因此它存储在非关系数据库中,并使用NoSQL进行查询。它可能是文本的或非文本的,也可能是人为的或机器生成的。
典型的人为生成的非结构化数据包括:文本文件:文字处理、电子表格、演示文稿、电子邮件、日志。社交媒体:来自新浪微博、微信、QQ、 Facebook,Twitter,LinkedIn等平台的数据。网站:YouTube,Instagram,照片共享网站。移动数据:短信、位置等。通讯:聊天、即时消息、电话录音、协作软件等。媒体:MP3、数码照片、音频文件、视频文件。业务应用程序:MS Office文档、生产力应用程序。
典型的机器生成的非结构化数据包括:卫星图像:天气数据、地形、军事活动。科学数据:石油和天然气勘探、空间勘探、地震图像、大气数据。数字监控:监控照片和视频。传感器数据:交通、天气、海洋传感器。
S102、判断上述目标数据为结构化数据或非结构化数据;
示例性的,通过构建分类器模型,判断获取的目标数据属于哪种类型的数据,以便于将对应的数据类型分别送入适配的模型中进行判断。
本实施例中,半结构化的数据亦归于非结构化数据一类。示例性的,在上述步骤中,关于结构化数据和非结构化数据均有着详细的分类,因此可作为训练分类器模型的原始训练样本。一般来说,在小数据量、多特征下,集成的树模型往往优于神经网络模型,随着数据量增大,神经网络的优势会逐步体现。示例性的,分类器模型可以依据目标数据的类型、所占内存大小及缺失度进行区分。
S103、若上述目标数据为结构化数据,则将上述目标数据输入到预先构建的树模型中,由上述树模型输出识别结果判定上述目标数据为正常数据或异常数据;
若上述分类器模型判断目标数据为结构化数据,则将该目标数据输入到预先构建的树模型中,由树模型给出判定结果。示例性的,基于预设阈值(范围),目标数据仅存在两种判定结果,正常数据或异常数据,示例性的,树模型可以为二叉树模型。
S104、若上述目标数据为非结构化数据,则将上述目标数据输入到预先构建的神经网络模型中,由上述神经网络模型输出识别结果判定上述目标数据为正常时数据或异常数据。
若上述分类器模型判断目标数据为非结构化数据,则将该目标数据输入到预先构建的神经网络模型中,由神经网络模型给出判定结果。示例性的,可在Spark大数据处理中使用深度学习框架,在Spark程序中使用一个预训练过的神经网络模型,将其并行应用于大型数据集的数据处理,以图片处理为例,给定一个可以识别图片的分类模型,其通过一个标准数据集(如ImageNet)训练过。可以在一个Spark程序中调用一个框架(如 TensorFlow或Keras)进行分布式预测。如此,通过在大数据处理过程中调用预训练过的神经网络模型可以直接对非结构化数据进行直接处理。
实施例2
请参阅图2,本发明一些实施例中,上述树模型的构建包括:
S201、获取原始训练样本;
从目标数据库中获取若干个原始训练样本。
S202、对上述原始训练样本进行处理得到目标训练集;
此步骤包括:基于随机孤立森林算法计算上述原始训练样本的异常分值;
通过对原始训练样本进行分值估计,化繁为简对异常度进行量化,更方便模型的训练和数据的处理。
在上述原始训练集中抽取若干个上述原始训练样本,并将上述抽取到的若干个原始训练样本导入到预设的初始二叉树模型;获取每一个上述原始训练样本的样本特征,并将获取到的上述样本特征进行组合,形成特征集合;依次在上述特征集合中的随机提取样本特征,确定提取的上述样本特征的最大值和最小值;在上述最大值和上述最小值之间随机选择一个数值作为切割点,对上述原始训练集的原始训练样本进行划分;历遍上述特征集合的样本特征,直至上述二叉树的深度满足预设深度,获取深度满足要求的上述二叉树。统计每一个上述原始训练样本在二叉树中的边数目,并根据边数目计算每一个上述原始训练样本在二叉树中的初始路径长度;计算路径修正值,通过上述路径修正值对每一个上述原始训练样本的初始路径长度进行修正,得到每一个上述原始训练样本在二叉树中的路径长度;通上述路径长度,计算每一个上述原始训练样本的异常分值。
将上述异常分值与预设的阈值进行对比,根据对比结果对上述原始训练样本进行分类,分类得到正样本和负样本,并对上述正样本和上述负样本进行随机组合,形成目标训练集。
S203、基于上述目标训练集进行模型训练得到树模型。
此步骤包括:将上述目标训练集随机切分成K等份的训练子集,其中, K为正整数;随机抽取K-1份上述训练子集组合形成模型训练集,对初始二叉树模型进行模型训练;将剩余的上述训练子集作为交叉验证集,对训练后的上述初始识别模型进行交叉验证,输出验证结果;根据上述验证结果对上述初始树模型进行迭代更新,直至上述初始树模型收敛,输出收敛后的树模型。
示例性,本实施例中采用K折交叉验证的方式,选出最优的训练模型。
另外,神经网络模型在训练过程中也可采用上述验证方式,神经网络的训练过程在现有技术中具有多种选择,在此不作赘述。
实施例3
请参阅图3,一种异常数据识别系统,包括:获取模块100,用于获取待检测的目标数据;判断模块200:用于判断上述目标数据为结构化数据或非结构化数据;第一执行模块300:用于将上述结构化数据输入到预先构建的树模型中,根据上述树模型输出的识别结果判定上述目标数据为正常数据或异常数据;第二执行模块400:用于将上述非结构化数据,输入到预先构建的神经网络模型中,根据上述神经网络模型输出的识别结果判定上述目标数据为正常时数据或异常数据。
具体实施方式见上述实施例1及实施例2,在此不作赘述。
实施例4
请参阅图4,一种电子设备,包括:至少一个处理器1、至少一个存储器2和数据总线3;其中,上述处理器1与上述存储器2通过上述数据总线 3完成相互间的通信;上述存储器2存储有可被上述处理器1执行的程序指令,上述处理器1调用上述程序指令以执行上述实施例提供的方法,例如执行:S101、获取待检测的目标数据;S102、判断上述目标数据为结构化数据或非结构化数据;S103、若上述目标数据为结构化数据,则将上述目标数据输入到预先构建的树模型中,由上述树模型输出识别结果判定上述目标数据为正常数据或异常数据;S104、若上述目标数据为非结构化数据,则将上述目标数据输入到预先构建的神经网络模型中,由上述神经网络模型输出识别结果判定上述目标数据为正常时数据或异常数据。
图4为本申请实施例提供的一种电子设备的一种示意性结构框图。电子设备包括存储器2、处理器1和数据总线3,该存储器2、处理器1和数据总线3相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器2可用于存储软件程序及模块,如本申请实施例所提供电子设备对应的程序指令/模块,处理器1通过执行存储在存储器2内的软件程序及模块,从而执行各种功能应用以及数据处理。该数据总线3可用于与其他节点设备进行信令或数据的通信。
其中,存储器2可以是但不限于,随机存取存储器 (Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory, EEPROM)等。
处理器1可以是一种集成电路芯片,具有信号处理能力。该处理器1 可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Appl ication Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图1所示的结构仅为示意,电子设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
实施例5
一种非暂态计算机可读存储介质,其特征在于,上述非暂态计算机可读存储介质存储计算机程序,上述计算机程序使计算机执行上述实施例所提供的方法,例如执行:S101、获取待检测的目标数据;S102、判断上述目标数据为结构化数据或非结构化数据;S103、若上述目标数据为结构化数据,则将上述目标数据输入到预先构建的树模型中,由上述树模型输出识别结果判定上述目标数据为正常数据或异常数据;S104、若上述目标数据为为非结构化数据,则将上述目标数据输入到预先构建的神经网络模型中,由上述神经网络模型输出识别结果判定上述目标数据为正常时数据或异常数据。
在本申请所提供的实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
上述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
机译: 一种用于检测至少一个运动物体在检测区域内的运动路径的方法,一种使用这种识别方法的手势识别系统的过程以及一种用于执行这种识别方法的设备
机译: 信息输入设备,信息输入系统,输入信息识别方法,协调输入/检测设备,启动/停止识别方法和存储介质
机译: 一种移动通信设备附件识别系统,一种用于移动通信设备的改进附件以及一种相同的识别方法