首页> 中国专利> 基于人工智能的恶意数据分析方法、装置和电子装置

基于人工智能的恶意数据分析方法、装置和电子装置

摘要

本申请涉及一种基于人工智能的恶意数据分析方法、装置和电子装置,其中,该方法包括:获取用户输入的样本数据以及数据分析需求,并确定样本数据的数据类型;根据样本数据的数据类型确定目标动静态分析策略,并根据目标动静态分析策略对样本数据进行动静态分析处理,得到样本数据对应的数据特征信息;根据样本数据的数据类型、数据特征信息和数据分析需求,确定目标机器学习规则,并根据数据特征信息和目标机器学习规则,构建基于机器学习的数据分类模型;获取用户输入的待检测数据,并根据数据分类模型对待检测数据进行恶意分析处理,得到待检测数据对应的恶意分析结果。通过本申请,解决了相关技术中无法有效对恶意数据进行分析与检测的问题。

著录项

  • 公开/公告号CN112199671A

    专利类型发明专利

  • 公开/公告日2021-01-08

    原文格式PDF

  • 申请/专利权人 杭州安恒信息技术股份有限公司;

    申请/专利号CN202011078844.X

  • 发明设计人 唐佳莉;范渊;吴卓群;

    申请日2020-10-10

  • 分类号G06F21/55(20130101);G06F21/56(20130101);G06N20/00(20190101);

  • 代理机构33250 杭州华进联浙知识产权代理有限公司;

  • 代理人金无量

  • 地址 310051 浙江省杭州市滨江区西兴街道联慧街188号

  • 入库时间 2023-06-19 09:30:39

说明书

技术领域

本申请涉及计算机技术领域,特别是涉及基于一种基于人工智能的恶意数据分析方法、装置和电子装置。

背景技术

随着5G时代的来临以及互联网技术的发展,大数据处理技术的应用范围越来越广泛,随之产生的恶意数据也越来越多,若不及时对这些恶意数据进行检测与分析,会给企业带来巨大的经济损失。

在相关技术中,采用固定的特征方式和检测算法对恶意数据进行检测,然而,这种方法无法适应恶意数据的数量和类型急剧增长的现状,对于恶意数据的分析能力、识别分类效率和准确度都存在缺陷。

目前针对相关技术中,无法有效对恶意数据进行分析与检测的问题,尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种人工智能的恶意数据分析方法、装置、系统、电子装置和存储介质,以至少解决相关技术中无法有效对恶意数据进行分析与检测的问题。

第一方面,本申请实施例提供了一种基于人工智能的恶意数据分析方法,包括:

获取用户输入的样本数据以及数据分析需求,并确定所述样本数据的数据类型;

根据所述样本数据的数据类型,确定目标动静态分析策略,并根据所述目标动静态分析策略对所述样本数据进行动静态分析处理,得到所述样本数据对应的数据特征信息;

根据所述样本数据的数据类型、所述数据特征信息和所述数据分析需求,确定目标机器学习规则,并根据所述数据特征信息和所述目标机器学习规则,构建基于机器学习的数据分类模型;

获取所述用户输入的待检测数据,并根据所述数据分类模型对所述待检测数据进行恶意分析处理,得到所述待检测数据对应的恶意分析结果。

在其中一些实施例中,所述根据所述样本数据的数据类型,确定目标动静态分析策略,并根据所述目标动静态分析策略对所述样本数据进行动静态分析处理,得到所述样本数据对应的数据特征信息包括:

根据所述样本数据的数据类型,从预设动静态分析策略集中确定出目标静态分析策略和目标动态分析策略;所述预设动静态分析策略集包括多种静态分析策略以及多种动态分析策略;

根据所述目标静态分析策略和所述目标动态分析策略,对所述样本数据进行动静态分析处理,得到所述样本数据对应的数据特征信息;所述数据特征信息包括多种数据特征以及每一数据特征对应的特征信息。

在其中一些实施例中,所述静态分析策略包括反病毒软件扫描策略、文件格式识别策略、字符串提取分析策略、二进制结构分析策略、反汇编策略、反编译策略、代码结构策略与逻辑分析策略、加壳识别策略和代码脱壳策略;

动态分析策略包括快照比对策略、系统动态行为监控策略、网络协议栈监控策略、沙箱策略和动态调试策略。

在其中一些实施例中,所述根据所述样本数据的数据类型、所述数据特征信息和所述数据分析需求,确定目标机器学习规则,并根据所述数据特征信息和所述目标机器学习规则,构建基于机器学习的数据分类模型包括:

根据所述样本数据的数据类型和所述数据特征信息,得到目标特征信息;目标特征信息包括多种目标数据特征以及每一目标数据特征对应的特征信息;

根据所述目标特征信息和所述数据分析需求,从预设目标机器学习规则集中确定出目标机器学习规则;所述预设目标机器学习规则集包括多种机器学习规则;

根据所述目标特征信息和所述目标机器学习规则,构建基于机器学习的数据分类模型。

在其中一些实施例中,所述目标特征信息还包括标准恶意类型;所述根据所述目标特征信息和所述目标机器学习规则,构建基于机器学习的数据分类模型包括:

以数据的特征信息为输入参量,以数据的恶意类型为输出参量,构建基于机器学习的初始数据分类模型;

将所述目标特征信息输入至所述初始数据分类模型中,得到预测恶意类型;

将所述预测恶意类型与所述标准恶意类型进行比较,得到比较结果;

根据比较结果和所述目标机器学习规则,调整初始数据分类模型的模型参数,以对所述初始数据分类模型进行训练,得到训练好的数据分类模型。

在其中一些实施例中,在所述根据所述目标特征信息和所述目标机器学习规则,构建基于机器学习的数据分类模型之后,所述方法还包括:

根据所述数据分类模型的特点,从预设模型优化策略中确定出目标模型优化策略;所述预设模型优化策略包括多种模型优化策略;

根据所述目标模型优化策略,调整所述数据分类模型的模型参数,以对所述数据分类模型进行优化处理,得到优化处理后的数据分类模型。

在其中一些实施例中,在所述根据所述目标动静态分析策略对所述样本数据进行分析处理之前,所述方法还包括:

根据所述样本数据的数据类型,从预设数据清洗策略集中确定出目标数据清洗策略,并根据所述目标数据清洗策略对所述样本数据进行清洗处理;所述预设数据清洗策略集包括多种数据清洗策略。

第二方面,本申请实施例提供了一种基于人工智能的恶意数据分析装置,包括:

数据获取模块,用于获取用户提供的样本数据以及数据分析需求,并确定所述样本数据的数据类型;

动静态分析模块,用于根据所述样本数据的数据类型,确定目标动静态分析策略,并根据所述目标动静态分析策略对所述样本数据进行动静态分析处理,得到所述样本数据对应的数据特征信息;

模型构建模块,用于根据所述样本数据的数据类型、所述数据特征信息和所述数据分析需求,确定目标机器学习规则,并根据所述数据特征信息和所述目标机器学习规则,构建基于机器学习的数据分类模型;

恶意分析模块,用于获取所述用户输入的待检测数据,并根据所述数据分类模型对所述待检测数据进行恶意分析处理,得到所述待检测数据对应的恶意分析结果。

第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于人工智能的恶意数据分析方法。

第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的基于人工智能的恶意数据分析方法。

相比于相关技术,本申请实施例提供的基于人工智能的恶意数据分析方法、装置和电子装置,通过获取用户输入的样本数据以及数据分析需求,并确定样本数据的数据类型;根据样本数据的数据类型,确定目标动静态分析策略,并根据目标动静态分析策略对样本数据进行动静态分析处理,得到样本数据对应的数据特征信息;根据样本数据的数据类型、数据特征信息和数据分析需求,确定目标机器学习规则,并根据数据特征信息和目标机器学习规则,构建基于机器学习的数据分类模型;获取用户输入的待检测数据,并根据数据分类模型对待检测数据进行恶意分析处理,得到待检测数据对应的恶意分析结果,解决了相关技术中,无法有效对恶意数据进行分析与检测的问题。

本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例的基于人工智能的恶意数据分析方法的流程图;

图2为本申请实施例中对样本数据进行动静态分析处理的流程图;

图3为本申请实施例中确定目标机器学习规则以及构建基于机器学习的数据分类模型的流程图;

图4为本申请实施例中根据目标特征信息和目标机器学习规则,构建基于机器学习的数据分类模型的流程图;

图5为本申请实施例中对数据分类模型进行优化处理的流程图;

图6为本申请具体实施例的基于人工智能的恶意数据分析方法的流程图;

图7为本申请实施例的基于人工智能的恶意数据分析方法的终端的硬件结构框图;

图8为本申请实施例的基于人工智能的恶意数据分析系统的结构框图;

图9为本申请实施例的基于人工智能的恶意数据分析装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。

除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。

本申请所描述的各种技术,可以但不仅限于应用于各种数据检测与分析设备、平台以及系统。

图1为本申请实施例的基于人工智能的恶意数据分析方法的流程图,如图1所示,该流程包括如下步骤:

步骤S110,获取用户输入的样本数据以及数据分析需求,并确定样本数据的数据类型。

需要说明的是,样本数据的数量为多组;每一组样本数据上携带有恶意类型标签,用于标识该样本数据是否为恶意数据以及该样本数据对应的恶意类型。

步骤S120,根据样本数据的数据类型,确定目标动静态分析策略,并根据目标动静态分析策略对样本数据进行动静态分析处理,得到样本数据对应的数据特征信息。

步骤S130,根据样本数据的数据类型、数据特征信息和数据分析需求,确定目标机器学习规则,并根据数据特征信息和目标机器学习规则,构建基于机器学习的数据分类模型。

步骤S140,获取用户输入的待检测数据,并根据数据分类模型对待检测数据进行恶意分析处理,得到待检测数据对应的恶意分析结果。

需要说明的是,用户输入的数据包括已知恶意类型的样本数据和大量的待检测数据。首先,根据样本数据的数据类型自动化选择合适的动静态分析策略,并根据选择合适的动静态分析策略对样本数据进行多维度分析,以从样本数据中提取与恶意数据行为相关的数据特征信息。其次,根据样本数据的数据类型、提取出的数据特征信息以及用户输入的数据分析需求,自动化选择合适的机器学习规则,并根据数据特征信息和自动化选择的机器学习规则,构建具有检测功能的数据分类模型。最后,根据构建的数据分类模型可以实现对大量的待检测数据进行恶意分类,即判断待检测数据是否为恶意数据,以及确定出待检测数据对应的恶意类型。恶意分析结果包括非恶意数据以及多种恶意类型对应的数据。

通过上述步骤S110至步骤S140,通过根据样本数据的数据类型和数据分析需求自动化选择合适的动静态分析策略,以及自动化选择合适的机器学习规则,并根据自动化选择的动静态分析策略对样本数据进行多维度的分析处理,以从样本数据中提取与恶意数据行为相关的数据特征信息,从而根据数据特征信息和自动化选择合适的机器学习规则构建数据分类模型,从而可以采用形成的数据分类模型对用户输入的待检测数据进行恶意分析,得到待检测数据对应的恶意分析结果。本申请,通过针对不同类型的恶意数据自动化形成具有检测功能的数据分类模型,适应了恶意数据的数量和类型急剧增长的现状,避免了现有技术中恶意数据的分析能力、识别分类效率和准确度低的问题,提高了恶意数据分析检测能力和精度,解决了相关技术中,无法有效对恶意数据进行分析与检测的问题。

在其中一些实施例中,在步骤S120之前,该基于人工智能的恶意数据分析方法还包括:根据样本数据的数据类型,从预设数据清洗策略集中确定出目标数据清洗策略,并根据目标数据清洗策略对样本数据进行清洗处理;预设数据清洗策略集包括多种数据清洗策略。

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

上述实施例,通过根据样本数据的数据类型,自动化选择合适的数据清洗策略,并根据自动化选择的数据清洗策略对样本数据进行清洗处理,从而可以及时发现并纠正样本数据中可识别的错误,以保证样本数据的一致性,从而可以提高后续动静态分析的准确度,进一步提高了恶意数据的检测精度。

在其中一些实施例中,数据清洗策略包括但不限于数据预处理策略、缺省值处理策略、异常数据处理策略和冗余处理策略。

在其中一些实施例中,图2为本申请实施例中对样本数据进行动静态分析处理的流程图,如图2所示,该流程包括如下步骤:

步骤S210,根据样本数据的数据类型,从预设动静态分析策略集中确定出目标静态分析策略和目标动态分析策略;预设动静态分析策略集包括多种静态分析策略以及多种动态分析策略。

步骤S220,根据目标静态分析策略和目标动态分析策略,对样本数据进行动静态分析处理,得到样本数据对应的数据特征信息;数据特征信息包括多种数据特征以及每一数据特征对应的特征信息。

需要说明的是,采用动静态分析策略可以对恶意数据行为进行多维度分析,以从样本数据中提取出与恶意数据行为相关的数据特征以及数据特征对应的恶意类型标签。

通过上述步骤S210至步骤S220,根据样本数据的数据类型,从预设动静态分析策略集中确定出目标静态分析策略和目标动态分析策略;根据目标静态分析策略和目标动态分析策略,对样本数据进行动静态分析处理,得到样本数据对应的数据特征信息。本实施例通过针对不同的数据类型的样本数据,采用不同的静态分析策略和动态分析策略,并根据选择的静态分析策略和动态分析策略对样本数据进行多维度的恶意数据行为分析,从而可以得到更加准确的数据特征信息,进一步提高了恶意数据的检测精度。

在其中一些实施例中,静态分析策略包括反病毒软件扫描策略、文件格式识别策略、字符串提取分析策略、二进制结构分析策略、反汇编策略、反编译策略、代码结构策略与逻辑分析策略、加壳识别策略和代码脱壳策略。动态分析策略包括快照比对策略、系统动态行为监控策略、网络协议栈监控策略、沙箱策略和动态调试策略。

在其中一些实施例中,图3为本申请实施例中确定目标机器学习规则以及构建基于机器学习的数据分类模型的流程图,如图3所示,该流程包括如下步骤:

步骤S310,根据样本数据的数据类型和数据特征信息,得到目标特征信息;目标特征信息包括多种目标数据特征以及每一目标数据特征对应的特征信息。

其中,数据特征信息包括多种数据特征以及每一数据特征对应的特征信息。目标特征信息包括多种目标数据特征以及每一目标数据特征对应的特征信息。

具体地,根据样本数据的数据类型,从多种数据特征中筛选出目标数据特征,得到多种目标数据特征以及每一目标数据特征对应的特征信息,即目标特征信息,目标数据特征与该样本数据的数据类型相对应。

步骤S320,根据目标特征信息和数据分析需求,从预设目标机器学习规则集中确定出目标机器学习规则;预设目标机器学习规则集包括多种机器学习规则。

步骤S330,根据目标特征信息和目标机器学习规则,构建基于机器学习的数据分类模型。

通过上述步骤S310至步骤S330,根据样本数据的数据类型和数据特征信息,得到目标特征信息;根据目标特征信息和数据分析需求,从预设目标机器学习规则集中确定出目标机器学习规则;根据目标特征信息和目标机器学习规则,构建基于机器学习的数据分类模型。本实施例通过针对不同数据类型的样本数据,自动化选取不同的目标特征信息;根据目标特征信息和数据分析需求,自动化选择合适的机器学习规则,从而实现根据自动化选取的目标特征信息和自动化选择的机器学习规则,构建数据分类模型,以适应不同数据类型的样本数据以及不同用户的数据分析需求,便于大范围应用推广,进一步提高了恶意数据的检测精度。

在其中一些实施例中,预设目标机器学习规则集包括多种根据机器学习算法设置的机器学习规则;其中,机器学习算法包括但不仅限于线性分类算法、支持向量机算法、朴素贝叶斯算法、K近邻算法、决策树算法、集成模型算法、线性回归算法、数据聚类算法、数据降维算法以及深度学习算法。

在其中一些实施例中,目标特征信息还包括标准恶意类型;图4为本申请实施例中根据目标特征信息和目标机器学习规则,构建基于机器学习的数据分类模型的流程图,如图4所示,该流程包括如下步骤:

步骤S410,以数据的特征信息为输入参量,以数据的恶意类型为输出参量,构建基于机器学习的初始数据分类模型。

步骤S420,将目标特征信息输入至初始数据分类模型中,得到预测恶意类型。

步骤S430,将预测恶意类型与标准恶意类型进行比较,得到比较结果。

步骤S440,根据比较结果和目标机器学习规则,调整初始数据分类模型的模型参数,以对初始数据分类模型进行训练,得到训练好的数据分类模型。

通过上述步骤S410至步骤S440,以数据的特征信息为输入参量,以数据的恶意类型为输出参量,构建基于机器学习的初始数据分类模型;将目标特征信息输入至初始数据分类模型中,得到预测恶意类型,将预测恶意类型与标准恶意类型进行比较,并根据比较结果调整初始数据分类模型的模型参数,以对初始数据分类模型进行训练,从而根据训练好的数据分类模型对用户输入的待检测数据进行检测,可以进一步提高恶意数据的检测精度。

在其中一些实施例中,图5为本申请实施例中对数据分类模型进行优化处理的流程图,如图5所示,该流程包括如下步骤:

步骤S510,根据数据分类模型的特点,从预设模型优化策略中确定出目标模型优化策略;预设模型优化策略包括多种模型优化策略。

步骤S520,根据目标模型优化策略,调整数据分类模型的模型参数,以对数据分类模型进行优化处理,得到优化处理后的数据分类模型。

通过上述步骤S510至步骤S520,根据数据分类模型的特点,自动化选取合适的目标模型优化策略,并根据自动化选取的模型优化策略调整数据分类模型的模型参数,以对数据分类模型进行优化处理,可以提高数据分类模型的可靠性,从而根据优化后的数据分类模型对用户输入的待检测数据进行检测,可以进一步提高恶意分析结果的可靠性。

在其中一些实施例中,模型优化策略包括但不仅限于梯度下降优化策略、随机梯度下降优化策略、小批量梯度下降优化策略、动量技术优化策略、梯度加速优化策略和自适应时刻估计优化策略。

下面通过具体实施例对本申请实施例进行描述和说明。

图6为本申请具体实施例的基于人工智能的恶意数据分析方法的流程图,如图6所示,该基于人工智能的恶意数据分析方法包括如下步骤:

步骤S610,获取用户输入的样本数据以及数据分析需求,并确定样本数据的数据类型。

步骤S620,根据样本数据的数据类型,确定目标数据清洗策略,并根据目标数据清洗策略对样本数据进行清洗处理,得到清洗处理后的样本数据。

步骤S630,根据样本数据的数据类型,确定目标动静态分析策略,并根据目标动静态分析策略对清洗处理后的样本数据进行动静态分析处理,得到样本数据对应的数据特征信息。

步骤S640,根据样本数据的数据类型、数据特征信息和数据分析需求,确定目标机器学习规则,并根据数据特征信息和目标机器学习规则,构建基于机器学习的数据分类模型。

步骤S650,根据数据分类模型的特点,确定目标模型优化策略,并根据目标模型优化策略,对数据分类模型进行优化处理,得到优化处理后的数据分类模型。

步骤S660,获取用户输入的待检测数据,并根据优化处理后的数据分类模型对待检测数据进行恶意分析处理,得到待检测数据对应的恶意分析结果。

需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例,图7为本申请实施例的基于人工智能的恶意数据分析方法的终端的硬件结构框图。如图7所示,终端70可以包括一个或多个(图7中仅示出一个)处理器702(处理器702可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器704,可选地,上述终端还可以包括用于通信功能的传输设备706以及输入输出设备708。本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端70还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。

存储器704可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的基于人工智能的恶意数据分析方法对应的计算机程序,处理器702通过运行存储在存储器704内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器704可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器704可进一步包括相对于处理器702远程设置的存储器,这些远程存储器可以通过网络连接至终端70。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端70的通信供应商提供的无线网络。在一个实例中,传输设备706包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备706可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。

本实施例还提供了一种基于人工智能的恶意数据分析装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图8为本申请实施例的基于人工智能的恶意数据分析系统的结构框图,如图8所示,该基于人工智能的恶意数据分析系统100包括数据清洗子系统10、动静态分析子系统20、数据特征提取子系统30、模型构建与优化子系统40和自动化决策子系统50,其中:

自动化决策子系统50分别与数据清洗子系统10、动静态分析子系统20、数据特征提取子系统30以及模型构建与优化子系统40连接,用于控制数据清洗子系统10、动静态分析子系统20、数据特征提取子系统30以及模型构建与优化子系统40以执行上述任一项方法实施例中的步骤。

数据清洗子系统10,用于对用户输入的样本数据进行清洗处理,得到清洗处理后的数据。

动静态分析子系统20与数据清洗子系统10连接,用于对清洗处理后的数据进行动静态分析处理,得到样本数据对应的数据特征信息。

数据特征提取子系统30与动静态分析子系统20连接,用于从数据特征信息中提取出目标特征信息。

模型构建与优化子系统40与数据特征提取子系统30连接,用于构建基于机器学习的数据分类模型以及对数据分类模型进行优化处理。

需要说明的是,自动化决策子系统50能对于该基于人工智能的恶意数据分析系统100中所有需要自动化决策的子系统进行调度与决策,使数据分析能在没有人为干预的情况下顺利进行。

图9为本申请实施例的基于人工智能的恶意数据分析装置的结构框图,如图9所示,该基于人工智能的恶意数据分析装置900包括:

数据获取模块910,用于获取用户提供的样本数据以及数据分析需求,并确定样本数据的数据类型。

动静态分析模块920,用于根据样本数据的数据类型,确定目标动静态分析策略,并根据目标动静态分析策略对样本数据进行动静态分析处理,得到样本数据对应的数据特征信息。

模型构建模块930,用于根据样本数据的数据类型、数据特征信息和数据分析需求,确定目标机器学习规则,并根据数据特征信息和目标机器学习规则,构建基于机器学习的数据分类模型。

恶意分析模块940,用于获取用户输入的待检测数据,并根据数据分类模型对待检测数据进行恶意分析处理,得到待检测数据对应的恶意分析结果。

在其中一些实施例中,动静态分析模块920包括策略确定单元和动静态分析单元,其中:

策略确定单元,用于根据样本数据的数据类型,从预设动静态分析策略集中确定出目标静态分析策略和目标动态分析策略;预设动静态分析策略集包括多种静态分析策略以及多种动态分析策略。

动静态分析单元,用于根据目标静态分析策略和目标动态分析策略,对样本数据进行动静态分析处理,得到样本数据对应的数据特征信息;数据特征信息包括多种数据特征以及每一数据特征对应的特征信息。

在其中一些实施例中,静态分析策略包括反病毒软件扫描策略、文件格式识别策略、字符串提取分析策略、二进制结构分析策略、反汇编策略、反编译策略、代码结构策略与逻辑分析策略、加壳识别策略和代码脱壳策略;

动态分析策略包括快照比对策略、系统动态行为监控策略、网络协议栈监控策略、沙箱策略和动态调试策略。

在其中一些实施例中,模型构建模块930包括特征确定单元、规则确定单元和模型构建单元,其中:

特征确定单元,用于根据样本数据的数据类型和数据特征信息,得到目标特征信息;目标特征信息包括多种目标数据特征以及每一目标数据特征对应的特征信息。

规则确定单元,用于根据目标特征信息和数据分析需求,从预设目标机器学习规则集中确定出目标机器学习规则;预设目标机器学习规则集包括多种机器学习规则。

模型构建单元,用于根据目标特征信息和目标机器学习规则,构建基于机器学习的数据分类模型。

在其中一些实施例中,目标特征信息还包括标准恶意类型;模型构建单元包括模型构建子单元、特征输入子单元、类型比较子单元和参数调整子单元,其中:

模型构建子单元,用于以数据的特征信息为输入参量,以数据的恶意类型为输出参量,构建基于机器学习的初始数据分类模型。

特征输入子单元,用于将目标特征信息输入至初始数据分类模型中,得到预测恶意类型。

类型比较子单元,用于将预测恶意类型与标准恶意类型进行比较,得到比较结果。

参数调整子单元,用于根据比较结果和目标机器学习规则,调整初始数据分类模型的模型参数,以对初始数据分类模型进行训练,得到训练好的数据分类模型。

在其中一些实施例中,该基于人工智能的恶意数据分析装置900还包括模型优化模块,模型优化模块包括策略确定单元和模型优化单元,其中:

策略确定单元,用于根据数据分类模型的特点,从预设模型优化策略中确定出目标模型优化策略;预设模型优化策略包括多种模型优化策略。

模型优化单元,用于根据目标模型优化策略,调整数据分类模型的模型参数,以对数据分类模型进行优化处理,得到优化处理后的数据分类模型。

在其中一些实施例中,该基于人工智能的恶意数据分析装置900还包括数据清洗模块,数据清洗模块用于根据样本数据的数据类型,从预设数据清洗策略集中确定出目标数据清洗策略,并根据目标数据清洗策略对样本数据进行清洗处理;预设数据清洗策略集包括多种数据清洗策略。

需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

S1,获取用户输入的样本数据以及数据分析需求,并确定样本数据的数据类型。

S2,根据样本数据的数据类型,确定目标动静态分析策略,并根据目标动静态分析策略对样本数据进行动静态分析处理,得到样本数据对应的数据特征信息。

S3,根据样本数据的数据类型、数据特征信息和数据分析需求,确定目标机器学习规则,并根据数据特征信息和目标机器学习规则,构建基于机器学习的数据分类模型。

S4,获取用户输入的待检测数据,并根据数据分类模型对待检测数据进行恶意分析处理,得到待检测数据对应的恶意分析结果。

需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

另外,结合上述实施例中的基于人工智能的恶意数据分析方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于人工智能的恶意数据分析方法。

本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号