首页> 中国专利> 一种适用于失信单位的实时识别及预警方法

一种适用于失信单位的实时识别及预警方法

摘要

本发明公开了一种适用于失信单位的实时识别及预警方法,包括:收集并归档现有的失信单位黑名单数据,建立黑名单源数据库;利用网络嗅探器,将网卡置于混杂模式,接收通过网卡的所有数据;实时抓取分类接收到的数据,筛选出TCP/IP协议报文,根据其不同属性分层存储于网卡中;基于分层属性与源数据库数据属性的相似度依次利用HTTP协议规范解析TCP/IP协议报文,利用解码模型将中文编码转变为中文数据,利用N元文法模型对中文数据进行中文分词;通过关键字检索查找对比源数据库是否存在黑名单内容,若存在黑名单内容,则进行弹框提示,并停止解析TCP/IP协议报文。本发明提升了警示的效率,降低了出错率。

著录项

  • 公开/公告号CN112988762A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 江苏中辰软件科技有限公司;

    申请/专利号CN202110496315.X

  • 发明设计人 聂伟;何晓军;周华翰;

    申请日2021-05-07

  • 分类号G06F16/22(20190101);G06F16/242(20190101);G06F16/906(20190101);G06F16/951(20190101);G06F40/289(20200101);G06F40/18(20200101);H04L29/06(20060101);

  • 代理机构32272 南京禹为知识产权代理事务所(特殊普通合伙);

  • 代理人王晓东

  • 地址 211106 江苏省南京市江宁区秣陵街道利源南路55号

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明涉及计算机应用、识别预警的技术领域,尤其涉及一种适用于失信单位的实时识别及预警方法。

背景技术

近年来,随着失信单位越发的增多,如何帮助工作人员快速而准确的抓取到失信单位的信息愈发重要,传统失信单位查找对比一般采用人工查看识别对比的方式,该方式效率低下,出错率较高,对人员的知识储备基础有要求,随着全球互联网的发展,世界已经进入到一个高速信息化时代。通过网络,人们可以很方便地浏览和共享巨大的网络数据,同时,越来越多企业的核心业务采用Web应用实现,这使得企业财富与网络信息安全紧密相关,进而与广大群众的生活紧密相关;基于互联网的失信单位的查找,一般使用的方法为通过浏览器网页进行失信单位检索,且对检索结果需要进行多次核对,以防出现差错,该方法效率较低、出错率高,而如何提高失信单位识别预警效率、降低出错率是我们亟待解决的问题。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题,提出了本发明。

因此,本发明解决的技术问题是:检索过程复杂,需要多次核对,效率低,出错率较高,对人员的知识储备基础有一定的要求。

为解决上述技术问题,本发明提供如下技术方案:收集并归档现有的失信单位黑名单数据,基于所述失信单位黑名单数据建立黑名单源数据库;利用网络嗅探器,将网卡置于混杂模式,通过所述网络嗅探器接收通过所述网卡的所有数据;基于七层模型中的传输层和网络层,对所述接收到的所有数据进行实时抓取分类,筛选出TCP/IP协议报文,根据所述TCP/IP协议报文的不同属性分层存储于所述网卡中;基于所述分层属性与所述黑名单源数据库数据属性的相似度依次利用HTTP协议规范解析所述TCP/IP协议报文,并利用解码模型将中文编码转变为中文数据,利用N元文法模型对所述中文数据进行中文分词;根据所述中文分词结果通过关键字检索查找对比所述黑名单源数据库是否存在黑名单内容,若存在所述黑名单内容,则进行弹框提示,并停止解析所述TCP/IP协议报文,完成失信单位的实时识别预警。

作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述黑名单源数据库的建立包括,安装mysql5.7数据库用于源数据存储并创建所述数据库中的表excel;根据失信单位的地区、名称、证件号以及未履行金额额度进行分类,生成所述源数据;基于JAVA POI库显示所述源数据的excel导入导出,得到黑名单源数据库;根据所述黑名单源数据库建立B+树结构的索引。

作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述实时抓取分类的过程包括,获取抓取信息端的抓取任务信息,即抓取所述TCP/IP协议报文;根据所述抓取任务信息建立抓取分类模型;基于所述抓取分类模型抓取分类所述接收到的数据得到所述TCP/IP协议报文。

作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述抓取分类模型的建立包括,获取规则数据信息,建立抓取任务规则,所述规则数据信息包括相关编码;遍历所述接收到的数据,基于决策树策略分析得到数据信息特征节点,根据所述抓取任务规则对所述特征节点进行两次抓取并获得反例比例;计算两次特征节点抓取的反例比例的比值;若所述反例比例比值大于预设阈值,则所述抓取模型无效,重新遍历所述接收到的数据;若所述反例比例比值小于或等于预设阈值,则所述抓取模型有效,对所述接收到的数据进行抓取及分类,得到所述TCP/IP协议报文。

作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述根据所述TCP/IP协议报文的不同属性分层存储于所述网卡中包括,所述TCP/IP协议报文按照不同属性分为三层,包括,第一层包括固定首部长度在0~15字节之间,源端口在0~24525bits之间,目的端口范围与所述源端口范围相同;第二层包括固定首部长度在16~28字节之间,源端口在24526~44578bits之间,目的端口范围与所述源端口范围相同;第三层包括固定首部长度在29~40字节之间,源端口在44578~65525bits之间,目的端口范围与所述源端口范围相同。

作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述分层属性与所述黑名单源数据库数据属性的相似度评判标准包括,相似度高:当所述黑名单源数据库数据字节数与分层属性中的字节数差值大于0小于等于5,且二者的bits比值大于0小于等于0.5;相似度一般:当所述黑名单源数据库数据字节数与分层属性中的字节数差值大于6小于等于10,且二者的bits比值大于0.5小于等于1;相似度低:当所述黑名单源数据库数据字节数与分层属性中的字节数差值大于11,且二者的bits比值大于1。

作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述基于HTTP协议规范解析所述TCP/IP协议报文得到HTTP报文的标准体,所述HTTP报文包括请求报文和响应报文;解析所述请求报文得到请求行、请求头、请求体;解析所述响应报文得到响应行、响应头、响应体。

作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述解码模型解码过程包括,基于所述HTTP协议的JSP或Servlet的应用获取数据或发送请求时,利用JVM将输送的中文编码转换成UTF8格式,根据ISO-8859-1标准编码将所述UTF8格式转换成GB2312,实现解码转换。

作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述关键字检索查找对比过程包括,读取储存在网卡中的不同分层属性的报文数据并按照相似度高低依次进行中文分词,即分层属性与所述黑名单源数据库数据属性相似度高的优先进行解析、解码并进行中文分词,利用所述中文分词结果进行关键词检索,若比对成功,则停止解析所述TCP/IP协议报文。

作为本发明所述的适用于失信单位的实时识别及预警方法的一种优选方案,其中:所述提示弹框的建立包括,利用python语言结合pyqt5框架进行windows可执行程序exe的编写;编写一个在所述windows后台无感运行的托盘程序,在黑名单命中的时候弹出提示框。

本发明的有益效果:通过智能化网卡数据包分析的方式,将实时数据包与源数据黑名单库进行高效智能化比对从而自动达成自动警示的效果,提升了警示的效率,降低了出错率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:

图1为本发明一个实施例提供的一种适用于失信单位的实时识别及预警方法的基本流程示意图;

图2为本发明一个实施例提供的一种适用于失信单位的实时识别及预警方法的实现原理图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。

其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1~2,为本发明的一个实施例,提供了一种适用于失信单位的实时识别及预警方法,包括:

S1:收集并归档现有的失信单位黑名单数据,基于失信单位黑名单数据建立黑名单源数据库;需要说明的是,

黑名单源数据库的建立包括,

安装mysql5.7数据库用于源数据存储并创建数据库中的表excel;

根据失信单位的地区、名称、证件号以及未履行金额额度进行分类,生成源数据;

基于JAVA POI(Poor Obfuscation Implementation)库显示源数据的excel导入导出,得到黑名单源数据库;

根据黑名单源数据库建立B+树结构的索引,其中,对数据库创建基于B+树的索引是为了降低索引文件的大小便于快速高效的进行对比查询,并研发数据新增导入系统方便后期数据增加。

S2:利用网络嗅探器,将网卡置于混杂模式,通过网络嗅探器接收通过网卡的所有数据;需要说明的是,

网络嗅探器定义为:使用WinPcap开发包,嗅探流过网卡的数据并智能分析过滤,快速找到所需要的网络信息(音乐、视频、图片等);

网卡的四种工作模式:广播模式:该模式下的网卡能够接收网络中的广播信息;组播模式:设置在该模式下的网卡能够接收组播数据;直接模式:在这种模式下,只有目的网卡才能接收该数据;混杂模式:在这种模式下的网卡能够接收一切通过它的数据,而不管该数据是否是传给它的。

本发明采用的方法将网卡置于混杂模式,该步骤是为了接收包括前台、后台、网页、程序等所有所有应用发出的网络数据信息,例如某人在聊天工具中发送数据信息,其数据信息亦会被如下操作流程进行实时识别,若出现黑名单内容,则进行弹框预警,体现本发明识别预警的实时、高效。

S3:基于七层模型中的传输层和网络层,对接收到的所有数据进行实时抓取分类,筛选出TCP/IP协议报文,根据TCP/IP协议报文的不同属性分层存储于网卡中;需要说明的是,

其中,七层模型,亦称OSI(Open System Interconnection),参考模型是国际标准化组织(ISO)制定的一个用于计算机或通信系统间互联的标准体系,一般称为OSI参考模型或七层模型,其传输层定义传输数据的协议端口号,以及流控和差错校验,协议有:TCPUDP,数据包一旦离开网卡即进入网络传输层;网络层进行逻辑地址寻址,实现不同网络之间的路径选择,协议有:ICMP IGMP IP(IPV4 IPV6)。

进一步的,实时抓取分类的过程包括,

获取抓取信息端的抓取任务信息,即抓取TCP/IP协议报文;根据抓取任务信息建立抓取分类模型;基于抓取分类模型抓取分类接收到的数据得到TCP/IP协议报文,利用Python语言对报文数据进行实时监听。

具体的,抓取分类模型的建立包括,

获取规则数据信息,建立抓取任务规则,规则数据信息包括相关编码;

遍历接收到的数据,基于决策树策略分析得到数据信息特征节点,根据抓取任务规则对特征节点进行两次抓取并获得反例比例;

计算两次特征节点抓取的反例比例的比值;

若反例比例比值大于预设阈值,则抓取模型无效,重新遍历接收到的数据;

若反例比例比值小于或等于预设阈值,则抓取模型有效,对接收到的数据进行抓取及分类,得到TCP/IP协议报文,并按照TCP报文的结构进行结构化:

在进行结构化时,由于TCP协议的报文对单个报文的长度有一定限制,即一个完成的请求可能由于报文数据过大,导致被分成两个三个甚至更多的TCP数据包进行发送,所以要获取到完整的请求,需要对被拆包的请求进行重新的粘包,这样才能是抓取到的请求数据完整便于报文解析。

进一步的,根据TCP/IP协议报文的不同属性分层存储于网卡中包括,其中,TCP/IP协议报文按照不同属性分为三层,包括,

第一层包括固定首部长度在0~15字节之间,源端口在0~24525bits之间,目的端口范围与源端口范围相同;

第二层包括固定首部长度在16~28字节之间,源端口在24526~44578bits之间,目的端口范围与源端口范围相同;

第三层包括固定首部长度在29~40字节之间,源端口在44578~65525bits之间,目的端口范围与源端口范围相同。

其抓取分类过程部分实现代码如下所示:

S4:基于分层属性与黑名单源数据库数据属性的相似度依次利用HTTP协议规范解析TCP/IP协议报文,并利用解码模型将中文编码转变为中文数据,利用N元文法模型对中文数据进行中文分词;需要说明的是,

分层属性与黑名单源数据库数据属性的相似度评判标准包括,

相似度高:当黑名单源数据库数据字节数与分层属性中的字节数差值大于0小于等于5,且二者的bits比值大于0小于等于0.5;

相似度一般:当黑名单源数据库数据字节数与分层属性中的字节数差值大于6小于等于10,且二者的bits比值大于0.5小于等于1;

相似度低:当黑名单源数据库数据字节数与分层属性中的字节数差值大于11,且二者的bits比值大于1;

其中,bits为信息量,当字节数差值及二者之间的bits比值皆不属于上述分类范围时,则判断其相似度最低,最后对其TCP/IP协议报文进行解析,另外,利用碎片化处理策略同步提取关键信息,以防出现输入不同字节数但表示同一失信单位的时候而被遗漏,提高识别预警的准确性。

具体的,碎片化处理包括,拆分信息量清单的信息;分别解析信息量的信息且相互对应数据;解析完成后获得行列单独识别的数据,形成碎片信息。

进一步的,分层属性与黑名单源数据库数据属性相似度高的优先进行解析;

其中,基于HTTP协议规范解析TCP/IP协议报文得到HTTP报文的标准体,HTTP报文包括请求报文和响应报文;解析请求报文得到请求行、请求头、请求体;解析响应报文得到响应行、响应头、响应体。

更进一步的,解码模型解码过程包括,

基于HTTP协议的JSP或Servlet的应用获取解析后的报文数据,利用JVM将输送的中文编码转换成UTF8格式,根据ISO-8859-1标准编码将UTF8格式转换成GB2312,实现解码转换。

再者,利用N元文法模型进行中文分词:

其中,n表示迭代次数,

具体的,将转变后的中文数据基于词典和N元文法统计模型生成N个最优结果作为候选集;然后对候选集进行词性标注,最后利用对文本的上下文"理解"信息来确定最佳切分结果。

根据TCP/IP协议报文的不同属性进行分层存储,基于分层储存的数据进行相似度计算,参照相似度高低对TCP/IP协议报文依次进行解析,减少了中文分词提取次数,提高了效率及准确率。

S5:根据中文分词结果通过关键字检索查找对比黑名单源数据库是否存在黑名单内容,若存在黑名单内容,则进行弹框提示,并停止解析TCP/IP协议报文,完成失信单位的实时识别预警;需要说明的是,

关键字检索查找对比过程包括,

读取储存在网卡中的不同分层属性的报文数据并按照相似度高低依次进行中文分词,即分层属性与黑名单源数据库数据属性相似度高的优先进行解析、解码并进行中文分词,利用Lucene框架建立中文分词索引对中文分词结果进行关键词检索,若比对成功,则停止解析TCP/IP协议报文。

进一步的,提示弹框的建立包括,

利用python语言结合pyqt5框架进行windows可执行程序exe的编写;

编写一个在windows后台无感运行的托盘程序,在黑名单命中的时候弹出提示框。

本发明利用网卡抓包的技术手段,从而不需要去关心是什么系统什么软件,只要是通过http请求的,都可以进行相应的黑名单警示,且利用人工智能推断算法进行智能推断,提升了警示的效率,降低了出错率。

实施例2

为对本方法中采用的技术效果加以验证说明,本实施例采用传统技术方案与本发明方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。

传统的技术方案:检索过程复杂,需要多次核对,效率低,出错率较高,对人员的知识储备基础有一定的要求,为验证本方法相对传统方法具有较高效率及较低的出错率,本实施例中将采用传统浏览器网页查看识别对比方法和本方法分别对失信单位识别预警的效率、准确率进行实时测量对比。

测试环境:采用20个失信单位及20000个非失信单位为测试样本,分别利用传统方法的浏览器网页查看识别对比测试与采用本方法,开启自动化测试设备并运用MATLB软件编程实现本方法的仿真测试,根据实验结果得到仿真数据。每种方法各测试50组数据,计算获得每组数据的单位信息,与仿真模拟输入的实际失信单位信息进行对比计算误差。其测试结果如下表所示:

表1:实验结果对比表。

从上表可以看出,本发明方法相较于传统实验方法有较高的识别准确率,以及错误率较低,体现了本发明方法的有效性。

应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号