首页> 中国专利> 基于并行化CEP处理的语义驱动犯罪线索实时推荐方法

基于并行化CEP处理的语义驱动犯罪线索实时推荐方法

摘要

本发明公开了Web信息实时推荐领域中的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,包括:爬取指定深度的网页文本;提取爬取网页文本的正文,提取正文关键词;依据某一具体犯罪类别的术语构建语义树,将语义树与提取的关键词匹配;根据语义树编写计算总权值的CEP的事件模式;多个CEP引擎并行处理事件模式,同时对总权值进行归一化和降序排序,将排在前面的网页实时推荐给用户。本发明通过基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,能够使得推荐的结果更加准确同时能够适应大数据的场景。

著录项

  • 公开/公告号CN106919700A

    专利类型发明专利

  • 公开/公告日2017-07-04

    原文格式PDF

  • 申请/专利权人 华北电力大学;

    申请/专利号CN201710135699.6

  • 发明设计人 马应龙;马建刚;丁婷;

    申请日2017-03-09

  • 分类号G06F17/30;

  • 代理机构北京科家知识产权代理事务所(普通合伙);

  • 代理人莫文新

  • 地址 102206 北京市昌平区回龙观北农路2号华北电力大学控计学院

  • 入库时间 2023-06-19 02:45:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-22

    授权

    授权

  • 2017-07-28

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170309

    实质审查的生效

  • 2017-07-04

    公开

    公开

说明书

技术领域

本发明属于Web信息实时推荐领域,尤其涉及一种基于并行化CEP处理的语义驱动犯罪线索实时推荐方法。

背景技术

随着互联网的快速发展,网络的信息呈指数式增长,传统的信息推荐方法如协同过滤方法等,应对于海量数据和实时性要求比较高的时候,便凸显了自己的不足之处。网络技术的诞生和发展,也为案件侦查提供更加广阔的途径。依靠网络开展犯罪线索搜集将成为案件侦查的新方法。因此如何从海量的数据中快速的查找有价值的线索并实时地推荐给相关部门是案件侦查亟需解决的问题。

而现有的一些犯罪线索信息推荐方法主要是利用用户定义的关键词集合,根据文章提取的关键词与关键词集合进行匹配,算出其匹配的关键字的个数,根据个数的大小决定其推荐价值。传统的这种方法忽略了关键词词之间的语义关系且处理过程是集中式的。

发明内容

本发明结合上述背景技术中提到的问题,提出一种基于并行化CEP处理的语义驱动犯罪线索实时推荐方法。

为了实现上述目的,本发明提出的技术方案是基于并行化CEP处理的语义驱动犯罪线索实时推荐方法,包括:

爬取指定深度的网页文本;

提取爬取网页文本的正文,提取正文关键词;

依据某一具体犯罪类别的术语构建语义树,将语义树与提取的关键词匹配;

根据语义树编写计算总权值的CEP的事件模式;

多个CEP引擎并行处理事件模式,同时对总权值进行归一化和降序排序,将排在前面的网页实时推荐给用户。

本发明提出的复杂事件处理技术保证了事件处理的实时性,并行化处理保证了海量数据的处理能力,同时在关键词匹配过程中加入关键词之间的语义关系,提高推荐的准确性。

附图说明

图1为基于并行化CEP处理的语义驱动犯罪线索实时推荐方法的流程图;

图2,3,4为职务犯罪的三大类别的犯罪语义树;

图5为总权值不小于0.3实验指标排序准确度的比较;

图6为总权值不小于0.3实验指标排序召回率的比较;

图7为总权值不小于0.3实验指标排序F-测量值的比较。

具体实施方式

下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。

实施例1

图1是基于并行化CEP处理的语义驱动犯罪线索实时推荐方法的流程图,图1中,发明提供的基于并行化CEP处理的语义驱动犯罪线索实时推荐方法包括:

步骤1:分析法制网和中国法院网的要闻,民主法治网的反腐,中国廉政网的热点透视等指定网站的栏目结构,根据各网站栏目的URL编写爬虫程序。

步骤2:运行爬虫程序爬取各网站栏目的URL。在爬取过程中使用Jsoup解析技术抽取子链接,同时使用布隆过滤器对子链接进行URL重复性检测,若没重复,则执行步骤3,否则丢弃;

步骤3:对子链接进行爬取并使用Jsoup解析技术抽取出子链接所代表的网页文本中的标题,发布时间和正文等;

步骤4:使用Ansj技术对正文进行关键词提取,设置关键词的个数为80,并得到一个关键词集合,将关键词集合、标题、发布时间以及网页文本的URL一起存入Kafka消息系统;

步骤5:依据职务犯罪类别的术语的分类关系和相关关系,分类关系如职务犯罪分为三大类:贪污受贿罪,渎职罪和侵犯公民人身权利、民主权利罪,相关关系如贪污是贪污罪的特征。将职务犯罪的类别名,罪名和具体的特征放入职务犯罪词汇库,根据职务犯罪词汇库中的术语关系,手动构建三棵犯罪语义树,如图2,3,4所示,在树中,第一层结点和第二层结点为分类关系,第二层结点和叶子结点为相关关系;

步骤6:读取kafka中的消息,利用职务犯罪的三棵犯罪语义树与消息的关键词集合进行匹配。在匹配过程中,如果匹配上的某结点存在上层结点,则需将上层结点放入已匹配结点集合,直到上层结点为根节点,因此关键词的匹配先从犯罪语义树的叶子结点开始,从下往上。且在已匹配结点集合中,每个结点只出现一次,最后计算每层匹配的结点个数,并将结果再次存入kafka中。如已匹配的结点为贪污,则将贪污,贪污罪和贪污贿赂罪一起放到已匹配结点集合中,当再出现贪污罪或者贪污贿赂罪时,将不再放入已匹配结点集合;这样的语义关系有利于区分在某些情况下文本价值相等的问题,提高了推荐准确性。

步骤7:设结点所在层数为其权值,例如贪污出现在图2所示的树中的第三层,因此权值为3。网页文本的总权值便是每层匹配的结点个数与其权值的乘积之和。总权值的计算公式为:

Re表示总权值,wi表示每层结点对应的权值,li表示每层关键词匹配的个数。

根据步骤7中总权值的计算公式,进一步说明步骤6中的语义关系对推荐结果的影响。例如文本1出现的三个关键词结点为渎职罪、非法批准征用土地和徇私枉法,文本2出现的三个关键词结点为渎职罪、滥用职权和玩忽职守。根据图3所示的渎职罪犯罪语义树可知,文本1出现的渎职罪位于树的第一层,因此权值为1,第一层出现的关键词个数为1,非法批准征用土地和徇私枉法出现在树的第三层,因此权值为3,第三层出现的关键词个数为2,同样可以算出文本2第一层出现的关键词个数为1,第三层出现的关键词为2,在计算时若不加匹配结点对应的父节点,则两个文本根据权值计算公式得出的总权值为1×1+3×2=7,推荐的优先级相同。在加入匹配结点对应的父节点后,文本1出现的关键词结点为渎职罪、徇私舞弊罪、非法批准征用土地和徇私枉法,根据每层关键词所出现的个数和权值计算得出文本1的总权值为1×1+2×1+3×2=9,文本2出现的关键词结点为渎职罪、滥用职权罪、玩忽职守罪、滥用职权和玩忽职守,同样根据每层出现的关键词个数和权值计算得出文本2的总权值1×1+2×2+3×2=11,文本2的权值比文本1的权值大,文本2与职务犯罪越相关。

步骤8:根据总权值的计算公式,使用CEP引擎Esper的EPL(Event ProcessingLanguage,事件处理语言)编写计算总权值的事件模式,将CEP的处理逻辑封装在Storm的Bolt组件中,在Storm的拓扑中设置Bolt的并行度大于1,以达到并行化处理,同时Storm的Spout组件从kafka中读取数据发送给Bolt组件;

步骤9:为进行实验结果的对比,对每个网页文本计算出来的总权值进行归一化处理,归一化处理后的总权值在0~1之间,将总权值越高的网页优先推荐给用户,归一化处理的公式定义为:

网页文本集合的大小为n,Wmax表示的是网页文本集合中总权值最大的,Wmin表示的是网页文本集合中总权值最小的,Wi表示为每个网页文本的总权值,Wi'(1≤i≤n)则表示网页文本集合中每个总权值归一化处理后对应的值。

步骤10:对归一化后的结果进行降序排序,将排在前面的网页推荐给用户。在归一化后总权值不小于0.3的原则下,利用排序准确率R,排序召回率P和排序F-测量值F三个实验指标,对本发明提出的方法和传统方法的实验结果进行对比,计算公式分别如下所示:

排序准确率R为:

排序召回率P为:

排序F-测量值F为:

集合A表示排序结果中权值不小于0.3的文本数据的集合。集合B表示检索到的文本数据的集合,实际上可以通过计算和收集实验文本数据集中权值大于0的那些文本数据得到。集合C表示实验数据集中所有的文本数据。

图5,6,7分别为排序准确率,排序召回率和排序F-测量值的实验结果对比图。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号