技术领域
本发明涉及犯罪预测技术领域,特别涉及一种基于LSTM的犯罪数量预测方法。
背景技术
随着生活压力的不断增大,越来越多的犯罪事件发生,犯罪率不断提高。那么,如何在发生犯罪之前,事先预测发生犯罪事件高的地区成为一个热点话题。目前由于社会作息规律、社会习俗、天气以及社会活动等原因,犯罪份子的作案动机、作案意愿、作案手段等也会发生改变,因此在我国当前城市化过程中,如何吸取过去大量的经验和教训,运用大数据分析犯罪者的犯罪类型和犯罪数量,以此进行犯罪防控成为了申请人亟待解决的问题。
发明内容
本发明的目的在于,提供一种基于LSTM的犯罪数量预测方法。本发明可以对犯罪数量进行较为准确的预测,便于公安机关进行犯罪防控。
为解决上述技术问题,本发明提供的技术方案如下:基于LSTM的犯罪数量预测方法,包括以下步骤:
S1:建立LSTM预测模型,所述LSTM预测模型由神经元、遗忘门、输入门、输出门组成;
所述遗忘门如下所示:
f
式中:f
所述输入门如下所示:
i
c′
c
式中:i
所述输出门如下所示:
o
h
式中:O
S2:获取犯罪数据,对犯罪数据进行预处理后再形成序列数据,将序列数据输入至LSTM预测模型中,输出预测结果。
上述的基于LSTM的犯罪数量预测方法,所述犯罪数据包括案件编号、报警时间、案件类别、接警单位、经纬度、天气数据、人口数据和旅馆数据。
前述的基于LSTM的犯罪数量预测方法,对数据进行脱敏处理,保证其中没有涉及隐私。
前述的基于LSTM的犯罪数量预测方法,所述的预处理包括数据清洗和数据转化;所述数据清理为缺失值删除处理;所述数据转化为归一化处理。
前述的基于基于LSTM的犯罪数量预测方法,所述序列数据的形成是将犯罪数据按照案件类别进行筛选,其次按照月份对筛选后的数据进行数量统计,形成以升序犯罪时间为索引的数据表格。
与现有技术相比,由于在犯罪预测中,案件数量既受远期数据影响,又受近期数据影响,在时间上不是独立存在的,而具有一定的相关性,因此本发明利用LSTM预测模型可以保持每个单元内的误差信号,实现了自循环的权重动态改变,从而允许累计其距离较长节点间的长期联系的优势,克服了传统RNN算法在处理长期依赖序列问题时带来的梯度消失或梯度爆炸的问题,从而可以得到较好的预测模型,可以对犯罪数量进行较为准确的预测,便于公安机关进行犯罪防控。此外,本发明的犯罪数据多样,利用脱敏处理,保证犯罪数据中没有涉及隐私,保护个人信息安全,并在后续的预处理中进行对数据的优化处理,便于输入至LSTM预测模型中,进而快速进行犯罪预测。
附图说明
图1是本发明实施例犯罪数量平均预测精度处于前十的犯罪类型预测图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例:基于LSTM的犯罪数量预测方法,包括以下步骤:
S1:建立LSTM预测模型,长短期记忆神经网络算法(Long-Short Time Memory,LSTM)作为深度学习方法的一种,由循环神经网络算法(Recurrent Neural Network,RNN)改进而来。LSTM通过增加输入门限、遗忘门限和输出门限即恒定误差转盘(Constant ErrorCarousel,CEC),保持每个单元内的误差信号,实现了自循环的权重动态改变,从而允许累计其距离较长节点间的长期联系,克服了RNN在处理长期依赖序列问题时带来的梯度消失或梯度爆炸的问题。在犯罪预测中,案件数量既受远期数据影响,又受近期数据影响,在时间上不是独立存在的,而具有一定的相关性,因此选取了该模型作为案件数量预测模型。
所述LSTM预测模型由神经元、遗忘门、输入门、输出门组成;
遗忘门用于实现当前输入和上一个时间步长隐藏层输出的信息筛选,所述遗忘门如下所示:
f
式中:f
输入门里主要需要做两项工作,一是决定哪些信息需要被存储起来,进行第二轮信息更新,如下所示:
i
二是由tanh函数生成一个新的候选记忆单元C’,加入到状态中,如下所示:
c′
c
式中:i
旧状态c
输出门用来确定最终输出,控制当前记忆单元状态对输出的影响力大小。sigmoid函数决定状态的输出部分,tanh函数保持输出在-1到1之间。两者相乘,得到最终结果,所述输出门如下所示:
o
h
式中:O
S2:获取犯罪数据,本实施例采用2013年1月到2016年2月浙江省嘉兴市海宁市接处警信息记录,所含内容包括接警单编号、报警时间、案件类型编号、报警类别、案件细类编号、经度、纬度、人口数据和旅馆数据等共计36万条犯罪数据,其中对人口数据进行脱敏处理,保证其中没有涉及隐私。数据脱敏指的是对某些敏感信息通过一定的规则进行数据变形,从而实现敏感隐私数据的可靠保护。本实施例对数据脱敏技术的应用主要集中于前期辖区数据的编号处理。通过自主定义辖区编号并进行数据替换,实现敏感信息的数据变形。其次筛选出案件类别和报警时间信息作为数量统计条件,同时在百度中获取海宁市2013年到2016年的每月天气、气温信息,进行统计记录;再对犯罪数据进行预处理后再形成序列数据,其中,为使犯罪数据达到算法的输入格式要求,本实施例对犯罪数据进行清洗和转换。由于原始犯罪数据中存在少数类型缺失案件,由于缺失原因未知,且对于单独案件类别的预测准确率没有较大影响,故在此采取缺失值删除的处理,同时在数据转化问题上,由于晴雨天天数与气温数据存在数量级上的差异,为了消除这一量纲上的差距,本实施例将天气与气温数据进行线性函数Z-score标准化处理。处理过后的数据符合标准正态分布,两类数据之间具有可比性。Z-score标准化的公式如下式:
式中:μ是指所有样本数据的均值,σ则为所有样本数据的标准差,X
归一化前后的天气与气温数据如下表1所示:
表1
由于LSTM预测模型需要输入序列数据,因此在接处警数据处理上,本实施例首先将犯罪数据按照案件类别进行筛选,其次按照月份对筛选后的数据进行数量统计,最终形成以升序犯罪时间为索引的数据表格。
将序列数据输入至LSTM预测模型中,LSTM预测模型的权重初始化策略设置为正态分布初始化,为准确描述每种案件的预测效果,针对不同的初始权重,连续运行十次计算预测准确率,并绘制准确率预测效果误差棒,最终输出预测结果。
在具体预测中,以海宁市2013年1月到2016年1月接处警数据为训练数据,结合当时海宁市每月天气情况以及气温数据,预测2016年2月不同案件类别的发案数量。LSTM预测模型运行结果与实验初始权重关系较大,因此需要针对多组不同权重,计算预测结果平均值,方可准确显示模型效果。本实施例针对多种案件类型随机设置初始权重,连续运行模型十次,并分别计算精度,最终得出精度平均值,将其排序筛选过后,结果如下图1所示。根据运行结果筛选准确率最高的前十类案件,最低预测准确率为百分之八十五,各类型案件数量预测的效果显现出随着平均准确率的下降,预测效果波动幅度逐渐增大。预测效果更好的案件种类中,其预测模型波动情况更不明显。例如赌博案件的预测精度最高,达到百分之九十八,交通肇事案件(非机动车与行人)到盗窃案件(其他)6种案件类型到预测精度波动幅度小,均处于百分之九十五到九十之间,而盗窃案件(扒窃)和盗窃案件(盗窃假币、假票据、假货、假药)到精度处于百分之九十至八十五之间,下降幅度较之前大。从误差结果分析,可以看出前四种案件类别的预测结果最大值与最小值差距较小。从第五种案件类别开始,预测结果最大值与最小值差距拉大。经分析,不同案件类别数量预测精度出现波动差异的关键性原因在于不同类别的案件发生数量本身存在较大差距。有些类别的案件在该月发案率较低,样本数量不足,甚至只有个位数,那么其在精度计算时必然受到较大的数量波动,难以准确体现数量与时间的关系。同理,在误差计算方面,由于赌博案件本身发案数量多,平均每月能达到271件,计算基数大,因此误差较小。而盗窃案件(其他)每月发案数量少,甚至有一个月只出现3件,计算基数小,因此误差结果较大。预测效果的波动情况说明权重对于LSTM数量预测模型的效果影响较大,但基本每种案件类型的最高预测准确率都可以达到近似百分百。本发明利用研究各犯罪案件发生数量的回归分析,通过构建LSTM模型预测各月份案件发案数量情况,迭代更新模型参数,动态选取阈值,目标为提升数量预测准确率,最后将获取的预测发案数量取整作为实际预测结果,具有很高的准确率。
综上所述,本发明利用LSTM预测模型可以保持每个单元内的误差信号,实现了自循环的权重动态改变,从而允许累计其距离较长节点间的长期联系的优势,克服了传统RNN算法在处理长期依赖序列问题时带来的梯度消失或梯度爆炸的问题,从而可以得到较好的预测模型,可以对犯罪数量进行较为准确的预测,便于公安机关进行犯罪防控。
机译: 基于多维时间序列框架卷积LSTM的变压器DGA数据预测方法
机译: 基于模糊逻辑和深层LSTM的大规模实时交通流预测方法
机译: 基于LSTM的未来威胁预测方法和装置