公开/公告号CN112949314A
专利类型发明专利
公开/公告日2021-06-11
原文格式PDF
申请/专利权人 武汉烽火众智数字技术有限责任公司;
申请/专利号CN201911300148.6
申请日2019-12-16
分类号G06F40/30(20200101);G06F40/284(20200101);G06Q50/26(20120101);
代理机构11228 北京汇泽知识产权代理有限公司;
代理人郑飞
地址 430074 湖北省武汉市洪山区邮科院路88号
入库时间 2023-06-19 11:22:42
技术领域
本发明属于公安行业群情报信息研判领域。尤其涉及一种基于AI语义分析的群情报信息研判方法和系统。
背景技术
现代的公安行业为了管理、检索各类社交软件的聊天记录,如涉及敏感词汇的微信、QQ聊天信息,往往采用了传统的EXCEL,人工逐条的查看。但是随着聊天记录的增多、聊天内容关键字不确定化、以及群情报研判流程不清楚等因素,长期在一线工作的民警越来越疲于重复的工作,这些也展示了群情报研判系统不智能化也越来越明显,主要有以下两点:
1、手工操作,自动化程度低。虽然使用了一些建议的关键字搜索工具,但是大部分一线民警依旧需要:逐条观察涉及敏感词汇的聊天记录,肉眼查看聊天信息,执行下一步操作。而且现在关键字日益更新,一线民警也不能及时的获取关键字,会导致效率较低。对于一些重复繁杂的工作,没有很好的自动化、流程化的进行。
2、信息孤岛,难以建立一个完整的档案,目前工作多用于excel整理,没有将历史数据进行汇总和研判处置流程记录进行归档,对以后的历史数据查阅难以实现一个闭环的处置流程展示。
发明内容
鉴于上述问题,提出了一种克服上述问题或者至少部分地解决上述问题的一种基于AI语义分析的群情报信息研判方法和系统。
一种基于AI语义分析的群情报信息研判方法,其特征在于,包括:
获取并导入群情报信息;
利用词频-逆向文件频率算法对所述群情报信息进行AI语义分析,获取敏感词汇语句;
利用余弦相似性算法对所述敏感词汇语句进行分析,对所述敏感词汇语句进行过滤;
对过滤后的敏感词汇语句进行判定,根据判定结果采取归档操作。
进一步地,利用词频-逆向文件频率算法对所述群情报信息进行AI语义分析,获取敏感词汇语句的方法为:
对所述敏感词汇语句进行分词;
剔除所述敏感词汇语句中的停用词;
采用词频-逆向文件频率算法对分词进行计算。
进一步地,所述词频-逆向文件频率算法公式为:
其中,tf
进一步地,,所述归档操作为:
根据敏感词汇语句,确定敏感词汇语句发布者身份信息;
根据发布者身份信息,进行事前核处;
产生非法事件预警;
进行事先处置和事后追处;
将所述过程进行预防处置和归档操作。
进一步地,所述余弦相似性算法公式为:
其中,x
进一步地,所述群警报信息为社交软件群聊天记录。
进一步地,当群情报信息为语音信息时,先将语音信息转换为文字信息。
进一步地,所述敏感词汇可以进行模糊判定,将同一类型词汇判定为相同敏感词汇。
本发明还公开了一种基于AI语义分析的群情报信息研判系统,包括:群情报信息获取模块、AI语义分析模块、语义判定模块、归档操作模块;
群情报信息获取模块,用于获取并导入群情报信息;
AI语义分析模块,用于利用词频-逆向文件频率算法对所述群情报信息进行 AI语义分析,获取敏感词汇语句;利用余弦相似性算法对所述敏感词汇语句进行分析,对所述敏感词汇语句进行过滤;
语义判定模块,对敏感词汇语句进行判定;
归档操作模块,根据敏感词汇语句判定结果,进行预防处置和归档操作。
进一步地,所述AI语义分析模块包括词频-逆向文件频率算法模块和余弦相似性算法模块;
词频-逆向文件频率算法模块,用于利用词频-逆向文件频率算法对所述群情报信息进行AI语义分析,获取敏感词汇语句;
余弦相似性算法模块,用于利用余弦相似性算法对所述敏感词汇语句进行分析,对所述敏感词汇语句进行过滤。
本发明的有益效果是:相比现有技术,本发明所提供的一种基于AI语义分析的群情报信息研判方法和系统,利用利用词频-逆向文件频率算法对所述群情报信息进行AI语义分析,获取敏感词汇语句;利用余弦相似性算法对所述敏感词汇语句进行分析,对所述敏感词汇语句进行过滤;能将群情报信息大部分无用信息进行筛除,解决了现有技术群情报信息研判需要手工操作,工作量大,自动化低的问题。并且对敏感词汇语句判定后,能将历史数据进行汇总和研判处置流程记录进行归档,对以后的历史数据查阅实现一个闭环的处置流程展示。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例一中,一种基于AI语义分析的群情报信息研判方法流程图;
图2为本发明实施例二中,一种基于AI语义分析的群情报信息研判系统结构图;
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术问题,本发明实施例提供一种基于AI语义分析的群情报信息研判方法和系统。
实施例1
本实施例公开了一种基于AI语义分析的群情报信息研判方法,包括:
S100.获取并导入群情报信息;所述群情报信息为社交软件群聊天记录,可以理解的,社交软件群可以指代微信、QQ聊天信息;公安系统上级批准,通过相关运营商获取群情报信息,并将微信、QQ聊天信息导入群情报研判系统,作为敏感词汇语句分析样本。这里的敏感词汇一般指对国家社会会造成危害的词汇。
在一些实施例中,将聊天信息导入表格,得到类型、群号、内容、地区、时间等信息,如表一。
表一
S200.利用词频-逆向文件频率算法对所述群情报信息进行AI语义分析,获取敏感词汇语句;
具体的,利用词频-逆向文件频率算法对所述群情报信息进行AI语义分析,获取敏感词汇语句的方法为:
对所述敏感词汇语句进行分词;
剔除所述敏感词汇语句中的停用词;
采用词频-逆向文件频率算法对分词进行计算。
其中,词频-逆向文件频率算法公式为:
其中,tf
为了更好理解词频-逆向文件频率算法,下面以具体实施例作为详细描述,例如有以下10句话,分别为:
1、/明天/上午/9/点/去/市/政府/聚集/,去/请/回复/1/,/不去/回复/2/。
2、/明天/我/有/个人/私事,去/不/了,还/请/群友/多多/维护/广大/群员/的/利益
3、/政府/集合/1/。
4、/不见不散/,政府/门前/集合1/。
5、/明天/搬家/,暂/时/去/不/了/2/。
6、/政府/集合/1/。
7、/政府/集合/1/。
8、明天/正好/上午/有/时间/,/带/我/一个/政府/集合1/。
9、/好的/明天/8/点/50,/市/政府/门口/合集/1/。
10、/支持/1/。
首先用/对所述敏感词汇语句进行分词,具体效果如上。
然后剔除所述敏感词汇语句中的停用词,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,在本实施例中,为"的"、"是"、"在"----这一类最常用的词。
最后使用词频-逆向文件频率算法获取各个词汇的频率,具体表格如表二,通过表二得到后得出最高的政府9.21%明天6.57%,将政府、明天设置为关键字。
表二
S300.利用余弦相似性算法对所述敏感词汇语句进行分析,对所述敏感词汇语句进行过滤;具体的,余弦相似性算法公式为:
其中,x
就为了更好理解本技术方案,下面以具体例子进行解释,例如句子A:明天下雨,暂时不去市政府聚集维权。
句子B:明天天气不好,就不去市政府维权了,改后天
首先对句子A和句子B进行分词。
句子A:明天/下雨/,暂时/不去/市/政府/聚集/维权/
句子B:明天/天气/不好/,就/不去/市/政府/维权/了/,/改/后天
然后列出句子A和句子B所有的词。
明天,下雨,暂时,不去。市,政府,聚集,维权,天气,不好,改,后天
将句子A和句子B与所有的词进行比较,计算词频。
句子A:明天1,下雨1,暂时1,不去1。市1,政府1,聚集1,维权1,天气0,不好0,改0,后天0
句子B:明天1,下雨0,暂时0,不去1。市1,政府1,聚集1,维权1,天气1,不好1,改1,后天1
最后得到句子A和句子B的词频向量。
句子A:(1,1,1,1,1,1,1,1,0,0,0)
句子B:(1,0,0,1,1,1,1,1,1,1,1)
将句子A和句子B的词频向量带入余弦相似性算法公式,则
计算结果中夹角的余弦值为0.81非常接近于1,所以,上面的句子A和句子B是基本相似的。从而再次过滤掉一些描述同一件事情的聊天记录。
S400.对过滤后的敏感词汇语句进行判定,根据判定结果采取预防处置和归档操作。通过S300步骤后已经过滤掉大部分没有价值的信息,减少了公安民警大量工作量。当获取到敏感词汇语句后,
因存在打字错别字现象等外界因素,还需要再进行简单的人工排查干预,判断聊天记录是否可疑,判定群情报信息为敏感词汇,采取预防处置,并且对群情报信息进行预防处置和归档操作。
具体预防处置和归档处置流程如下:
根据敏感词汇语句,确定敏感词汇语句发布者身份信息;可以理解的,研判后得到的聊天记录,可获取社交软件如微信、QQ的ID信息,由于注册微信、 QQ的时候是和身份证认证注册的,所以通过ID信息即可获取信息发布人员的身份证号码,确定敏感词汇语句发布者身份信息。
根据发布者身份信息,进行事前核处;当获取到敏感词汇语句发布者身份信息后,如果敏感事件并未发生,可对其进行教育训诫、警告、或群内正面发声,防止敏感事件发生,达到事前核处目的;
当敏感事件发生前无法阻止时,例如非法集会等事件,则要产生非法事件预警信号,减少事件对社会公众危害。并在事件发生过程中进行事先处置和事件发生后进行事后追处;最后将所述整个将所述历史数据进行汇总和研判处置流程记录进行归档。
本发明实施例所提供的一种基于AI语义分析的群情报信息研判方法,利用利用词频-逆向文件频率算法对所述群情报信息进行AI语义分析,获取敏感词汇语句;利用余弦相似性算法对所述敏感词汇语句进行分析,对所述敏感词汇语句进行过滤;能将群情报信息大部分无用信息进行筛除,解决了现有技术群情报信息研判需要手工操作,工作量大,自动化低的问题。并且对敏感词汇语句判定后,能将历史数据进行汇总和研判处置流程记录进行归档,对以后的历史数据查阅实现一个闭环的处置流程展示。
实施例2
本发明实施例公开了一种基于AI语义分析的群情报信息研判系统,其特征在于,包括:群情报信息获取模块、AI语义分析模块、语义判定模块、归档操作模块;
群情报信息获取模块,用于获取并导入群情报信息;具体的,所述群情报信息为社交软件群聊天记录,社交软件群可以指代微信、QQ聊天信息;公安系统上级批准,通过相关运营商获取群情报信息,并将微信、QQ聊天信息导入群情报研判系统,作为敏感词汇语句分析样本。这里的敏感词汇一般指对国家社会会造成危害的词汇。
将聊天信息导入表格,得到类型、群号、内容、地区、时间等信息,具体如如表一,再此不再进行赘述。
AI语义分析模块,用于利用词频-逆向文件频率算法对所述群情报信息进行 AI语义分析,获取敏感词汇语句;利用余弦相似性算法对所述敏感词汇语句进行分析,对所述敏感词汇语句进行过滤;
在一些优选实施例中,AI语义分析模块包括词频-逆向文件频率算法模块和余弦相似性算法模块;
词频-逆向文件频率算法模块,用于利用词频-逆向文件频率算法对所述群情报信息进行AI语义分析,获取敏感词汇语句;词频-逆向文件频率算法模块具体算法公式和过程已在实施例一中进行举例描述,再此不再进行赘述。
余弦相似性算法模块,用于利用余弦相似性算法对所述敏感词汇语句进行分析,对所述敏感词汇语句进行过滤。余弦相似性算法模块模块具体算法公式和过程已在实施例一中进行举例描述,再此不再进行赘述。
语义判定模块,对敏感词汇语句进行判定;因存在打字错别字现象等外界因素,还需要再进行简单的人工排查干预,判断聊天记录是否可疑,判定群情报信息为敏感词汇,采取预防处置,并且对群情报信息进行预防处置和归档操作。
归档操作模块,根据敏感词汇语句判定结果,进行预防处置和归档操作。具体预防处置和归档处置流程如下:
根据敏感词汇语句,确定敏感词汇语句发布者身份信息;可以理解的,研判后得到的聊天记录,可获取社交软件如微信、QQ的ID信息,由于注册微信、 QQ的时候是和身份证认证注册的,所以通过ID信息即可获取信息发布人员的身份证号码,确定敏感词汇语句发布者身份信息。
根据发布者身份信息,进行事前核处;当获取到敏感词汇语句发布者身份信息后,如果敏感事件并未发生,可对其进行教育训诫、警告、或群内正面发声,防止敏感事件发生,达到事前核处目的。
当敏感事件发生前无法阻止时,例如非法集会等事件,则要产生非法事件预警信号,减少事件对社会公众危害。并在事件发生过程中进行事先处置和事件发生后进行事后追处;最后将所述整个将所述历史数据进行汇总和研判处置流程记录进行归档。
本发明实施例所提供的一种基于AI语义分析的群情报信息研判系统,利用利用词频-逆向文件频率算法对所述群情报信息进行AI语义分析,获取敏感词汇语句;利用余弦相似性算法对所述敏感词汇语句进行分析,对所述敏感词汇语句进行过滤;能将群情报信息大部分无用信息进行筛除,解决了现有技术群情报信息研判需要手工操作,工作量大,自动化低的问题。并且对敏感词汇语句判定后,能将历史数据进行汇总和研判处置流程记录进行归档,对以后的历史数据查阅实现一个闭环的处置流程展示。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、 EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC 可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
机译: 一种基于AI和学习设备的基于AI的深度学习网络的方法
机译: 一种基于指针的对象获取方法,用于基于自然语言对机器人或机器人的AI的AI信息进行抽象处理
机译: AR AI一种通过虚拟角色的定制学习提供基于AR的主题旅行AI培训的系统