首页> 中国专利> 基于正则表达式的极端行为识别方法与装置、设备及介质

基于正则表达式的极端行为识别方法与装置、设备及介质

摘要

本公开提供了基于正则表达式的极端行为识别方法与装置、设备及介质。该方法的一具体实施方式包括:获取待识别接处警文本;确定待识别接处警文本对应的文本片段集合;对于文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定极端行为识别正则表达式集合中与该文本片段对应的极端行为识别正则表达式;响应于确定该文本片段与所确定的极端行为识别正则表达式匹配,将该文本片段确定为极端行为描述文本;用文本片段集合中确定为极端行为描述文本的各文本片段生成与待识别接处警文本对应的极端行为描述文本集合。该实施方式实现了自动识别接处警文本中的极端行为描述文本。

著录项

  • 公开/公告号CN113111238A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 北京明亿科技有限公司;

    申请/专利号CN202010349014.X

  • 发明设计人 彭涛;赵伟;高丽青;

    申请日2020-04-28

  • 分类号G06F16/903(20190101);G06F16/35(20190101);G06Q50/18(20120101);

  • 代理机构11780 北京植德律师事务所;

  • 代理人唐华东

  • 地址 100021 北京市朝阳区北苑东路19号院铁建广场5号楼1506室

  • 入库时间 2023-06-19 11:49:09

说明书

技术领域

本公开涉及计算机技术领域,具体涉及基于正则表达式的极端行为识别方法与装置、设备及介质。

背景技术

公安机关在接警后会生成接警文本,在处警后会生成处警文本。接处警文本即包括上述接警文本和处警文本。实践中,有的接处警文本中会涉及对社会危害比较大的极端行为的描述。正是由于极端行为对社会的危害性,公安机关发现这种极端行为后会进行特别处理,例如立即上报给上级公安机关等待进一步指示等。因此,识别出接处警文本中是否包括对极端行为的描述是非常重要的。

然而,目前基本是靠人工提取接处警文本中的极端行为描述文本,所需的人力和时间成本较高,且由于接处警文本大多采用自然语言描述、表达方式严重口语化且无规则,人工提取难度较高,依赖于人工经验,即人工提取极端行为过程中学习成本较高。

发明内容

本公开提出了基于正则表达式的极端行为识别方法与装置、设备及介质。

第一方面,本公开提供了一种基于正则表达式的极端行为识别方法,该方法包括:获取待识别接处警文本;确定上述待识别接处警文本对应的文本片段集合,其中,文本片段属于上述待识别接处警文本;对于上述文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定极端行为识别正则表达式集合中与该文本片段对应的极端行为识别正则表达式,其中,每个极端行为识别正则表达式对应有文本长度范围,该文本片段的文本长度在所确定的与该文本片段对应的极端行为识别正则表达式对应的文本长度范围内;响应于确定该文本片段与所确定的极端行为识别正则表达式匹配,将该文本片段确定为极端行为描述文本;用上述文本片段集合中确定为极端行为描述文本的各文本片段生成与上述待识别接处警文本对应的极端行为描述文本集合。

在一些可选的实施方式中,上述确定上述待识别接处警文本对应的文本片段集合,其中,文本片段属于上述待识别接处警文本,包括:将通过滑动窗口截取上述待识别接处警文本中的片段所得到的各文本片段确定为上述文本片段集合。

在一些可选的实施方式中,上述将通过滑动窗口截取上述待识别接处警文本中的片段所得到的各文本片段确定为上述文本片段集合,包括:新建空的文本片段集合;对于1到N之间的每个正整数n,执行文本片段截取操作,其中,上述 N为上述待识别接处警文本的文本长度,上述文本片段截取操作包括:将滑动窗口的起点确定为上述待识别接处警文本的首字符,以及将上述滑动窗口的窗口长度确定为该正整数n;执行以下滑动窗口文本截取操作:截取上述待识别接处警文本中上述滑动窗口对应的文本,将截取得到的文本添加到上述文本片段集合,以及按照预设步长向后滑动上述滑动窗口,响应于确定上述滑动窗口的终点在上述待识别接处警文本内,继续执行上述滑动窗口文本截取操作;响应于确定上述滑动窗口的终点不在上述待识别接处警文本内,结束上述滑动窗口文本截取操作。

在一些可选的实施方式中,上述极端行为识别正则表达式集合是通过如下训练步骤预先训练得到的:获取历史极端行为描述文本片段集合和测试样本集合,其中,历史极端行为描述文本片段用于描述极端行为,测试样本包括历史接处警文本片段和对应的用于表征该历史接处警文本片段是否用于描述极端行为的标注信息;对于预设候选正则表达式数目集合中的候选正则表达式数目M,执行M 个候选正则表达式生成操作以生成M个候选正则表达式,以及基于上述测试样本集合对所生成的M个候选正则表达式进行测试以确定与候选正则表达式数目 M对应的准确率,其中,上述M个候选正则表达式生成操作包括:根据上述历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度,将上述历史极端行为描述文本片段集合划分成M个历史极端行为描述文本片段子集合,以及基于所得到的每个历史极端行为描述文本片段子集合,生成与该历史极端行为描述文本片段子集合对应的候选正则表达式;将所生成的最优正则表达式数目个候选正则表达式确定为上述极端行为识别正则表达式集合,其中,上述最优正则表达式数目为上述候选正则表达式数目集合中对应的准确率最高的候选正则表达式数目,上述极端行为识别正则表达式集合中每个极端行为识别正则表达式对应的文本长度范围为生成该极端行为识别正则表达式所基于的历史极端行为描述文本片段子集合中的各历史极端行为描述文本片段的文本长度对应的文本长度范围。

在一些可选的实施方式中,上述根据上述历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度,将上述历史极端行为描述文本片段集合划分成M个历史极端行为描述文本片段子集合,包括:将第一长度减去第二长度的差确定为编辑长度,其中,上述第一长度为上述历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度中的最长文本长度,上述第二长度为上述历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度中的最短文本长度;将对上述编辑长度除以M的商向上取整所得的整数确定为该候选正则表达式数目M对应的子集合文本长度差;对于上述历史极端行为描述文本片段集合中的每个历史极端行为描述文本片段,执行以下分组操作:将该历史极端行为描述文本片段的文本长度减去上述第二长度的差确定为D;将对D除以该候选正则表达式数目M对应的子集合文本长度差的商向上取整所得的正整数确定为I;将该历史极端行为描述文本片段分到第I个历史极端行为描述文本片段子集合,其中,I为1到M之间的正整数。

在一些可选的实施方式中,上述根据该文本片段的文本长度,确定极端行为识别正则表达式集合中与该文本片段对应的极端行为识别正则表达式,包括:将上述待识别接处警文本的文本长度减去上述第二长度所得到的差确定为D’;将对 D’除以与上述最优候选表达式数目对应的子集合文本长度差的商向上取整所得的正整数确定为I’;将上述极端行为识别正则表达式集合中基于第I’个历史极端行为描述文本片段子集合所生成的正则表达式确定为与该文本片段对应的极端行为识别正则表达式。

第二方面,本公开提供了一种基于正则表达式的极端行为识别装置,该装置包括:获取单元,被配置成获取待识别接处警文本;文本片段确定单元,被配置成确定上述待识别接处警文本对应的文本片段集合,其中,文本片段属于上述待识别接处警文本;识别单元,被配置成对于上述文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定极端行为识别正则表达式集合中与该文本片段对应的极端行为识别正则表达式,其中,每个极端行为识别正则表达式对应有文本长度范围,该文本片段的文本长度在所确定的与该文本片段对应的极端行为识别正则表达式对应的文本长度范围内;响应于确定该文本片段与所确定的极端行为识别正则表达式匹配,将该文本片段确定为极端行为描述文本;生成单元,被配置成用上述文本片段集合中确定为极端行为描述文本的各文本片段生成与上述待识别接处警文本对应的极端行为描述文本集合。

在一些可选的实施方式中,上述文本片段确定单元进一步被配置成:将通过滑动窗口截取上述待识别接处警文本中的片段所得到的各文本片段确定为上述文本片段集合。

在一些可选的实施方式中,上述将通过滑动窗口截取上述待识别接处警文本中的片段所得到的各文本片段确定为上述文本片段集合,包括:新建空的文本片段集合;对于1到N之间的每个正整数n,执行文本片段截取操作,其中,上述 N为上述待识别接处警文本的文本长度,上述文本片段截取操作包括:将滑动窗口的起点确定为上述待识别接处警文本的首字符,以及将上述滑动窗口的窗口长度确定为该正整数n;执行以下滑动窗口文本截取操作:截取上述待识别接处警文本中上述滑动窗口对应的文本,将截取得到的文本添加到上述文本片段集合,以及按照预设步长向后滑动上述滑动窗口,响应于确定上述滑动窗口的终点在上述待识别接处警文本内,继续执行上述滑动窗口文本截取操作;响应于确定上述滑动窗口的终点不在上述待识别接处警文本内,结束上述滑动窗口文本截取操作。

在一些可选的实施方式中,上述极端行为识别正则表达式集合是通过如下训练步骤预先训练得到的:获取历史极端行为描述文本片段集合和测试样本集合,其中,历史极端行为描述文本片段用于描述极端行为,测试样本包括历史接处警文本片段和对应的用于表征该历史接处警文本片段是否用于描述极端行为的标注信息;对于预设候选正则表达式数目集合中的候选正则表达式数目M,执行M 个候选正则表达式生成操作以生成M个候选正则表达式,以及基于上述测试样本集合对所生成的M个候选正则表达式进行测试以确定与候选正则表达式数目 M对应的准确率,其中,上述M个候选正则表达式生成操作包括:根据上述历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度,将上述历史极端行为描述文本片段集合划分成M个历史极端行为描述文本片段子集合,以及基于所得到的每个历史极端行为描述文本片段子集合,生成与该历史极端行为描述文本片段子集合对应的候选正则表达式;将所生成的最优正则表达式数目个候选正则表达式确定为上述极端行为识别正则表达式集合,其中,上述最优正则表达式数目为上述候选正则表达式数目集合中对应的准确率最高的候选正则表达式数目,上述极端行为识别正则表达式集合中每个极端行为识别正则表达式对应的文本长度范围为生成该极端行为识别正则表达式所基于的历史极端行为描述文本片段子集合中的各历史极端行为描述文本片段的文本长度对应的文本长度范围。

在一些可选的实施方式中,上述根据上述历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度,将上述历史极端行为描述文本片段集合划分成M个历史极端行为描述文本片段子集合,包括:将第一长度减去第二长度的差确定为编辑长度,其中,上述第一长度为上述历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度中的最长文本长度,上述第二长度为上述历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度中的最短文本长度;将对上述编辑长度除以M的商向上取整所得的整数确定为该候选正则表达式数目M对应的子集合文本长度差;对于上述历史极端行为描述文本片段集合中的每个历史极端行为描述文本片段,执行以下分组操作:将该历史极端行为描述文本片段的文本长度减去上述第二长度的差确定为D;将对D除以该候选正则表达式数目M对应的子集合文本长度差的商向上取整所得的正整数确定为I;将该历史极端行为描述文本片段分到第I个历史极端行为描述文本片段子集合,其中,I为1到M之间的正整数。

在一些可选的实施方式中,上述根据该文本片段的文本长度,确定极端行为识别正则表达式集合中与该文本片段对应的极端行为识别正则表达式,包括:将上述待识别接处警文本的文本长度减去上述第二长度所得到的差确定为D’;将对D’除以与上述最优候选表达式数目对应的子集合文本长度差的商向上取整所得的正整数确定为I’;将上述极端行为识别正则表达式集合中基于第I’个历史极端行为描述文本片段子集合所生成的正则表达式确定为与该文本片段对应的极端行为识别正则表达式。

第三方面,本公开提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被一个或多个处理器执行时实现如第一方面中任一实现方式描述的方法。

本公开提供的基于正则表达式的极端行为识别方法和装置,通过生成待识别接处警文本对应的文本片段集合。再对于文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定极端行为识别正则表达式集合中与该文本片段对应的极端行为识别正则表达式,其中,每个极端行为识别正则表达式对应有文本长度范围,该文本片段的文本长度在所确定的与该文本片段对应的极端行为识别正则表达式对应的文本长度范围内;响应于确定该文本片段与所确定的极端行为识别正则表达式匹配,将该文本片段确定为极端行为描述文本。最后,用文本片段集合中确定为极端行为描述文本的各文本片段生成与待识别接处警文本对应的极端行为描述文本集合。整个过程无需人工操作,降低了生成与待识别接处警文本对应的极端行为描述文本集合的人工成本,并且通过将待识别接处警文本对应的文本片段集合中的文本片段与极端行为识别正则表达式集合中与该文本片段的文本长度对应的极端行为识别正则表达式进行匹配,进而确定该文本片段是否为极端行为描述文本,而不是与极端行为识别正则表达式集合中每个极端行为识别正则表达式进行匹配,减少了计算量继而提高了最终生成与待识别接处警文本对应的极端行为描述文本集合的速度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:

图1是本公开的一个实施例可以应用于其中的示例性系统架构图;

图2是根据本公开的基于正则表达式的极端行为识别方法的一个实施例的流程图;

图3A是根据本公开的训练步骤的一个实施例的流程图;

图3B是根据本公开的M个候选正则表达式生成操作的一个实施例的流程图;

图3C示出了图3B所示的实施例中步骤30211一个实施例的分解流程图;

图4是根据本公开的基于正则表达式的极端行为识别装置的一个实施例的结构示意图;

图5是适于用来实现本公开的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的基于正则表达式的极端行为识别方法或基于正则表达式的极端行为识别装置的实施例的示例性系统架构100。

如图1所示,系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102 可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如接处警记录类应用、接处警文本极端行为识别类应用、网页浏览器应用等。

终端设备101可以是硬件,也可以是软件。当终端设备101为硬件时,可以是具有显示屏并且支持文本输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供接处警文本极端行为识别服务),也可以实现成单个软件或软件模块。在此不做具体限定。

服务器103可以是提供各种服务的服务器,例如对终端设备101发送的接处警文本提供极端行为识别服务的后台服务器。后台服务器可以对接收到的接处警文本进行分析等处理,并将处理结果(例如极端行为描述文本集合)反馈给终端设备。

在一些情况下,本公开所提供的基于正则表达式的极端行为识别方法可以由终端设备101和服务器103共同执行,例如,“获取待识别接处警文本”的步骤可以由终端设备101执行,其余步骤可以由服务器103执行。本公开对此不做限定。相应地,基于正则表达式的极端行为识别装置也可以分别设置于终端设备101 和服务器103中。

在一些情况下,本公开所提供的基于正则表达式的极端行为识别方法可以由服务器103执行,相应地,基于正则表达式的极端行为识别装置也可以设置于服务器103中,这时,系统架构100也可以不包括终端设备101。

在一些情况下,本公开所提供的基于正则表达式的极端行为识别方法可以由终端设备101执行,相应地,基于正则表达式的极端行为识别装置也可以设置于终端设备101中,这时,系统架构100也可以不包括服务器103。

需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供接处警文本极端行为识别服务),也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,其示出了根据本公开的基于正则表达式的极端行为识别方法的一个实施例的流程200。该基于正则表达式的极端行为识别方法,包括以下步骤:

步骤201,获取待识别接处警文本。

在本实施例中,基于正则表达式的极端行为识别方法的执行主体(例如,图 1所示的服务器)可以获取本地存储的待识别接处警文本,或者上述执行主体也可以远程地从与上述执行主体网络连接的其他电子设备(例如,图1所示的终端设备)获取待识别接处警文本。

这里,待识别接处警文本可以是接警员根据接警电话的内容整理的文本数据或者处警员根据处警过程整理的文本数据。待识别接处警文本也可以是从终端设备接收的用户在终端设备上安装的报警类应用或者具备报警功能的网页中输入的报警文本。

步骤202,确定待识别接处警文本对应的文本片段集合。

为了生成待识别接处警文本中的极端行为描述文本,在本实施例中,上述执行主体可以采用各种实现方式确定待识别接处警文本对应的文本片段集合。其中,待识别接处警文本对应的文本片段集合中的文本片段属于待识别接处警文本,即待识别接处警文本对应的文本片段集合中的文本片段可以是待识别接处警文本中的一段文本或者是待识别接处警文本本身。

作为示例,上述执行主体可以对待识别接处警文本进行分词处理,得到待识别接处警文本对应的分词序列,将所得到的分词序列中的各分词确定为与待识别接处警文本对应的文本片段集合。

在一些可选的实施方式中,步骤202也可以如下进行:将通过滑动窗口截取待识别接处警文本中的片段所得到的各文本片段确定为文本片段集合。这里,滑动窗口的长度可以是任何大于1且小于等于待识别接处警文本的文本长度的正整数,且滑动窗口的长度是可以变化的。这里,滑动窗口的滑动步长可以是任何大于1且小于等于待识别接处警文本的文本长度的正整数,且滑动窗口的滑动步长也是可以变化的。为了遍历待识别接处警文本中的所有可能性的文本片段,可选地,步骤202可以具体如下执行:

首先,新建空的文本片段集合。

然后,对于1到N之间的每个正整数n,执行文本片段截取操作。

这里,N为待识别接处警文本的文本长度,文本片段截取操作可以包括:

第一步,将滑动窗口的起点确定为待识别接处警文本的首字符,以及将滑动窗口的窗口长度确定为该正整数n。

第二步,执行以下滑动窗口文本截取操作:截取待识别接处警文本中滑动窗口对应的文本,将截取得到的文本添加到文本片段集合,以及按照预设步长向后滑动滑动窗口,响应于确定滑动窗口的终点在待识别接处警文本内,继续执行滑动窗口文本截取操作;响应于确定滑动窗口的终点不在待识别接处警文本内,结束滑动窗口文本截取操作。

为便于理解,下面对上述可选实施方式举例说明。

假设待识别接处警文本为“报警人称某小区有人高空抛物造成人员受伤”,则待识别接处警文本的文本长度N为19,假设预设步长为1,基于上述可选实施方式的步骤202可以如下进行:

首先,新建空的文本片段集合。

然后,对于1到19之间的每个正整数n,执行文本片段截取操作。

当n为1时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下19个文本片段:报|警|人|称|某|小|区|有|人|高|空|抛|物|造|成|人|员|受|伤。

当n为2时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下18个文本片段:报警|警人|人称|称某|某小|小区|区有|有人|人高|高空|空抛| 抛物|物造|造成|成人|人员|员受|受伤。

当n为3时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下17个文本片段:报警人|警人称|人称某|称某小|某小区|小区有|区有人|有人高|人高空|高空抛|空抛物|抛物造|物造成|造成人|成人员|人员受|员受伤。

当n为4时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下16个文本片段:报警人称|警人称某|人称某小|称某小区|某小区有|小区有人|区有人高|有人高空|人高空抛|高空抛物|空抛物造|抛物造成|物造成人|造成人员 |成人员受|人员受伤。

当n为5时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下15个文本片段:报警人称某|警人称某小|人称某小区|称某小区有|某小区有人|小区有人高|区有人高空|有人高空抛|人高空抛物|高空抛物造|空抛物造成|抛物造成人|物造成人员|造成人员受|成人员受伤。

当n为6时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下14个文本片段:报警人称某小|警人称某小区|人称某小区有|称某小区有人 |某小区有人高|小区有人高空|区有人高空抛|有人高空抛物|人高空抛物造|高空抛物造成|空抛物造成人|抛物造成人员|物造成人员受|造成人员受伤。

当n为7时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下13个文本片段:报警人称某小区|警人称某小区有|人称某小区有人|称某小区有人高|某小区有人高空|小区有人高空抛|区有人高空抛物|有人高空抛物造|人高空抛物造成|高空抛物造成人|空抛物造成人员|抛物造成人员受|物造成人员受伤。

当n为8时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下12个文本片段:报警人称某小区有|警人称某小区有人|人称某小区有人高 |称某小区有人高空|某小区有人高空抛|小区有人高空抛物|区有人高空抛物造|有人高空抛物造成|人高空抛物造成人|高空抛物造成人员|空抛物造成人员受|抛物造成人员受伤。

当n为9时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下11个文本片段:报警人称某小区有人|警人称某小区有人高|人称某小区有人高空|称某小区有人高空抛|某小区有人高空抛物|小区有人高空抛物造|区有人高空抛物造成|有人高空抛物造成人|人高空抛物造成人员|高空抛物造成人员受|空抛物造成人员受伤。

当n为10时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下10个文本片段:报警人称某小区有人高|警人称某小区有人高空|人称某小区有人高空抛|称某小区有人高空抛物|某小区有人高空抛物造|小区有人高空抛物造成|区有人高空抛物造成人|有人高空抛物造成人员|人高空抛物造成人员受|高空抛物造成人员受伤。

当n为11时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下9个文本片段:报警人称某小区有人高空|警人称某小区有人高空抛|人称某小区有人高空抛物|称某小区有人高空抛物造|某小区有人高空抛物造成|小区有人高空抛物造成人|区有人高空抛物造成人员|有人高空抛物造成人员受|人高空抛物造成人员受伤。

当n为12时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下8个文本片段:报警人称某小区有人高空抛|警人称某小区有人高空抛物 |人称某小区有人高空抛物造|称某小区有人高空抛物造成|某小区有人高空抛物造成人|小区有人高空抛物造成人员|区有人高空抛物造成人员受|有人高空抛物造成人员受伤。

当n为13时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下7个文本片段:报警人称某小区有人高空抛物|警人称某小区有人高空抛物造|人称某小区有人高空抛物造成|称某小区有人高空抛物造成人|某小区有人高空抛物造成人员|小区有人高空抛物造成人员受|区有人高空抛物造成人员受伤。

当n为14时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下6个文本片段:报警人称某小区有人高空抛物造|警人称某小区有人高空抛物造成|人称某小区有人高空抛物造成人|称某小区有人高空抛物造成人员|某小区有人高空抛物造成人员受|小区有人高空抛物造成人员受伤。

当n为15时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下5个文本片段:报警人称某小区有人高空抛物造成|警人称某小区有人高空抛物造成人|人称某小区有人高空抛物造成人员|称某小区有人高空抛物造成人员受|某小区有人高空抛物造成人员受伤。

当n为16时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下4个文本片段:报警人称某小区有人高空抛物造成人|警人称某小区有人高空抛物造成人员|人称某小区有人高空抛物造成人员受|称某小区有人高空抛物造成人员受伤。

当n为17时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下3个文本片段:报警人称某小区有人高空抛物造成人员|警人称某小区有人高空抛物造成人员受|人称某小区有人高空抛物造成人员受伤。

当n为18时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下2个文本片段:报警人称某小区有人高空抛物造成人员受|警人称某小区有人高空抛物造成人员受伤。

当n为19时,执行文本片段截取操作后添加到文本片段集合中的文本片段包括以下1个文本片段:报警人称某小区有人高空抛物造成人员受伤。

经过上述n从1到14对应的文本片段截取操作,得到了包括上述190 (19+18+17+16+15+14+13+12+11+10+9+8+7+6+5+4+3+2+1=190)个文本片段的文本片段集合。

步骤203,对于文本片段集合中的文本片段,执行识别操作。

在本实施例中,上述执行主体可以对于步骤202中所确定的文本片段集合中的文本片段,执行识别操作。其中,识别操作具体可以如下进行:

首先,根据该文本片段的文本长度,确定极端行为识别正则表达式集合中与该文本片段对应的极端行为识别正则表达式。

这里,每个极端行为识别正则表达式集合中的每个极端行为识别正则表达式均对应有文本长度范围,该文本片段的文本长度在所确定的与该文本片段对应的极端行为识别正则表达式对应的文本长度范围内,也可以认为每个极端行为识别正则表达式适合识别文本长度在该极端行为识别正则表达式对应的文本长度范围内的文本片段是否是极端行为描述文本。

其次,响应于确定该文本片段与所确定的极端行为识别正则表达式匹配,将该文本片段确定为极端行为描述文本。

即,如果确定该文本片段与上述所确定的极端行为识别正则表达式匹配,可以认为该文本片段为极端行为描述文本。

需要说明的是,极端行为识别正则表达式集合中的极端行为识别正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个极端行为识别正则表达式和另一个字符串可以确定给定的字符串是否匹配该极端行为识别正则表达式的过滤逻辑。因此,上述执行主体(例如,图1所示的服务器)可以确定该文本片段是否与所确定的极端行为识别正则表达式匹配。而如何确定一个正则表达式与另一个字符串是否匹配是本领域广泛研究和应用的现有技术,在此不再赘述。

在一些可选的实施方式中,极端行为识别正则表达式集合可以是通过如下操作得到的:首先,对从历史接处警文本中提取的极端行为描述文本片段集合根据每个极端行为描述文本片段的文本长度进行分组,得到至少两个极端行为描述文本片段子集合,其中,每个极端行为描述文本片段子集合对应的文本长度范围为从该极端行为描述文本片段子集合中文本长度最短的文本片段的文本长度到该极端行为描述文本片段子集合中文本长度最长的文本片段的文本长度之间。然后,对于每个极端行为描述文本片段子集合,由技术人员根据该极端行为描述文本片段子集合进行统计分析、制定相应的极端行为识别正则表达式并存储到上述执行主体,其中,所制定的极端行为识别正则表达式对应的文本长度范围可以是该极端行为描述文本片段子集合对应的文本长度范围。

在一些可选的实施方式中,极端行为识别正则表达式集合可以是通过如图3 所示的训练步骤预先训练得到的。请参考图3,图3示出了根据本公开的训练步骤的一个实施例的流程图。该训练步骤的流程300可以包括以下步骤:

步骤301,获取历史极端行为描述文本片段集合和测试样本集合。

这里,训练步骤的执行主体可以与上述基于正则表达式的极端行为识别方法的执行主体相同。这样,训练步骤的执行主体可以在训练得到极端行为识别正则表达式集合后,将极端行为识别正则表达式集合存储在上述执行主体本地,并在执行上述基于正则表达式的极端行为识别方法的过程中读取上述训练得到的极端行为识别正则表达式集合。

这里训练步骤的执行主体也可以与上述基于正则表达式的极端行为识别方法的执行主体不同。这样,训练步骤的执行主体可以在训练得到极端行为识别正则表达式集合后,将极端行为识别正则表达式集合发送给上述基于正则表达式的极端行为识别方法的执行主体。这样,上述基于正则表达式的极端行为识别方法的执行主体可以在执行上述基于正则表达式的极端行为识别方法的过程中读取上述从训练步骤的执行主体接收到的极端行为识别正则表达式集合。

这里,训练步骤的执行主体可以首先获取历史极端行为描述文本片段集合和测试样本集合。

这里,历史极端行为描述文本片段可以是历史接处警文本中用于描述极端行为的文本片段。实践中,可以采用人工方式对历史接处警文本进行标注并提取其中的用于描述极端行为的文本片段来得到历史极端行为描述文本片段。

这里,测试样本集合中的测试样本可以包括历史接处警文本片段和对应的用于表征该历史接处警文本片段是否用于描述极端行为的标注信息。即,测试样本中的历史接处警文本片段可以用于描述极端行为或者不用于描述极端行为。实践中,测试样本也可以通过人工对历史接处警文本进行标注得到。

在一些可选的实施方式中,历史极端行为描述文本片段集合中极端行为描述文本片段的数量与测试样本集合中测试样本数量的比值可以在第一预设比例范围内。实践中,为了减少人工标注的工作量,一般而言,第一预设比例可以大于 1,即用于训练极端行为识别正则表达式集合的历史极端行为描述文本片段的数量应多于用于测试的测试样本数量,以确保大量的数据用于训练而少量数据用于测试。

在一些可选的实施方式中,测试样本集合中的正样本数量和负样本数量的比值可以在第二预设比例范围内,即,不能正样本太多负样本太少,或者也不能负样本太多而正样本太少。作为示例,第二预设比例范围可以是在大于等于0.6且小于等于1.6之间。其中,测试样本集合中的正样本为标注信息用于表征该历史接处警文本片段用于描述极端行为的测试样本,测试样本集合中的负样本为标注信息用于表征该历史接处警文本片段不用于描述极端行为的测试样本。

步骤302,对于预设候选正则表达式数目集合中的候选正则表达式数目M,执行M个候选正则表达式生成操作以生成M个候选正则表达式,以及基于测试样本集合对所生成的M个候选正则表达式进行测试以确定与候选正则表达式数目M对应的准确率。

这里,训练步骤的执行主体可以对于预设候选正则表达式数目集合中的候选正则表达式数目M,执行步骤3021和步骤3022。

这里,预设候选正则表达式数目集合可以是由技术人员预先制定的存储有至少一个候选正则表达式数目的集合。预设候选正则表达式数目集合可以是由连续的正整数组成的,例如:{1,2,3,4,5,6,7,8};预设候选正则表达式数目集合也可以是由不连续的正整数组成的,例如:{1,3,4,6,9};或者预设候选正则表达式数目集合还可以是由按照预设常量递增的多个正整数组成的,例如: {2,4,6,8,10}。

步骤3021,执行M个候选正则表达式生成操作以生成M个候选正则表达式。

这里,关于M个候选正则表达式生成操作请参考图3B,图3B示出了根据本公开的M个候选正则表达式生成操作的一个实施例的流程。如图3B所示,M 个候选正则表达式生成操作可以包括如下步骤30211和步骤30212:

步骤30211,根据历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度,将历史极端行为描述文本片段集合划分成M个历史极端行为描述文本片段子集合。

这里,训练步骤的执行主体可以采用各种实现方式根据历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度,将历史极端行为描述文本片段集合划分成M个历史极端行为描述文本片段子集合。

在一些可选的实施方式中,步骤30211可以如下进行:首先,确定历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度的文本长度范围,其中,所确定的文本长度范围为大于等于第二长度且小于等于第一长度,第一长度为历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度中的最长文本长度,第二长度为历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度中的最短文本长度。然后,将上述所确定的文本长度范围划分为M个文本长度子范围。最后,对于M个文本长度子范围中的每个文本长度子范围,用历史极端行为描述文本片段集合中文本长度在该文本长度子范围内的各历史极端行为描述文本片段生成与该文本长度子范围对应的历史极端行为描述文本片段子集合。

在一些可选的实施方式中,步骤30211还可以按照如图3C所示的流程30211 进行。请参考图3C,图3C示出了图3B所示的实施例中步骤30211的一个实施例的分解流程图,该流程30211可以包括以下步骤:

步骤302111,将第一长度减去第二长度的差确定为编辑长度。

这里,第一长度可以为历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度中的最长文本长度,而第二长度可以为历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度中的最短文本长度。

例如,历史极端行为描述文本片段集合中有80个历史极端行为描述文本片段,其中最长文本长度为67,最短文本长度为19,即第一长度为67,第二长度为19,则这里编辑长度为67减去19的差,即48。

步骤302112,将对编辑长度除以M的商向上取整所得的整数确定为该候选正则表达式数目M对应的子集合文本长度差。

这里,继续沿用上述关于第一长度、第二长度举例可知编辑长度为48,假设 M为5,则候选正则表达式数目5对应的子集合文本长度差为对48除以5的商向上取整所得的整数10。

步骤302113,对于历史极端行为描述文本片段集合中的每个历史极端行为描述文本片段,执行分组操作。

这里,分组操作可以如下进行:

首先,将该历史极端行为描述文本片段的文本长度减去第二长度的差确定为 D。

然后,将对D除以该候选正则表达式数目M对应的子集合文本长度差的商向上取整所得的正整数确定为I。

最后,将该历史极端行为描述文本片段分到第I个历史极端行为描述文本片段子集合。

其中,I为1到M之间的正整数。

为便于理解,下面用公式说明。设第一长度为Max,第二长度为Min,该历史极端行为描述文本片段的文本长度为X,则D可以用如下公式表示:

D=X-Min (公式1)

该候选正则表达式数目M对应的子集合文本长度差Smin可以用如下公式表示:

相应的,I则可以用如下公式表示:

下面具体举例说明,假设第一长度为67,第二长度为19,则编辑长度为48, M为5,那么由上述记载可知,与该候选正则表达式数目M对应的子集合文本长度差为10。

如果该历史极端行为描述文本片段的文本长度大于等于19且小于等于29 (即19+10的和),该历史极端行为描述文本片段会被分到第一个历史极端行为描述文本片段子集合。

如果该历史极端行为描述文本片段的文本长度大于等于30且小于等于39 (即19+2×10的和),该历史极端行为描述文本片段会被分到第二个历史极端行为描述文本片段子集合。

如果该历史极端行为描述文本片段的文本长度大于等于40且小于等于49 (即19+3×10的和),该历史极端行为描述文本片段会被分到第三个历史极端行为描述文本片段子集合。

如果该历史极端行为描述文本片段的文本长度大于等于50且小于等于59 (即19+4×10的和),该历史极端行为描述文本片段会被分到第四个历史极端行为描述文本片段子集合。

如果该历史极端行为描述文本片段的文本长度大于等于60且小于等于67 (即第一长度),该历史极端行为描述文本片段会被分到第五个历史极端行为描述文本片段子集合。

按照上述流程所示的方法所生成的M个历史极端行为描述文本片段子集合中每个历史极端行为描述文本片段子集合中的历史极端行为描述文本片段的文本长度差别在与候选正则表达式数目M对应的子集合文本长度差的范围内,即,同一个历史极端行为描述文本片段子集合中各个历史极端行为描述文本片段的文本长度比较接近,进而同一个历史极端行为描述文本片段子集合中的各个历史极端行为描述文本片段的内容也较接近适合生成相应的极端行为识别正则表达式,因此,基于这种方式得到的历史极端行为描述文本片段子集合所生成的极端行为识别正则表达式也更加适合匹配该历史极端行为描述文本片段子集合。

经过步骤30211,历史极端行为描述文本片段集合被分成M个历史极端行为描述文本片段子集合,且每个历史极端行为描述文本片段子集合中各历史极端行为描述文本片段的文本长度较为接近。

步骤30212,基于所得到的每个历史极端行为描述文本片段子集合,生成与该历史极端行为描述文本片段子集合对应的候选正则表达式。

例如,在步骤301中获取的历史极端行为描述文本片段集合中有100个历史极端行为描述文本片段,假设预设候选正则表达式数目集合为{1,2,3,4,5, 6,7},在执行步骤302的过程中,对于其中的候选正则表达式数目5,执行5个候选正则表达式生成操作以生成5个候选正则表达式。这里的5个候选正则表达式生成操作包括步骤302111和步骤30212,在相应的步骤30211中,将历史极端行为描述文本片段集合分成了5个历史极端行为描述文本片段子集合。这里,在步骤30212中是,对于上述所得到的5个历史极端行为描述文本片段子集合中的每个历史极端行为描述文本片段子集合,基于该历史极端行为描述文本片段子集合生成与该历史极端行为描述文本片段子集合对应的候选正则表达式。因此经过步骤3021最终生成了5个候选正则表达式。

需要说明的是,基于至少一个文本生成正则表达式可以采用各种实现方式。例如,可以将目标重复内容作为正则表达式中的内容,而将目标变化内容在正则表达式中用通配符表示,其中,目标重复内容在至少一个文本中的重复比例大于等于第三预设比例,目标变化内容在至少一个文本中的重复比例小于上述第三预设比例。

步骤3022,基于测试样本集合对所生成的M个候选正则表达式进行测试以确定与候选正则表达式数目M对应的准确率。

这里,训练步骤的执行主体可以基于步骤301中所获取的测试样本集合对上述所生成的M个候选正则表达式进行测试以确定与候选正则表达式数目M对应的准确率。具体而言,训练步骤的执行主体可以对于步骤301中所获取的测试样本集合中的每个测试样本,确定该测试样本中的历史接处警文本片段是否与上述所生成的M个候选正则表达式中的至少一个候选正则表达式匹配,如果确定匹配则表明该测试样本中的历史接处警文本片段用于描述极端行为,再进一步确定该测试样本中的标注信息是否用于表征该历史接处警文本用于描述极端行为,如果确定是,则确定该测试样本相对于上述所生成的M个候选正则表达式为正样本,如果确定否,则确定该测试样本相对于上述所生成的M个候选正则表达式为负样本。最后,将测试样本集合中相对于上述所生成的M个候选正则表达式为正样本的测试样本数目除以测试样本集合中测试样本的总数所得的比值确定为候选正则表达式数目M对应的准确率。

步骤303,将所生成的最优正则表达式数目个候选正则表达式确定为极端行为识别正则表达式集合。

这里,最优正则表达式数目为候选正则表达式数目集合中对应的准确率最高的候选正则表达式数目。极端行为识别正则表达式集合中每个极端行为识别正则表达式对应的文本长度范围为生成该极端行为识别正则表达式所基于的历史极端行为描述文本片段子集合中的各历史极端行为描述文本片段的文本长度对应的文本长度范围,即极端行为识别正则表达式对应的文本长度范围为文本长度大于等于生成该极端行为识别正则表达式所基于的历史极端行为描述文本片段子集合中的各历史极端行为描述文本片段的文本长度最小值且小于等于生成该极端行为识别正则表达式所基于的历史极端行为描述文本片段子集合中的各历史极端行为描述文本片段的文本长度最大值。

举例说明,假设预设候选正则表达式数目集合为{1,2,3,4,5,6,7},按照上述各候选正则表达式数目在上述集合中的顺序,其相应的准确率分别为0.3、 0.5、0.8、0.6、0.5、0.3、0.2,可以看出3为最优正则表达式数目,则这里可以将步骤302中对于预设候选正则表达式数目集合为{1,2,3,4,5,6,7}的候选正则表达式数目3,在执行3个候选正则表达式生成操作过程中所生成的3个候选正则表达式确定为极端行为识别正则表达式集合。

基于图3C所示的可选实现方式,在步骤203中根据该文本片段的文本长度,确定极端行为识别正则表达式集合中与该文本片段对应的极端行为识别正则表达式,可以如下进行:

首先,可以将待识别接处警文本的文本长度减去第二长度所得到的差确定为 D’。

这里,第二长度为步骤301中所记载的,历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度中的最短文本长度。

然后,可以将对D’除以与最优候选表达式数目对应的子集合文本长度差的商向上取整所得的正整数确定为I’。

正如前述所记载的,与最优候选表达式数目对应的子集合文本长度差为对编辑长度除以最优正则表达式数目的商向上取整所得的整数。而其中,编辑长度为历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度中的最长文本长度减去历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度中的最短文本长度的差。

最后,可以将极端行为识别正则表达式集合中基于第I’个历史极端行为描述文本片段子集合所生成的正则表达式确定为与该文本片段对应的极端行为识别正则表达式。

为便于理解,下面具体举例说明按照训练步骤训练得到极端行为识别正则表达式集合的过程:

首先,在步骤301获取了包括100个历史极端行为描述文本片段的历史极端行为描述文本片段集合和20个测试样本。

其次,在步骤302中,首先在步骤3021中对于预设候选正则表达式数目集合{2,4,6}中的每个候选正则表达式数目M,执行M个候选正则表达式生成操作以生成M个候选正则表达式。即共执行了三次上述M个候选正则表达式生成操作,分别生成了2个候选正则表达式、4个候选正则表达式和6个候选正则表达式。然后,在步骤3022中基于步骤301中所获取的20个测试样本分别对上述所生成的2个候选正则表达式、4个候选正则表达式和6个候选正则表达式进行测试,并确定了其中2个候选正则表达式、4个候选正则表达式和6个候选正则表达式对应的准确率分别为0.2、0.9、0.6。

最后,在步骤303中将所生成的4个候选正则表达式确定为极端行为识别正则表达式集合。

上述步骤3021中执行了三次M个候选正则表达式生成操作,其中,这三次操作中M分别为2、4和6,而每次M个候选正则表达式生成操作可以包括步骤 30211和步骤30212。

其中,步骤30211中,根据历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度,将历史极端行为描述文本片段集合划分成M个历史极端行为描述文本片段子集合。步骤30212为基于所得到的每个历史极端行为描述文本片段子集合,生成与该历史极端行为描述文本片段子集合对应的候选正则表达式。

其中,M的取值可以为2,4,6。当M为2时,会将历史极端行为描述文本片段集合分成2个历史极端行为描述文本片段子集合。当M为4时,会将历史极端行为描述文本片段集合分成4个历史极端行为描述文本片段子集合。当M为 6时,会将历史极端行为描述文本片段集合分成6个历史极端行为描述文本片段子集合。具体地,步骤30211又可以包括步骤302111到步骤302113。

在步骤302111中,将第一长度减去第二长度的差确定为编辑长度。

这里,第一长度为历史极端行为描述文本片段集合的100个历史极端行为描述文本片段的文本长度中的最长文本长度,假设为86;而第二长度为历史极端行为描述文本片段集合的100个历史极端行为描述文本片段的文本长度中的最长文本长度,假设为19,则编辑长度为67(即,86-19=67)。则,这里第一长度、第二长度和编辑长度分别是:86、19和67。

在步骤302112中,将对编辑长度除以M的商向上取整所得的整数确定为与候选正则表达式数目M对应的子集合文本长度差。

当M为2时,相应的子集合文本长度差为对67除以2的商向上取整所得的整数34。

当M为4时,相应的子集合文本长度差为对67除以4的商向上取整所得的整数17。

当M为6时,相应的子集合文本长度差为对67除以6的商向上取整所得的整数12。

在步骤302113中,对于历史极端行为描述文本片段集合的100个历史极端行为描述文本片段中的每个历史极端行为描述文本片段,执行分组操作。

设该历史极端行为描述文本片段的文本长度为X,那么根据上述记载,可以得到以下结论:

当M为2时,相应的子集合文本长度差为34,则将该历史极端行为描述文本片段分到第I个历史极端行为描述文本片段子集合,其中,I可以由以下公式计算得到:

即,可以得出以下结论:

19≤X≤53,I=1,即该历史极端行为描述文本片段会被分到第1个历史极端行为描述文本片段子集合,设为A1。

54≤X≤86,I=2,即该历史极端行为描述文本片段会被分到第2个历史极端行为描述文本片段子集合,设为A2。

当M为4时,相应的子集合文本长度差为17,则将该历史极端行为描述文本片段分到第I个历史极端行为描述文本片段子集合,其中,I可以由以下公式计算得到:

即,可以得出以下结论:

19≤X≤36,I=1,即该历史极端行为描述文本片段会被分到第1个历史极端行为描述文本片段子集合,设为B1。

37≤X≤53,I=2,即该历史极端行为描述文本片段会被分到第2个历史极端行为描述文本片段子集合,设为B2。

54≤X≤70,I=3,即该历史极端行为描述文本片段会被分到第3个历史极端行为描述文本片段子集合,设为B3。

71≤X≤86,I=4,即该历史极端行为描述文本片段会被分到第4个历史极端行为描述文本片段子集合,设为B4。

当M为6时,相应的子集合文本长度差为12,则将该历史极端行为描述文本片段分到第I个历史极端行为描述文本片段子集合,其中,I可以由以下公式计算得到:

即,可以得出以下结论:

19≤X≤31,I=1,即该历史极端行为描述文本片段会被分到第1个历史极端行为描述文本片段子集合,设为C1。

32≤X≤43,I=2,即该历史极端行为描述文本片段会被分到第2个历史极端行为描述文本片段子集合,设为C2。

44≤X≤55,I=3,即该历史极端行为描述文本片段会被分到第3个历史极端行为描述文本片段子集合,设为C3。

56≤X≤67,I=4,即该历史极端行为描述文本片段会被分到第4个历史极端行为描述文本片段子集合,设为C4。

68≤X≤79,I=5,即该历史极端行为描述文本片段会被分到第5个历史极端行为描述文本片段子集合,设为C5。

80≤X≤86,I=6,即该历史极端行为描述文本片段会被分到第6个历史极端行为描述文本片段子集合,设为C6。

即在步骤30211中,当M为2时,会将历史极端行为描述文本片段集合分成 2个历史极端行为描述文本片段子集合A1和A2;当M为4时,会将历史极端行为描述文本片段集合分成4个历史极端行为描述文本片段子集合B1、B2、B3和 B4,当M为6时,会将历史极端行为描述文本片段集合分成6个历史极端行为描述文本片段子集合C1、C2、C3、C4、C5和C6。

相应地,在步骤30212中,当M为2时,分别基于所得到的历史极端行为描述文本片段子集合A1和A2,生成与A1和A2对应的候选正则表达式A1’和A2’;当M为4时,分别基于所得到的历史极端行为描述文本片段子集合B1、B2、B3 和B4,生成与B1、B2、B3和B4对应的候选正则表达式B1’、B2’、B3’和B4’;当M为6时,分别基于所得到的历史极端行为描述文本片段子集合C1、C2、C3、C4、C5和C6,分别生成与C1、C2、C3、C4、C5和C6对应的候选正则表达式C1’、C2’、C3’、C4’、C5’和C6’。

由上述记载可知,在步骤303中将所生成的4个候选正则表达式B1’、B2’、 B3’和B4’确定为极端行为识别正则表达式集合。

假设该文本片段的文本长度为Y,由上述记载可知,最优正则表达式数目4 对应的子集合文本长度差为17,那么在步骤203中根据该文本片段的文本长度,确定极端行为识别正则表达式集合中与该文本片段对应的极端行为识别正则表达式,可以如下进行:

首先,按照以下公式计算得到I’:

然后,可以将极端行为识别正则表达式集合中基于第I’个历史极端行为描述文本片段子集合所生成的正则表达式确定为与该文本片段对应的极端行为识别正则表达式。

即,可以得到以下结论:

19≤Y≤36,I′=1,即将极端行为识别正则表达式集合中基于第1个历史极端行为描述文本片段子集合B1所生成的正则表达式B1’确定为与该文本片段对应的极端行为识别正则表达式。

37≤Y≤53,I′=2,即将极端行为识别正则表达式集合中基于第2个历史极端行为描述文本片段子集合B2所生成的正则表达式B2’确定为与该文本片段对应的极端行为识别正则表达式。

54≤Y≤70,I′=3,即将极端行为识别正则表达式集合中基于第3个历史极端行为描述文本片段子集合B3所生成的正则表达式B3’确定为与该文本片段对应的极端行为识别正则表达式。

71≤Y≤86,I′=4,即将极端行为识别正则表达式集合中基于第4个历史极端行为描述文本片段子集合B4所生成的正则表达式B4’确定为与该文本片段对应的极端行为识别正则表达式。

步骤204,用文本片段集合中确定为极端行为描述文本的各文本片段生成与待识别接处警文本对应的极端行为描述文本集合。

在本实施例中,上述执行主体可以用步骤202中所确定的待识别接处警文本对应的文本片段集合中在步骤203中确定为极端行为描述文本的各文本片段生成与待识别接处警文本对应的极端行为描述文本集合。

本公开的上述实施例提供的方法通过首先生成待识别接处警文本的文本片段集合,再对所生成的文本片段集合中的文本片段与极端行为识别正则表达式集合中对应的文本长度范围包括该文本片段的长度的极端行为识别正则表达式进行匹配,若匹配将该文本片段确定为极端行为描述文本,进而可以生成待识别接处警文本对应的极端行为描述文本集合。从而实现了自动生成待识别接处警文本对应的极端行为描述文本集合,降低人工成本,而且通过将文本片段只与极端行为识别正则表达式集合中与该文本片段的文本长度对应的极端行为识别正则表达式进行匹配,减少了计算量,继而提高了最终生成与待识别接处警文本对应的极端行为描述文本集合的速度。

进一步参考图4,作为对上述各图所示方法的实现,本公开提供了一种基于正则表达式的极端行为识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图4所示,本实施例的基于正则表达式的极端行为识别装置400包括:获取单元401、文本片段确定单元402、识别单元403和生成单元404。其中,获取单元401,被配置成获取待识别接处警文本;文本片段确定单元402,被配置成确定上述待识别接处警文本对应的文本片段集合,其中,文本片段属于上述待识别接处警文本;识别单元403,被配置成对于上述文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定极端行为识别正则表达式集合中与该文本片段对应的极端行为识别正则表达式,其中,每个极端行为识别正则表达式对应有文本长度范围,该文本片段的文本长度在所确定的与该文本片段对应的极端行为识别正则表达式对应的文本长度范围内;响应于确定该文本片段与所确定的极端行为识别正则表达式匹配,将该文本片段确定为极端行为描述文本;而生成单元404,被配置成用上述文本片段集合中确定为极端行为描述文本的各文本片段生成与上述待识别接处警文本对应的极端行为描述文本集合。

在本实施例中,基于正则表达式的极端行为识别装置400的获取单元701、文本片段确定单元402、识别单元403和生成单元404的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202、步骤203和步骤204 的相关说明,在此不再赘述。

在一些可选的实施方式中,上述文本片段确定单元402可以进一步被配置成:将通过滑动窗口截取上述待识别接处警文本中的片段所得到的各文本片段确定为上述文本片段集合。

在一些可选的实施方式中,上述将通过滑动窗口截取上述待识别接处警文本中的片段所得到的各文本片段确定为上述文本片段集合,可以包括:新建空的文本片段集合;对于1到N之间的每个正整数n,执行文本片段截取操作,其中,上述N为上述待识别接处警文本的文本长度,上述文本片段截取操作包括:将滑动窗口的起点确定为上述待识别接处警文本的首字符,以及将上述滑动窗口的窗口长度确定为该正整数n;执行以下滑动窗口文本截取操作:截取上述待识别接处警文本中上述滑动窗口对应的文本,将截取得到的文本添加到上述文本片段集合,以及按照预设步长向后滑动上述滑动窗口,响应于确定上述滑动窗口的终点在上述待识别接处警文本内,继续执行上述滑动窗口文本截取操作;响应于确定上述滑动窗口的终点不在上述待识别接处警文本内,结束上述滑动窗口文本截取操作。

在一些可选的实施方式中,上述极端行为识别正则表达式集合可以是通过如下训练步骤预先训练得到的:获取历史极端行为描述文本片段集合和测试样本集合,其中,历史极端行为描述文本片段用于描述极端行为,测试样本包括历史接处警文本片段和对应的用于表征该历史接处警文本片段是否用于描述极端行为的标注信息;对于预设候选正则表达式数目集合中的候选正则表达式数目M,执行M个候选正则表达式生成操作以生成M个候选正则表达式,以及基于上述测试样本集合对所生成的M个候选正则表达式进行测试以确定与候选正则表达式数目M对应的准确率,其中,上述M个候选正则表达式生成操作包括:根据上述历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度,将上述历史极端行为描述文本片段集合划分成M个历史极端行为描述文本片段子集合,以及基于所得到的每个历史极端行为描述文本片段子集合,生成与该历史极端行为描述文本片段子集合对应的候选正则表达式;将所生成的最优正则表达式数目个候选正则表达式确定为上述极端行为识别正则表达式集合,其中,上述最优正则表达式数目为上述候选正则表达式数目集合中对应的准确率最高的候选正则表达式数目,上述极端行为识别正则表达式集合中每个极端行为识别正则表达式对应的文本长度范围为生成该极端行为识别正则表达式所基于的历史极端行为描述文本片段子集合中的各历史极端行为描述文本片段的文本长度对应的文本长度范围。

在一些可选的实施方式中,上述根据上述历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度,将上述历史极端行为描述文本片段集合划分成M个历史极端行为描述文本片段子集合,可以包括:将第一长度减去第二长度的差确定为编辑长度,其中,上述第一长度为上述历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度中的最长文本长度,上述第二长度为上述历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度中的最短文本长度;将对上述编辑长度除以M的商向上取整所得的整数确定为该候选正则表达式数目M对应的子集合文本长度差;对于上述历史极端行为描述文本片段集合中的每个历史极端行为描述文本片段,执行以下分组操作:将该历史极端行为描述文本片段的文本长度减去上述第二长度的差确定为 D;将对D除以该候选正则表达式数目M对应的子集合文本长度差的商向上取整所得的正整数确定为I;将该历史极端行为描述文本片段分到第I个历史极端行为描述文本片段子集合,其中,I为1到M之间的正整数。

在一些可选的实施方式中,上述根据该文本片段的文本长度,确定极端行为识别正则表达式集合中与该文本片段对应的极端行为识别正则表达式,可以包括:将上述待识别接处警文本的文本长度减去上述第二长度所得到的差确定为D’;将对D’除以与上述最优候选表达式数目对应的子集合文本长度差的商向上取整所得的正整数确定为I’;将上述极端行为识别正则表达式集合中基于第I’个历史极端行为描述文本片段子集合所生成的正则表达式确定为与该文本片段对应的极端行为识别正则表达式。

需要说明的是,本公开提供的基于正则表达式的极端行为识别装置中各单元的实现细节和技术效果可以参考本公开中其它实施例的说明,在此不再赘述。

下面参考图5,其示出了适于用来实现本公开的电子设备的计算机系统500 的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本公开的功能和使用范围带来任何限制。

如图5所示,计算机系统500包括中央处理单元(CPU,Central Processing Unit)501,其可以根据存储在只读存储器(ROM,Read Only Memory)502中的程序或者从存储部分508加载到随机访问存储器(RAM,Random Access Memory) 503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500 操作所需的各种程序和数据。CPU 501、ROM502以及RAM 503通过总线504彼此相连。输入/输出(I/O,Input/Output)接口505也连接至总线504。

以下部件连接至I/O接口505:包括触控屏、手写板、键盘或鼠标等的输入部分506;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD, Liquid CrystalDisplay)等以及扬声器等的输出部分507;包括硬盘等的存储部分 508;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本公开的方法中限定的上述功能。需要说明的是,本公开所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、 RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、 Smalltalk、C++、Python,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、文本片段确定单元、识别单元和生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待识别接处警文本的单元”。

作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取待识别接处警文本;确定上述待识别接处警文本对应的文本片段集合,其中,文本片段属于上述待识别接处警文本;对于上述文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定极端行为识别正则表达式集合中与该文本片段对应的极端行为识别正则表达式,其中,每个极端行为识别正则表达式对应有文本长度范围,该文本片段的文本长度在所确定的与该文本片段对应的极端行为识别正则表达式对应的文本长度范围内;响应于确定该文本片段与所确定的极端行为识别正则表达式匹配,将该文本片段确定为极端行为描述文本;用上述文本片段集合中确定为极端行为描述文本的各文本片段生成与上述待识别接处警文本对应的极端行为描述文本集合。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号