首页> 中国专利> 一种警情文本的标准案发时间提取方法及系统

一种警情文本的标准案发时间提取方法及系统

摘要

本发明公开了一种警情文本的标准案发时间提取方法及系统,属于公安警情文本提取技术领域。包括以下步骤:将警情文本中的时间要素以命名实体识别的方式按顺序依次进行提取;将警情文本切分成多个文本分句,并构建文本分句与时间要素的键值对;建立并训练案发时间识别模型,通过案发时间识别模型对文本分句中的表述内容进行识别以确定案发时间;将确定的案发时间进行标准化处理;对标准化处理后的案发时间进行合并处理,并进一步对合并后的案发时间进行标记。本发明在命名实体识别时间要素的基础上增加案发时间识别模型,准确识别并提取案发时间信息,为民警快速准确分析警情、核查警情提供业务便利和支持。

著录项

  • 公开/公告号CN112541075A

    专利类型发明专利

  • 公开/公告日2021-03-23

    原文格式PDF

  • 申请/专利权人 中科曙光南京研究院有限公司;

    申请/专利号CN202011195667.3

  • 申请日2020-10-30

  • 分类号G06F16/35(20190101);G06F40/284(20200101);G06F40/295(20200101);G06Q50/26(20120101);

  • 代理机构32360 南京泰普专利代理事务所(普通合伙);

  • 代理人窦贤宇

  • 地址 211102 江苏省南京市江宁区诚信大道519号

  • 入库时间 2023-06-19 10:21:15

说明书

技术领域

本发明属于公安警情文本提取技术领域,尤其是一种警情文本的标准案发时间提取方法及系统。

背景技术

文本中的时间要素提取技术已经比较成熟,作为一种命名实体识别任务,正则表达式、序列标注模型等方法都可以取得很好的效果。其中,正则表达式基于固定的时间表述模板对文本进行匹配;而序列标注模型依赖事先标注好的文本数据,通过人工的标签让机器学习到时间要素在文本序列中的特征。

但是在公安警情系统中,如何区分警情文本中每个时间要素的属性并将其转化为标准的时间格式以进行多个时间关系的推理,都是目前的技术没有涉及到的。警情文本中的时间要素分为报警时间、案发时间以及其它背景时间等。其中,案发时间在特定的场景下是一个时间段或时间点。目前,现有技术中的现有模型难以对警情文本中的案发时间的进行准确提取,大大增加民警的业务压力。

发明内容

本发明提供了一种警情文本的标准案发时间提取方法及系统,以解决现有技术中存在的问题。

为实现上述目的,本发明采用以下技术方案:

一种警情文本的标准案发时间提取方法,包括:

步骤1:将警情文本中的时间要素以命名实体识别的方式按顺序依次进行提取;

步骤2:将警情文本切分成多个文本分句,并构建文本分句与时间要素的键值对;

步骤3:建立并训练案发时间识别模型,通过案发时间识别模型对文本分句中的表述内容进行识别以确定案发时间;

步骤4:将确定的案发时间进行标准化处理;

步骤5:对标准化处理后的案发时间进行合并处理,并进一步对合并后的案发时间进行标记。

在进一步的实施例中,所述步骤1采用正则表达式提取时间要素,具体过程为:

步骤11:首先去除警情文本中括号内的内容,排除括号内容中的时间要素干扰信息;

步骤12:然后利用正则表达式对文本中的时间要素进行提取,正则表达式为:([0-9]{4}年)?([0-9]{1,2}月)?([0-9]{1,2}日)?(今|昨|前)?[\\u4E00-\\u9FA5]?(夜|早|上午|下午|晚)?[\\u4E00-\\u9FA5]?([0-9]{0,2}[时|点])?([0-9]{0,2}分);

式中:

([0-9]{4}年),表示四位数字加“年”,用来匹配年时间;

([0-9]{1,2}月),表示一位或两位数字加“月”,用来匹配月时间;

([0-9]{1,2}日),表示一位或两位数字加“日”,用来匹配日时间;

(今|昨|前)[\\u4E00-\\u9FA5],用来匹配“今天”、“昨天”以及“前天”的相对日期描述;

(夜|早|上午|下午|晚)[\\u4E00-\\u9FA5],用来匹配“夜里”、“早上”、“上午”、“下午”的时段描述;

([0-9]{1,2}[时|点]),表示一位或两位数字加“时”或“点”,用来匹配具体小时;

([0-9]{1,2}分),表示一位或两位数字加“分”,用来匹配具体分钟。

在进一步的实施例中,所述步骤2进一步为:

首先,将提取到的时间要素按照警情文本中出现的先后顺序依次进行排列,并将第一个时间定为报警时间;

然后,通过标点符号正则匹配,将警情文本切分成多个文本分句;

最后,确定除报警时间以外的时间要素所在的文本分句;如果文本分句中包含时间要素,且该文本分句的左右两个分句不包含时间要素,则将左右两个不包含时间要素的文本分句与包含时间要素的分句进行合并形成新的文本分句;构建时间要素与文本分句一一对应的键值对。

在进一步的实施例中,所述步骤3中的案发时间识别模型包括预训模型和判别模型;

所述预训模型首先建立数据库,该数据库中的训练数据来源于人工标记案发时间的历史警情数据,通过将警情文本中含有时间要素的文本分句与训练数据进行对比,确定警情文本中的案发时间;并且,对判别后的文本分句数据进行自动标记后补充进数据库;

所述判别模型包括输入层、隐藏层以及输出层;输入层为对警情文本进行切分的含有时间要素的文本分句,节点数为文本分句的数量;隐藏层为预训过程中新补入数据库中的数据以及数据库中原有的数据;输出层为通过对比确定文本分句中时间要素的是否为案发时间,输出层的节点的数量与需要进行判别文本分句的数量相等;针对判别过程出现超过训练数据库的数据外延情况,所述通过人为对输入的文本分句进行处理,并将处理后的数据补入数据库,所述隐藏层的数据随着训练过程的增加逐渐增多;

所述判别模型对判别结果进行误差测算:

式中,X

在进一步的实施例中,所述步骤4进一步为:

步骤41:通过"[0-9]{4}年"、"[0-9]{1,2}月"、"[0-9]{1,2}日"、"[0-9]{0,2}[时|点]"正则表达式直接确定时间要素“年、月、日、时”,并执行下一步骤;

步骤42:如果时间要素文本中出现了“夜”、“下午”、“晚上”,并且通过"[0-9]{0,2}[时|点]"的小时数小于12,小时数加12;

步骤43:如果时间要素中的“日”要素缺失,且时间要素中包含“今”、“昨”、“前”,那么就根据报警时间往前推理0天、1天、2天,获取对应的“日”要素;

步骤44:如果时间要素“年、月、日、时”中单一要素缺失,则以前一时间要素中对应要素进行填充;

步骤45:将时间要素进行标准化处理形成“yyyymmddhh”10位数字格式的标准案发时间。

在进一步的实施例中,所述步骤5进一步为:

步骤51:判断相邻的两个时间要素是否出现在同一个文本分句中,当两个相邻的时间要素出现在同一个文本分句中,且前一个时间早于后一个时间时,将这两个时间要素对应的标准案发时间进行合并处理形成案发时间段,否则执行下一步骤;

步骤52:计算相邻的两个时间要素的小时差,当相邻的两个时间要素相差不到24小时,且前一个时间早于后一个时间时,将这两个时间要素对应的标准案发时间进行合并处理形成案发时间段,否则执行下一步骤;

步骤53:搜索文本分句中的关键字,当两个相邻的时间要素中的前一个时间要素对应的文本分句中存在关键字“开始”、“起点”,后一个时间要素对应的文本分句中存在关键字“结束”、“结尾”,并且前一个时间早于后一个时间时,则将这两个时间要素对应的标准案发时间进行合并处理形成案发时间段,否则执行下一步骤;

步骤54:将剩余的时间要素对应的标准案发时间定位为案发时间点;

步骤55:根据时间顺序对案发时间段和案发时间点进行标记。

一种警情文本的标准案发时间提取系统,包括:

用于将警情文本中的时间要素以命名实体识别的方式按顺序依次进行提取的第一模块;

用于将警情文本切分成多个文本分句,并构建文本分句与时间要素的键值对的第二模块;

用于建立并训练案发时间识别模型,通过案发时间识别模型对文本分句中的表述内容进行识别以确定案发时间的第三模块;

用于将确定的案发时间进行标准化处理的第四模块;

用于对标准化处理后的案发时间进行合并处理,并进一步对合并后的案发时间进行标记的第五模块。

在进一步的实施例中,所述第一模块采用正则表达式提取时间要素,首先去除警情文本中括号内的内容,排除括号内容中的时间要素干扰信息,然后利用正则表达式对文本中的时间要素进行提取,正则表达式为:

([0-9]{4}年)?([0-9]{1,2}月)?([0-9]{1,2}日)?(今|昨|前)?[\\u4E00-\\u9FA5]?(夜|早|上午|下午|晚)?[\\u4E00-\\u9FA5]?([0-9]{0,2}[时|点])?([0-9]{0,2}分);

式中:

([0-9]{4}年),表示四位数字加“年”,用来匹配年时间;

([0-9]{1,2}月),表示一位或两位数字加“月”,用来匹配月时间;

([0-9]{1,2}日),表示一位或两位数字加“日”,用来匹配日时间;

(今|昨|前)[\\u4E00-\\u9FA5],用来匹配“今天”、“昨天”以及“前天”的相对日期描述;

(夜|早|上午|下午|晚)[\\u4E00-\\u9FA5],用来匹配“夜里”、“早上”、“上午”、“下午”的时段描述;

([0-9]{1,2}[时|点]),表示一位或两位数字加“时”或“点”,用来匹配具体小时;

([0-9]{1,2}分),表示一位或两位数字加“分”,用来匹配具体分钟;

所述第二模块首先将提取到的时间要素按照警情文本中出现的先后顺序依次进行排列,并将第一个时间定为报警时间;然后通过标点符号正则匹配,将警情文本切分成多个文本分句;最后,确定除报警时间以外的时间要素所在的文本分句;如果文本分句中包含时间要素,且该文本分句的左右两个分句不包含时间要素,则将左右两个不包含时间要素的文本分句与包含时间要素的分句进行合并形成新的文本分句;构建时间要素与文本分句一一对应的键值对。

所述第三模块建立并训练案发时间识别模型,所述案发时间识别模型包括预训模型和判别模型;

所述预训模型首先建立数据库,该数据库中的训练数据来源于人工标记案发时间的历史警情数据,通过将警情文本中含有时间要素的文本分句与训练数据进行对比,确定警情文本中的案发时间;并且,对判别后的文本分句数据进行自动标记后补充进数据库;

所述判别模型包括输入层、隐藏层以及输出层;输入层为对警情文本进行切分的含有时间要素的文本分句,节点数为文本分句的数量;隐藏层为预训过程中新补入数据库中的数据以及数据库中原有的数据;输出层为通过对比确定文本分句中时间要素的是否为案发时间,输出层的节点的数量与需要进行判别文本分句的数量相等;针对判别过程出现超过训练数据库的数据外延情况,所述通过人为对输入的文本分句进行处理,并将处理后的数据补入数据库,所述隐藏层的数据随着训练过程的增加逐渐增多;

所述判别模型对判别结果进行误差测算:

式中,X

在进一步的实施例中,所述第四模块首先通过"[0-9]{4}年"、"[0-9]{1,2}月"、"[0-9]{1,2}日"、"[0-9]{0,2}[时|点]"正则表达式直接确定时间要素“年、月、日、时”;当时间要素文本中出现了“夜”、“下午”、“晚上”,并且通过"[0-9]{0,2}[时|点]"的小时数小于12,小时数加12;当时间要素中的“日”要素缺失,且时间要素中包含“今”、“昨”、“前”,那么就根据报警时间往前推理0天、1天、2天,获取对应的“日”要素;当如果时间要素“年、月、日、时”中单一要素缺失,则以前一时间要素中对应要素进行填充;最后将时间要素进行标准化处理形成“yyyymmddhh”10位数字格式的标准案发时间;

所述第五模块首先判断相邻的两个时间要素是否出现在同一个文本分句中,当两个相邻的时间要素出现在同一个文本分句中,且前一个时间早于后一个时间时,将这两个时间要素对应的标准案发时间进行合并处理形成案发时间段;计算相邻的两个时间要素的小时差,当相邻的两个时间要素相差不到24小时,且前一个时间早于后一个时间时,将这两个时间要素对应的标准案发时间进行合并处理形成案发时间段;搜索文本分句中的关键字,当两个相邻的时间要素中的前一个时间要素对应的文本分句中存在关键字“开始”、“起点”,后一个时间要素对应的文本分句中存在关键字“结束”、“结尾”,并且前一个时间早于后一个时间时,则将这两个时间要素对应的标准案发时间进行合并处理形成案发时间段;将剩余的时间要素对应的标准案发时间定位为案发时间点;最后根据时间顺序对案发时间段和案发时间点进行标记。

一种计算机处理系统,包括存储模块,所述存储模块中存储有用于上述任一实施例中的警情文本的标准案发时间提取方法的计算机程序。

有益效果:首先,本发明在命名实体识别时间要素的基础上增加案发时间识别模型,准确识别并提取案发时间信息,为民警快速分析警情、核查警情提供业务便利;

其次,通过将警情文本切分成多个含有时间要素的文本分句,构建文本分句与时间要素的键值对,通过对文本分句进行语义识别以判定文本分句中的时间要素是否为案发时间,从而降低因警情文本内容复杂导致的案发时间识别和提取困难的情况;

最后,通过对案发时间进行合并处理,并标记案发时间点和案发时间段,从而为民警快速准确分析警情提供业务支持。

附图说明

图1是本发明的警情文本的标准案发时间提取流程图。

图2是本发明的判别模型的结构示意图。

具体实施方式

下面将结合附图和实施例,对本发明技术方案进行清楚、完整的描述。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

经研究发现,警情文本中的时间要素分为报警时间、案发时间以及其它背景时间等,而现有的公安警情系统难以实现警情文本中时间要素属性的区分,也难以实现多个时间关系的推理以达到对案发时间的准确识别提取,这些工作通常需要民警进行人为识别标记,大大增加民警的业务压力。

实施例1:如图1所示,为了解决现有技术中存在的问题,本发明的实施例1提供一种警情文本的标准案发时间提取方法,包括以下步骤:

步骤1:将警情文本中的时间要素以命名实体识别的方式按顺序依次进行提取;

步骤2:将警情文本切分成多个文本分句,并构建文本分句与时间要素的键值对;

步骤3:建立并训练案发时间识别模型,通过案发时间识别模型对文本分句中的表述内容进行识别以确定案发时间;

步骤4:将确定的案发时间进行标准化处理;

步骤5:对标准化处理后的案发时间进行合并处理,并进一步对合并后的案发时间进行标记。

警情文本中的内容复杂,时间要素很多,并且属性不同。例如,警情文本中的时间要素主要分为报警时间、案发时间以及其他背景时间等。这些不同属性的时间要素极大增加了案发时间的提取难度。为了对本发明的实施例进行较为详细的说明,本申请提供一段简单的警情文本“2020年07月27日10时40分,派出所接报警称:2020年7月21日晚7点,报警人张三(户籍地:xxx,身份证号码:xxx,出生日期:xxx)的银行卡被盗刷了1笔,共损失100元;2020年7月25日6时49分至7月25日8时10分,被盗刷了2笔,共损失200元。2020年7月26日上午9点,去银行进行了挂失”。该文本中“2020年07月27日10时40分”即为报警时间,“2020年7月21日晚7点”、“2020年7月25日6时49分至7月25日8时10分”等为案发时间,而报警人的出生日期则为其他背景时间。这些时间要素属性复杂,极大增加了案发时间的识别难度。并且,该警情文本中部分时间要素为非标准的时间格式,例如“晚7点”,这些也会增加时间要素识别难度。

因此,为了对时间要素进行准确的属性判别,首先要准确的提取警情文本中的有用的时间要素。进一步的,步骤1采用正则表达式提取时间要素,其具体过程为:

首先,去除警情文本中括号内的内容,排除括号内容中的时间要素干扰信息。例如上述警情文本中的报警人的出生日期,实际应用中,括号内的内容通常还会包括涉警人员的出生时间,这会对文本时间要素的提取造成干扰,首先应当将这些具有干扰性的时间要素排除;

然后,利用正则表达式对文本中的时间要素进行提取,正则表达式为:

([0-9]{4}年)?([0-9]{1,2}月)?([0-9]{1,2}日)?(今|昨|前)?[\\u4E00-\\u9FA5]?(夜|早|上午|下午|晚)?[\\u4E00-\\u9FA5]?([0-9]{0,2}[时|点])?([0-9]{0,2}分);

式中:

([0-9]{4}年),表示四位数字加“年”,用来匹配年时间;

([0-9]{1,2}月),表示一位或两位数字加“月”,用来匹配月时间;

([0-9]{1,2}日),表示一位或两位数字加“日”,用来匹配日时间;

(今|昨|前)[\\u4E00-\\u9FA5],用来匹配“今天”、“昨天”以及“前天”的相对日期描述;其中的单个中文字符的通配符可以增加词语匹配的丰富性,贴近日常生活中报警人的叙述;

(夜|早|上午|下午|晚)[\\u4E00-\\u9FA5],用来匹配“夜里”、“早上”、“上午”、“下午”的时段描述;其中的单个中文字符的通配符可以增加词语匹配的丰富性,有效解决因口语化导致警情文本中时间要素不规范的问题,避免将“晚7点”直接提取为“7点”,保证时间要素提取的准确性;

([0-9]{1,2}[时|点]),表示一位或两位数字加“时”或“点”,用来匹配具体小时;

([0-9]{1,2}分),表示一位或两位数字加“分”,用来匹配具体分钟;

则上述警情文本经过正则表达式处理后,时间要素“2020年07月27日10时40分”、“2020年7月21日晚7点”、“2020年7月25日6时49分”、“7月25日8时10分”、“2020年7月26日上午9点”被依次提取。

由于警情文本内容复杂,时间要素较多,如果直接进行判别,会导致案发时间判别困难的情况。因此通过将警情文本切分成多个文本分句,对每个文本分句进行语义识别来判别文本分句中的时间要素是否为案发时间。因此,在进一步的实施例中,步骤2具体过程为:

首先,将提取到的时间要素按照警情文本中出现的先后顺序依次进行排列,并将第一个时间定为报警时间;上述警情文本中的“2020年07月27日10时40分”,即为报警时间;

然后,通过标点符号正则匹配,将警情文本切分成多个文本分句;此时会出现部分文本分句中没有时间要素的情况,而这些没有时间要素的文本分句的内容对是分析时间要素是否为案发时间必不可少的内容,因此不能直接剔除,需要对这些不含的时间要素的文本分句合并至有时间要素的文本分句中,完善有时间要素的文本分句的前后文内容,从而便于准确判别案发时间;

最后,确定除报警时间以外的时间要素所在的文本分句;如果文本分句中包含时间要素,且该文本分句的左右两个分句不包含时间要素,则将左右两个不包含时间要素的文本分句与包含时间要素的分句进行合并形成新的文本分句;构建时间要素与文本分句一一对应的键值对,则上述警情文本构建的时间要素与文本分句的键值对为:

时间要素提取后如果要判别是否为案发时间,则需要根据该时间要素所在的文本分句的语义才能进行准确的判别。在进一步的实施例中,通过建立并训练案发时间识别模型,由案发时间识别模型对文本分句的表述内容进行识别,从而确定时间要素是否为案发时间。其中案发时间识别模型包括预训模型和判别模型。

先通过预训模型建立数据库,该数据库中的训练数据来源于人工标记案发时间的历史警情数据。然后将警情文本中含有时间要素的文本分句与训练数据进行对比,确定警情文本中的案发时间;并且,对判别后的文本分句数据进行自动标记后补充进数据库,从而进一步丰富数据库的内容,以便在实际判别过程中快速判别案发时间。

结合图2,判别模型包括输入层、隐藏层以及输出层;输入层为对警情文本进行切分的含有时间要素的文本分句,节点数为文本分句的数量;隐藏层为预训过程中新补入数据库中的数据以及数据库中原有的数据;输出层为通过对比确定文本分句中时间要素的是否为案发时间,输出层的节点的数量与需要进行判别文本分句的数量相等。输入层输入的含有时间要素的文本分句与隐藏层的对比数据进行相似度对比判别,最后由输出层输出判别结果。而针对判别过程出现超过训练数据库的数据外延情况,可以通过人为对输入的文本分句进行处理,并将处理后的数据补入数据库,进而使隐藏层的数据随着训练过程的增加逐渐增多。因此,随着判别模型处理的文本分句的次数越多,判别模型的判别难度会越来越低。

对于判别模型的判别结构采用交叉熵损失函数对判别结果进行误差测算,以增加判别结果的准确性:

式中,X

由于提取的时间要素中存在中文字符,例如“2020年7月21日晚7点”和“2020年7月25日6时49分”都是表示时间的时间要素,但是“晚7点”和“6时49分”是两种不同的时间表示方式,如果不进行统一,不利于进行数字化存档,增加民警分析和处理案情的不便。因此为了便于对案发时间进行统一处理,需要对案发时间进行标准化处理。在进一步的实施例中,步骤4进一步为:

步骤41:通过"[0-9]{4}年"、"[0-9]{1,2}月"、"[0-9]{1,2}日"、"[0-9]{0,2}[时|点]"正则表达式直接确定时间要素“年、月、日、时”,并执行下一步骤;

步骤42:如果时间要素文本中出现了“夜”、“下午”、“晚上”,并且通过"[0-9]{0,2}[时|点]"的小时数小于12,小时数加12;

步骤43:如果时间要素中的“日”要素缺失,且时间要素中包含“今”、“昨”、“前”,那么就根据报警时间往前推理0天、1天、2天,获取对应的“日”要素;

步骤44:如果时间要素“年、月、日、时”中单一要素缺失,则以前一时间要素中对应要素进行填充;

步骤45:将时间要素进行标准化处理形成“yyyymmddhh”10位数字格式的标准案发时间;第1-4位表示“年”时间,第5-6位表示“月”时间,第7-8位表示“日”时间,第9-10位表示“时”时间。

因此,上述警情文本中的案发时间“2020年7月21日晚7点”、“2020年7月25日6时49分”、“7月25日8时10分”。各个时间标准化后,得到“2020072119”、“2020072506”、“2020072508”。

在警情文本中,报警人所述的被侵害事项可能对应多个时间点,而每个时间点的间隔不一样,有的可能相隔几天,有的可能相隔几个小时。如果全部以时间点来确定案发时间,会导致相隔时间较短案件问题失去关联性,增加民警的破案难度。因此,在进一步的实施例中,通过对标准化的处理的案发时间进行合并处理,将相隔时间较短的案发时间点进行合并,或者将明显具有关联性的案发时间点进行合并,并对合并后的案发时间进行标记,为民警分析案情提供便利。因此步骤5的具体过程为:

步骤51:判断相邻的两个时间要素是否出现在同一个文本分句中,当两个相邻的时间要素出现在同一个文本分句中,且前一个时间早于后一个时间时,将这两个时间要素对应的标准案发时间进行合并处理形成案发时间段,否则执行下一步骤;

步骤52:计算相邻的两个时间要素的小时差,当相邻的两个时间要素相差不到24小时,且前一个时间早于后一个时间时,将这两个时间要素对应的标准案发时间进行合并处理形成案发时间段,否则执行下一步骤;

步骤53:搜索文本分句中的关键字,当两个相邻的时间要素中的前一个时间要素对应的文本分句中存在关键字“开始”、“起点”,后一个时间要素对应的文本分句中存在关键字“结束”、“结尾”,并且前一个时间早于后一个时间时,则将这两个时间要素对应的标准案发时间进行合并处理形成案发时间段,否则执行下一步骤;

步骤54:将剩余的时间要素对应的标准案发时间定位为案发时间点;

步骤55:根据时间顺序对案发时间段和案发时间点进行标记;例如可以标记为“第一案发时间”、“第二案发时间”,“第三案发时间”等。

上述警情文本中的案发时间“2020年7月21日晚7点”则为案发时间点,“2020年7月25日6时49分”与“7月25日8时10分”合并成一个案发时间段,通过标记后可以表示为“第一案发时间”为“2020072119”,“第二案发时间”为“2020072506-2020072508”。这种方式不仅能够便于数字化存档,同时,标记案发时间也避免了民警记忆案发时间,民警通过标记的案发时间即可了解案情发生的先后顺序大大提升了民警处理案情的便利,从而使民警快速准确分析案情。

实施例2:本发明的实施例2提供了一种警情文本的标准案发时间提取系统,包括第一模块、第二模块、第三模块、第四模块以及第五模块;

第一模块用于将警情文本中的时间要素以命名实体识别的方式按顺序依次进行提取;

第二模块用于将警情文本切分成多个文本分句,并构建文本分句与时间要素的键值对;

第三模块用于建立并训练案发时间识别模型,通过案发时间识别模型对文本分句中的表述内容进行识别以确定案发时间;

第四模块用于将确定的案发时间进行标准化处理;

第五模块用于对标准化处理后的案发时间进行合并处理,并进一步对合并后的案发时间进行标记;

其中,警情文本的标准案发时间提取系统的第一模块、第二模块、第三模块、第四模块以及第五模块用于实现实施例1中的警情文本的标准时间提取方法,因此警情文本的标准时间提取方法所具有的技术效果,该警情文本的标准案发时间提取系统同样具备。

实施例3:本发明的实施例3提供了一种计算机处理系统,该计算机处理系统包括存储模块;存储模块中存储有用于实现上述任一项实施例所述的警情文本的标准案发时间提取方法的计算机程序;由于该计算机处理系统能够用于实现上述警情文本的标准时间提取方法,因此上述警情文本的标准时间提取方法所具有的技术效果,该计算机处理系统同样具备。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号