首页> 中国专利> 一种处罚决定书分析方法及装置

一种处罚决定书分析方法及装置

摘要

本申请提供一种处罚决定书分析方法及装置,方法包括:获取待分析处罚决定书;将待分析处罚决定书输入预先建立好的处罚决定书分析模型中;其中,预先建立好的处罚决定书分析模型包括多个切块节点以及每个切块节点对应的提取公式;利用切块节点以及提取公式对待分析处罚决定书进行切块,输出由多个切块构成的切块文本作为处罚决定书分析模型输出的处罚决定书分析结果。在上述方案中,利用预先建立好的处罚决定书分析模型对待分析处罚决定书进行切块,得到不同切块节点对应的不同内容,从而将一份处罚决定书按照内容分为多个部分,以实现自动对处罚决定书进行分析,从而提高了分析效率。

著录项

  • 公开/公告号CN112257428A

    专利类型发明专利

  • 公开/公告日2021-01-22

    原文格式PDF

  • 申请/专利权人 鼎富智能科技有限公司;

    申请/专利号CN202011152221.2

  • 发明设计人 任宁;

    申请日2020-10-22

  • 分类号G06F40/279(20200101);G06K9/62(20060101);G06N20/20(20190101);G06Q50/18(20120101);

  • 代理机构11463 北京超凡宏宇专利代理事务所(特殊普通合伙);

  • 代理人钟扬飞

  • 地址 230000 安徽省合肥市高新区习友路3333号A1楼19层-B区

  • 入库时间 2023-06-19 09:38:30

说明书

技术领域

本申请涉及文本分析领域,具体而言,涉及一种处罚决定书分析方法及装置。

背景技术

处罚决定书又称行政处罚决定书,是行政管理机关针对当事人的违法行为,在经过调查取证掌握违法证据的基础上,制作的记载当事人违法事实、处罚理由、依据和决定等事项的具有法律强制力的书面法律文书。

处罚决定书一般分为文首、被处罚人信息、被处罚事由、处理经过、事实、证据理由、处罚情况、救济途径以及文尾等一个或者多个部分,内容多且杂,用户在查看一份处罚决定书时很难快速的从中获取到自己想要知道的信息。现有技术中一般采用人工分析的方式,提取处罚决定书中的内容,但是采用该方式进行分析,分析效率较低。

发明内容

本申请实施例的目的在于提供一种处罚决定书分析方法及装置,用以解决对处罚决定书进行分析的分析效率较低的技术问题。

为了实现上述目的,本申请实施例所提供的技术方案如下所示:

第一方面,本申请实施例提供一种处罚决定书分析方法,包括:获取待分析处罚决定书;将所述待分析处罚决定书输入预先建立好的处罚决定书分析模型中;其中,所述预先建立好的处罚决定书分析模型包括多个切块节点以及每个切块节点对应的提取表达式;通过所述处罚决定书分析模型中的所述切块节点以及所述提取表达式对所述待分析处罚决定书进行切块,输出由多个切块构成的切块文本作为所述处罚决定书分析模型输出的处罚决定书分析结果。在上述方案中,利用预先建立好的处罚决定书分析模型对待分析处罚决定书进行切块,得到不同切块节点对应的不同内容,从而将一份处罚决定书按照内容分为多个部分,以实现自动对处罚决定书进行分析,从而提高了分析效率。

在本申请的可选实施例中,在所述获取待分析处罚决定书之前,所述方法还包括:获取多个处罚决定书分析样本;其中,所述处罚决定书分析样本包括处罚决定书样本以及所述处罚决定书样本对应的分析结果;将多个所述处罚决定书分析样本输入到待训练的处罚决定书分析模型中,以对所述待训练的处罚决定书分析模型进行训练,得到所述预先建立好的处罚决定书分析模型。在上述方案中,在利用处罚决定书分析模型对待分析处罚决定书进行切块之前,可以首先利用多个处罚决定书分析样本对待训练的处罚决定书分析模型进行训练,得到预先建立好的处罚决定书分析模型,从而提高对处罚决定书进行分析的准确度。

在本申请的可选实施例中,所述切块节点包括一级节点,所述通过所述处罚决定书分析模型中的所述切块节点以及所述提取表达式对所述待分析处罚决定书进行切块,包括:根据所述一级节点对所述待分析处罚决定书进行切块,得到由多个一级块构成的一级切块文本;其中,所述一级节点包括:被处罚人信息节点、被处罚事由节点、处理经过节点、事实节点、证据理由节点、处罚情况节点、救济途径节点以及文尾节点中的一个或者多个节点。在上述方案中,根据待分析处罚决定书中的而具体内容,通过切块将该待分析处罚决定书分为文首、被处罚人信息、被处罚事由、处理经过、事实、证据理由、处罚情况、救济途径以及文尾等一个或者多个部分,从而实现自动对处罚决定书进行分析,从而提高了分析效率。

在本申请的可选实施例中,在所述根据所述一级节点对所述待分析处罚决定书进行切块,得到由多个一级块构成的一级切块文本之后,所述方法还包括:判断所述一级切块文本中是否存在多个连续的一级块对应的一级节点为相同的一级节点;若所述一级切块文本中存在多个连续的一级块对应的一级节点为相同的一级节点,将多个所述相同的一级节点中的第一个一级节点对应的一级块的起始位置作为一个一级块的起点,并合并多个所述相同的一级节点对应的一级块。在上述方案中,通过分析一级切块文本中是否存在连续节点,以将相同的一级节点对应的一级块进行合并,从而使得对待分析处罚决定书进行分析得到的分析结果更加简洁明了。

在本申请的可选实施例中,所述切块节点还包括:二级节点;其中,一个所述一级节点与一个或者多个所述二级节点对应;在所述根据所述一级节点对所述待分析处罚决定书进行切块,得到由多个一级块构成的一级切块文本之后,所述方法还包括:利用一级块对应的一级节点对应的二级节点对所述一级块进行切块,得到由多个二级块构成的二级切块文本。在上述方案中,在根据一级节点对待分析处罚决定书进行切块后,还可以基于二级节点对一级块进行进一步的切块,从而对待分析处罚决定书进行更为细致的分析。

在本申请的可选实施例中,在所述合并多个所述相同的一级节点对应的一级块之后,所述方法还包括:判断被处罚人块对应的被处罚人信息的属性为单位或者自然人;其中,被处罚人块为所述被处罚人信息节点对应的一级块;若被处罚人块对应的被处罚人信息的属性为单位,则将所述单位作为二级节点;若被处罚人块对应的被处罚人信息的属性为自然人,则将所述自然人作为二级节点。在上述方案中,可以判断被处罚人块对应的被处罚人信息的属性是单位还是自然人,从而实现对被处罚人的分析,以提高分析的准确度。

在本申请的可选实施例中,在所述判断被处罚人块对应的被处罚人信息的属性为单位或者自然人之前,所述方法还包括:判断所述被处罚人块中是否存在多个被处罚人;若所述被处罚人块中存在多个被处罚人,将所述一级块进行切块,得到多个被处罚人块。在上述方案中,可以判断被处罚人块中是否存在多个被处罚人,从而可以在存在多个被处罚人时,实现对多个被处罚人分别进行分析,从而提高分析的准确度。

在本申请的可选实施例中,在所述合并多个所述相同的一级节点对应的一级块之后,所述方法还包括:判断被处罚人块对应的被处罚人信息中是否存在需截去信息;其中,被处罚人块为所述被处罚人信息节点对应的一级块;若被处罚人块对应的被处罚人信息中存在需截去信息,则截去所述需截去信息。在上述方案中,可以判断被处罚人块对应的被处罚人信息中是否存在需截去信息,从而保证最终得到的分析结果简洁明了。

第二方面,本申请实施例提供一种处罚决定书分析装置,包括:第一获取模块,用于获取待分析处罚决定书;输入模块,用于将所述待分析处罚决定书输入预先建立好的处罚决定书分析模型中;其中,所述预先建立好的处罚决定书分析模型包括多个切块节点以及每个切块节点对应的提取表达式;输出模块,用于通过所述处罚决定书分析模型中的所述切块节点以及所述提取表达式对所述待分析处罚决定书进行切块,输出由多个切块构成的切块文本作为所述处罚决定书分析模型输出的处罚决定书分析结果。在上述方案中,利用预先建立好的处罚决定书分析模型对待分析处罚决定书进行切块,得到不同切块节点对应的不同内容,从而将一份处罚决定书按照内容分为多个部分,以实现自动对处罚决定书进行分析,从而提高了分析效率。

在本申请的可选实施例中,所述装置还包括:第二获取模块,用于获取多个处罚决定书分析样本;其中,所述处罚决定书分析样本包括处罚决定书样本以及所述处罚决定书样本对应的分析结果;训练模块,用于将多个所述处罚决定书分析样本输入到待训练的处罚决定书分析模型中,以对所述待训练的处罚决定书分析模型进行训练,得到所述预先建立好的处罚决定书分析模型。在上述方案中,在利用处罚决定书分析模型对待分析处罚决定书进行切块之前,可以首先利用多个处罚决定书分析样本对待训练的处罚决定书分析模型进行训练,得到预先建立好的处罚决定书分析模型,从而提高对处罚决定书进行分析的准确度。

在本申请的可选实施例中,所述切块节点包括一级节点,所述输出模块还用于:根据所述一级节点对所述待分析处罚决定书进行切块,得到由多个一级块构成的一级切块文本;其中,所述一级节点包括:被处罚人信息节点、被处罚事由节点、处理经过节点、事实节点、证据理由节点、处罚情况节点、救济途径节点以及文尾节点中的一个或者多个节点。在上述方案中,根据待分析处罚决定书中的而具体内容,通过切块将该待分析处罚决定书分为文首、被处罚人信息、被处罚事由、处理经过、事实、证据理由、处罚情况、救济途径以及文尾等一个或者多个部分,从而实现自动对处罚决定书进行分析,从而提高了分析效率。

在本申请的可选实施例中,所述装置还包括:第一判断模块,用于判断所述一级切块文本中是否存在多个连续的一级块对应的一级节点为相同的一级节点;合并模块,用于若所述一级切块文本中存在多个连续的一级块对应的一级节点为相同的一级节点,将多个所述相同的一级节点中的第一个一级节点对应的一级块的起始位置作为一个一级块的起点,并合并多个所述相同的一级节点对应的一级块。在上述方案中,通过分析一级切块文本中是否存在连续节点,以将相同的一级节点对应的一级块进行合并,从而使得对待分析处罚决定书进行分析得到的分析结果更加简洁明了。

在本申请的可选实施例中,所述切块节点还包括:二级节点;其中,一个所述一级节点与一个或者多个所述二级节点对应;所述装置还包括:第一切块模块,用于利用一级块对应的一级节点对应的二级节点对所述一级块进行切块,得到由多个二级块构成的二级切块文本。在上述方案中,在根据一级节点对待分析处罚决定书进行切块后,还可以基于二级节点对一级块进行进一步的切块,从而对待分析处罚决定书进行更为细致的分析。

在本申请的可选实施例中,所述装置还包括:第二判断模块,用于判断被处罚人块对应的被处罚人信息的属性为单位或者自然人;其中,被处罚人块为所述被处罚人信息节点对应的一级块;单位模块,用于若被处罚人块对应的被处罚人信息的属性为单位,则将所述单位作为二级节点;自然人模块,用于若被处罚人块对应的被处罚人信息的属性为自然人,则将所述自然人作为二级节点。在上述方案中,可以判断被处罚人块对应的被处罚人信息的属性是单位还是自然人,从而实现对被处罚人的分析,以提高分析的准确度。

在本申请的可选实施例中,所述装置还包括:第三判断模块,用于判断所述被处罚人块中是否存在多个被处罚人;第二切块模块,用于若所述被处罚人块中存在多个被处罚人,将所述一级块进行切块,得到多个被处罚人块。在上述方案中,可以判断被处罚人块中是否存在多个被处罚人,从而可以在存在多个被处罚人时,实现对多个被处罚人分别进行分析,从而提高分析的准确度。

在本申请的可选实施例中,所述装置还包括:第四判断模块,用于判断被处罚人块对应的被处罚人信息中是否存在需截去信息;其中,被处罚人块为所述被处罚人信息节点对应的一级块;截去模块,用于若被处罚人块对应的被处罚人信息中存在需截去信息,则截去所述需截去信息。在上述方案中,可以判断被处罚人块对应的被处罚人信息中是否存在需截去信息,从而保证最终得到的分析结果简洁明了。

第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线;所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如第一方面中的处罚决定书分析方法。

第四方面,本申请实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面中的处罚决定书分析方法。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举本申请实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种处罚决定书分析方法的流程图;

图2为本申请实施例提供的处罚决定书分析模型的建立过程的流程图;

图3为本申请实施例提供的一种处罚决定书分析装置的结构框图;

图4为本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

请参照图1,图1为本申请实施例提供的一种处罚决定书分析方法的流程图,该处罚决定书分析方法可以包括如下步骤:

步骤S101:获取待分析处罚决定书。

步骤S102:将待分析处罚决定书输入预先建立好的处罚决定书分析模型中。

步骤S103:通过处罚决定书分析模型中的切块节点以及提取表达式对待分析处罚决定书进行切块,输出由多个切块构成的切块文本作为处罚决定书分析模型输出的处罚决定书分析结果。

在具体的实施过程中,本申请实施例提供的处罚决定书分析方法可以由电子设备执行,例如:笔记本电脑、手机、平板电脑等。首先,电子设备可以获取待分析的处罚决定书。其中,电子设备获取待分析处罚决定书的方式有多种,例如:接收其他电子设备发送的待分析处罚决定书;从服务器中读取预先存储的待分析处罚决定书;从可移动存储介质中读取待分析处罚决定书等。本申请实施例对此不作具体的限定,本领域技术人员可以根据实际情况进行合适的选择。

在获取待分析处罚决定书之后,电子设备可以将上述待分析处罚决定书输入预先建立好的处罚决定书分析模型中。其中,上述预先建立好的处罚决定书分析模型包括多个切块节点以及每个切块节点对应的提取公式。

下面对上述处罚决定书分析模型的建立过程进行详细的说明。

作为一种实施方式,请参照图2,图2为本申请实施例提供的处罚决定书分析模型的建立过程的流程图,在上述步骤S101之前,本申请实施例提供的处罚决定书分析方法还可以包括如下步骤:

步骤S201:获取多个处罚决定书分析样本。

步骤S202:将多个处罚决定书分析样本输入到待训练的处罚决定书分析模型中,以对待训练的处罚决定书分析模型进行训练,得到预先建立好的处罚决定书分析模型。

在具体的实施过程中,首先,电子设备可以获取多个处罚决定书分析样本,其中,电子设备获取多个处罚决定书分析样本的实施方式与电子设备获取待分析处罚决定书的实施方式类似,此处不再赘述。

处罚决定书分析样本可以包括处罚决定书样本以及处罚决定书样本对应的分析结果。其中,处罚决定书样本是指多个处罚决定书,处罚决定书样本对应的分析结果是指对上述处罚决定书进行分析之后,得到的相应的分析结果。其中,处罚决定书样本对应的分析结果可以包括处罚决定书对应的多个切块节点,以及每个切块节点对应的内容。

将处罚决定书样本以及处罚决定书样本对应的分析结果输入待训练的处罚决定书分析模型中,便可以对待训练的处罚决定书分析模型中进行训练,根据多个处罚决定书分析样本中的切块节点以及每个切块节点对应的内容,最终可以得到预先建立好的处罚决定书分析模型。预先建立好的处罚决定书分析模型中,包括多个切块节点以及每个切块节点对应的提取表达式。

可以理解的是,在利用处罚决定书分析模型对待分析处罚决定书进行分析之后,可以对处罚决定书分析模型进行进一步的修正,以提高处罚决定书分析模型输出的分析结果的准确度。

作为另一种方式,处罚决定书分析模型可以通过操作员手动建立。举例来说,可以基于DINFO-OEC平台信息抽取模型,将处罚决定书涉及的切块节点以及常见的各种处罚决定书各个部分对应的提取表达式输入至上述DINFO-OEC平台信息抽取模型,从而使得该模型可以对待分析处罚决定书中的内容进行提取。

可以理解的是,操作员可以随时向DINFO-OEC平台信息抽取模型中添加新的提取表达式,以提高处罚决定书分析模型输出的分析结果的准确度。

在上述方案中,在利用处罚决定书分析模型对待分析处罚决定书进行切块之前,可以首先利用多个处罚决定书分析样本对待训练的处罚决定书分析模型进行训练,得到预先建立好的处罚决定书分析模型,从而提高对处罚决定书进行分析的准确度。

最后,可以通过处罚决定书分析模型中的切块节点以及提取表达式对待分析处罚决定书进行切块,输出由多个切块构成的切块文本作为处罚决定书分析模型输出的处罚决定书分析结果。

其中,切块是指将一篇完整且连续的处罚决定书分割为多个部分,每个部分为一个切块,多个切块中的内容构成了分析得到的切块文本,该切块文本即为处罚决定书分析模型输出的处罚决定书分析结果。

作为一种实施方式,在对处罚决定书进行切块的过程中,可以仅对待分析处罚决定书进行一次切块,也可以对待分析处罚决定书进行多次切块,这取决于待分析处罚决定书的具体内容以及预先建立好的处罚决定书分析模型的架构。

首先,以对待分析处罚决定书进行一次切块为例对上述步骤S103进行详细的介绍。

为了便于叙述,假设切块节点包括一级节点,上述步骤S103可以包括如下步骤:

根据一级节点对待分析处罚决定书进行切块,得到由多个一级块构成的一级切块文本。

在具体的实施过程中,根据处罚决定书的常见格式,一级节点可以包括:被处罚人信息节点、被处罚事由节点、处理经过节点、事实节点、证据理由节点、处罚情况节点、救济途径节点以及文尾节点中的一个或者多个节点。

其中,从处罚决定书的开始位置到第一个一级节点的位置之间为处罚决定书的文首部分;以被处罚人信息节点为起点,下一位置的一级节点为终点,中间的内容为被处罚人信息部分;以被处罚人事由节点为起点,下一位置的一级节点为终点,中间的内容为被处罚人事由部分;以处理经过节点为起点,下一位置的一级节点为终点,中间的内容为处理经过部分;以事实节点为起点,下一位置的一级节点为终点,中间的内容为事实部分;以证据理由节点为起点,下一位置的一级节点为终点,中间的内容为证据理由部分;以处罚情况节点为起点,下一位置的一级节点为终点,中间的内容为处罚情况部分;以救济途径节点为起点,下一位置的一级节点为终点,中间的内容为救济途径部分;从文尾节点到处罚决定书结尾的位置之间为处罚决定书的文尾部分。

每个部分均对应有对应的提取表达式,可以将每个部分的内容从处罚决定书中提取出来。举例来说,处理经过部分可以包括:接到举报称、进行了采样监测、根据……进行现场检查等提取表达式;事实部分可以包括:查明/核实/发现/显示……违规/涉嫌/存在/实施了;投标过程中涉嫌;经调查等提取表达式。需要说明的是,本申请实施例对预先建立好的处罚决定书分析模型中的提取表达式不作具体的限定,本领域技术人员可以根据实际情况进行合适的选择。

可以理解的是,在对待分析处罚决定书进行分析的过程中,分析得到的多个一级块并不一定囊括了所有一级节点对应的内容,例如:待分析处罚决定书中没有与救济途径相关的内容,则分析得到的一级切块文本中也就不会存在与救济途径节点对应的一级块。

在上述方案中,利用预先建立好的处罚决定书分析模型对待分析处罚决定书进行切块,得到不同切块节点对应的不同内容,从而将一份处罚决定书按照内容分为多个部分,以实现自动对处罚决定书进行分析,从而提高了分析效率。

作为一种实施方式,由于在对待分析处罚决定书进行分析的过程中,会存在连续节点集(多个连续节点构成的集合,称为连续节点集,单个节点也可以称为一个连续节点集),因此,在上述根据一级节点对待分析处罚决定书进行切块,得到由多个一级块构成的一级切块文本之后,上述步骤S103还可以包括如下步骤:

第一步,判断一级切块文本中是否存在多个连续的一级块对应的一级节点为相同的一级节点。

第二步,若一级切块文本中存在多个连续的一级块对应的一级节点为相同的一级节点,将多个相同的一级节点中的第一个一级节点对应的一级块的起始位置作为一个一级块的起点,并合并多个相同的一级节点对应的一级块。

在具体的实施过程中,针对文尾节点,如果存在多个文尾节点(或者文尾节点有多个位置),建议将位置最靠后的连续节点集的第一个文尾节点作为开始节点。

针对除文尾节点外的其他类别节点,若存在多个连续的一级块对应的一级节点为相同的一级节点(即存在连续节点集),则将多个相同的一级节点中的第一个一级节点对应的一级块的起始位置作为一个一级块的起点,并合并多个相同的一级节点对应的一级块(即每个连续节点集的第一个节点为开始节点)。举例来说,如果一个处罚决定书在分析过程中,切块得到的节点结果按如下顺序排列(数字代表节点位置):事实12事实20证据理由50事实70事实90救济途径100,则合并后的分析结果为:文首:0~11、事实1:12~49、证据理由:50~69、事实2:70~99、救济途径:100~结尾。

除了上述两种连续切点集分析方式,还存在一种特殊情况,即需要将事实部分与处理经过部分区分开,这是由于,事实部分的内容与处理经过部分的内容存在一定的相似性,在对待分析处罚决定书进行分析的过程中,可能无法识别具体为事实部分还是处理经过部分。因此,如果事实节点与处理经过节点是同一位置,那么,如果该部分内容还存在其他节点(即存在连续节点集),则该位置属于处理经过节点;如果该部分内容不存在其他节点(即不存在连续节点集),则该位置属于事实节点。

在上述方案中,通过分析一级切块文本中是否存在连续节点,以将相同的一级节点对应的一级块进行合并,从而使得对待分析处罚决定书进行分析得到的分析结果更加简洁明了。

其次,以对待分析处罚决定书进行二次切块为例对上述步骤S103进行详细的介绍。

同样为了便于叙述,假设切块节点包括一级节点以及二级节点,其中,一个一级节点与一个或者多个二级节点对应,上述步骤S103可以包括如下步骤:

利用一级块对应的一级节点对应的二级节点对一级块进行切块,得到由多个二级块构成的二级切块文本。

在具体的实施过程中,利用一级节点对待分析处罚决定书进行切块的步骤与上述对待分析处罚决定书进行一次切块的过程中,利用一级节点对待分析处罚决定书进行切块的步骤类似,此处不再赘述。

在第一次切块后得到多个一级块构成的一级文本后,可以对一个或者多个一级块进行进一步的切块。其中,一个一级块对应的一级节点可以对应多个二级节点,举例来说,处罚情况节点对应的二级节点可以包括:处罚依据节点、处罚决定节点、处罚履行节点等。可以根据二级节点,利用与根据一级节点对待分析处罚决定书进行切块的方式相同的切块方式,对对应的一级块进行切块,得到多个二级块构成的二级切块文本。

可以理解的是,在对待分析处罚决定书进行分析的过程中,每个一级块不一定都需要进行进一步的切块得到多个二级块,例如:对救济途径部分不进行进一步的切分,则分析得到的二级切块文本中也就不会存在与救济途径节点对应的二级块,但是,最终输出的分析结果中会有与救济途径节点对应的一级块。

在上述方案中,在根据一级节点对待分析处罚决定书进行切块后,还可以基于二级节点对一级块进行进一步的切块,从而对待分析处罚决定书进行更为细致的分析。

可以理解的是,除了可以对待分析处罚决定书进行一次切块或者二次切块,还可以对待分析处罚决定书进行更多次切块,例如:进行三次切块、四次切块等。举例来说,处罚依据节点对应的三级节点可以包括:法律名称节点、条款名称节点、条款内容节点等。

在上述方案中,本申请实施例提供的处罚决定书分析方法利用预先建立好的处罚决定书分析模型对待分析处罚决定书进行切块,得到不同切块节点对应的不同内容,从而将一份处罚决定书按照内容分为多个部分,以实现自动对处罚决定书进行分析,从而提高了分析效率。因此,用户可以查看分析后的处罚决定书,从而可以快速的从分析后的处罚决定书中获取到自己想要知道的信息。

进一步的,在上述合并多个相同的一级节点对应的一级块的步骤之后,本申请实施例提供的处罚决定书分析方法还可以包括如下步骤:

第一步,判断被处罚人块对应的被处罚人信息的属性为单位或者自然人。

第二步,若被处罚人块对应的被处罚人信息的属性为单位,则将单位作为二级节点。

第三步,若被处罚人块对应的被处罚人信息的属性为自然人,则将自然人作为二级节点。

在具体的实施过程中,被处罚人块(即被处罚人信息节点对应的一级块)对应的被处罚人可能是自然人也可能是单位,由于被处罚人是单元或者是自然人时,被处罚人信息及处罚情况等都会有较大的差别,因此,为了使得分析结果更加的准确,可以对被处罚人块对应的被处罚人信息的属性进行分析。

分析的方式可以为:首先,匹配单位名称或者自然人名称,若没有结果,则默认被处罚人信息的属性为单位,将单位作为二级节点,并对单位节点对应的内容进行分析。若有结果,则其次判断被处罚人块对应的被处罚人信息的属性为单位还是为自然人,在被处罚人信息的属性为单位时,将单位作为二级节点,并对单位节点对应的内容进行分析;在被处罚人信息的属性为自然人时,将自然人作为二级节点,并对自然人节点对应的内容进行分析。

在上述方案中,可以判断被处罚人块对应的被处罚人信息的属性是单位还是自然人,从而实现对被处罚人的分析,以提高分析的准确度。

进一步的,在上述判断被处罚人块对应的被处罚人信息的属性为单位或者自然人的步骤之前,申请实施例提供的处罚决定书分析方法还可以包括如下步骤:

第一步,判断被处罚人块中是否存在多个被处罚人。

第二步,若被处罚人块中存在多个被处罚人,将一级块进行切块,得到多个被处罚人块。

在具体的实施过程中,被处罚人块(即被处罚人信息节点对应的一级块)中可能包括多个被处罚人的信息,为了使得分析结果更加的准确,可以对多个被罚处罚人进行进一步的切块,以分别得到每一个被处罚人的信息。

分析的方式可以为:首先,判断被处罚人块中是否存在多个被处罚人,如果被处罚人块中存在多个被处罚人,将每个被处罚人的开始位置作为节点,对被处罚人块进行切块,得到多个被处罚人块。

可以理解的是,在对被处罚人块进行切块得到多个被处罚人块之后,可以对每个被处罚人块执行判断被处罚人信息的属性为单位或者自然人的步骤。

在上述方案中,可以判断被处罚人块中是否存在多个被处罚人,从而可以在存在多个被处罚人时,实现对多个被处罚人分别进行分析,从而提高分析的准确度。

进一步的,在上述合并多个相同的一级节点对应的一级块的步骤之后,本申请实施例提供的处罚决定书分析方法还可以包括如下步骤:

第一步,判断被处罚人块对应的被处罚人信息中是否存在需截去信息。

第二步,若被处罚人块对应的被处罚人信息中存在需截去信息,则截去所述需截去信息。

在具体的实施过程中,被处罚人块(即被处罚人信息节点对应的一级块)中可能包括重复的信息或者是无用的信息,此时,可以使分析结果简洁明了,可以截去被处罚人块对应的被处罚人信息中的部分内容。

截去方式可以为,首先,判断被处罚人块对应的被处罚人信息中是否存在需截去信息(包括重复的信息或者是无用的信息),若存在,则截去需截去信息。其中,截去需截去信息的方式有多种,例如:将原始信息中需截去信息替换为空;或者,从原始信息中需保留信息的开始位置开始,截取至需保留信息的结束位置,其他信息舍弃等,本申请实施例对此不作具体的限定。

在上述方案中,可以判断被处罚人块对应的被处罚人信息中是否存在需截去信息,从而保证最终得到的分析结果简洁明了。

请参照图3,图3为本申请实施例提供的一种处罚决定书分析装置的结构框图,该处罚决定书分析装置300可以包括:第一获取模块301,用于获取待分析处罚决定书;输入模块302,用于将所述待分析处罚决定书输入预先建立好的处罚决定书分析模型中;其中,所述预先建立好的处罚决定书分析模型包括多个切块节点以及每个切块节点对应的提取表达式;输出模块303,用于通过所述处罚决定书分析模型中的所述切块节点以及所述提取表达式对所述待分析处罚决定书进行切块,输出由多个切块构成的切块文本作为所述处罚决定书分析模型输出的处罚决定书分析结果。

在本申请实施例中,利用预先建立好的处罚决定书分析模型对待分析处罚决定书进行切块,得到不同切块节点对应的不同内容,从而将一份处罚决定书按照内容分为多个部分,以实现对处罚决定书的分析。

进一步的,所述处罚决定书分析装置300还包括:第二获取模块,用于获取多个处罚决定书分析样本;其中,所述处罚决定书分析样本包括处罚决定书样本以及所述处罚决定书样本对应的分析结果;训练模块,用于将多个所述处罚决定书分析样本输入到待训练的处罚决定书分析模型中,以对所述待训练的处罚决定书分析模型进行训练,得到所述预先建立好的处罚决定书分析模型。

在本申请实施例中,在利用处罚决定书分析模型对待分析处罚决定书进行切块之前,可以首先利用多个处罚决定书分析样本对待训练的处罚决定书分析模型进行训练,得到预先建立好的处罚决定书分析模型,从而提高对处罚决定书进行分析的准确度。

进一步的,所述切块节点包括一级节点,所述输出模块303还用于:根据所述一级节点对所述待分析处罚决定书进行切块,得到由多个一级块构成的一级切块文本;其中,所述一级节点包括:被处罚人信息节点、被处罚事由节点、处理经过节点、事实节点、证据理由节点、处罚情况节点、救济途径节点以及文尾节点中的一个或者多个节点。

在本申请实施例中,根据待分析处罚决定书中的而具体内容,通过切块将该待分析处罚决定书分为文首、被处罚人信息、被处罚事由、处理经过、事实、证据理由、处罚情况、救济途径以及文尾等一个或者多个部分,从而实现对处罚决定书的分析。

进一步的,所述处罚决定书分析装置300还包括:第一判断模块,用于判断所述一级切块文本中是否存在多个连续的一级块对应的一级节点为相同的一级节点;合并模块,用于若所述一级切块文本中存在多个连续的一级块对应的一级节点为相同的一级节点,将多个所述相同的一级节点中的第一个一级节点对应的一级块的起始位置作为一个一级块的起点,并合并多个所述相同的一级节点对应的一级块。

在本申请实施例中,通过分析一级切块文本中是否存在连续节点,以将相同的一级节点对应的一级块进行合并,从而使得对待分析处罚决定书进行分析得到的分析结果更加简洁明了。

进一步的,所述切块节点还包括:二级节点;其中,一个所述一级节点与一个或者多个所述二级节点对应;所述处罚决定书分析装置300还包括:第一切块模块,用于利用一级块对应的一级节点对应的二级节点对所述一级块进行切块,得到由多个二级块构成的二级切块文本。

在本申请实施例中,在根据一级节点对待分析处罚决定书进行切块后,还可以基于二级节点对一级块进行进一步的切块,从而对待分析处罚决定书进行更为细致的分析。

进一步的,所述处罚决定书分析装置300还包括:第二判断模块,用于判断被处罚人块对应的被处罚人信息的属性为单位或者自然人;其中,被处罚人块为所述被处罚人信息节点对应的一级块;单位模块,用于若被处罚人块对应的被处罚人信息的属性为单位,则将所述单位作为二级节点;自然人模块,用于若被处罚人块对应的被处罚人信息的属性为自然人,则将所述自然人作为二级节点。

在本申请实施例中,可以判断被处罚人块对应的被处罚人信息的属性是单位还是自然人,从而实现对被处罚人的分析,以提高分析的准确度。

进一步的,所述处罚决定书分析装置300还包括:第三判断模块,用于判断所述被处罚人块中是否存在多个被处罚人;第二切块模块,用于若所述被处罚人块中存在多个被处罚人,将所述一级块进行切块,得到多个被处罚人块。

在本申请实施例中,可以判断被处罚人块中是否存在多个被处罚人,从而可以在存在多个被处罚人时,实现对多个被处罚人分别进行分析,从而提高分析的准确度。

进一步的,所述处罚决定书分析装置300还包括:第四判断模块,用于判断被处罚人块对应的被处罚人信息中是否存在需截去信息;其中,被处罚人块为所述被处罚人信息节点对应的一级块;截去模块,用于若被处罚人块对应的被处罚人信息中存在需截去信息,则截去所述需截去信息。

在本申请实施例中,可以判断被处罚人块对应的被处罚人信息中是否存在需截去信息,从而保证最终得到的分析结果简洁明了。

请参照图4,图4为本申请实施例提供的一种电子设备的结构框图,该电子设备400包括:至少一个处理器401,至少一个通信接口402,至少一个存储器403和至少一个通信总线404。其中,通信总线404用于实现这些组件直接的连接通信,通信接口402用于与其他节点设备进行信令或数据的通信,存储器403存储有处理器401可执行的机器可读指令。当电子设备400运行时,处理器401与存储器403之间通过通信总线404通信,机器可读指令被处理器401调用时执行上述处罚决定书分析方法。

例如,本申请实施例的处理器401通过通信总线404从存储器403读取计算机程序并执行该计算机程序可以实现如下方法:步骤S101:获取待分析处罚决定书。步骤S102:将待分析处罚决定书输入预先建立好的处罚决定书分析模型中。在一些示例中,处理器401还可以对处罚决定分析模型进行训练,也就是说,可以执行如下步骤:步骤S201:获取多个处罚决定书分析样本。步骤S202:将多个处罚决定书分析样本输入到待训练的处罚决定书分析模型中,以对待训练的处罚决定书分析模型进行训练,得到预先建立好的处罚决定书分析模型。

处理器401可以是一种集成电路芯片,具有信号处理能力。上述处理器401可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器403可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。

可以理解,图4所示的结构仅为示意,电子设备400还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。于本申请实施例中,电子设备400可以是,但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等实体设备,还可以是虚拟机等虚拟设备。另外,电子设备400也不一定是单台设备,还可以是多台设备的组合,例如服务器集群,等等。

本申请实施例还提供一种计算机程序产品,包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述实施例中处罚决定书分析方法的步骤,例如包括:获取待分析处罚决定书;将所述待分析处罚决定书输入预先建立好的处罚决定书分析模型中;其中,所述预先建立好的处罚决定书分析模型包括多个切块节点以及每个切块节点对应的提取表达式;通过所述处罚决定书分析模型中的所述切块节点以及所述提取表达式对所述待分析处罚决定书进行切块,输出由多个切块构成的切块文本作为所述处罚决定书分析模型输出的处罚决定书分析结果。

在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号