公开/公告号CN112540753A
专利类型发明专利
公开/公告日2021-03-23
原文格式PDF
申请/专利权人 航天科工智慧产业发展有限公司;
申请/专利号CN202011538455.0
申请日2020-12-23
分类号G06F8/30(20180101);G06F8/34(20180101);G06F8/41(20180101);G06F40/284(20200101);G06F40/295(20200101);G06N3/04(20060101);G06N3/08(20060101);G06N7/00(20060101);G06N20/10(20190101);G06Q10/06(20120101);G06Q50/18(20120101);
代理机构11430 北京市诚辉律师事务所;
代理人杨帅峰
地址 100854 北京市西城区高粱桥路6号5号楼A区(T4)06A1(德胜园区)
入库时间 2023-06-19 10:22:47
技术领域
本申请属于数据处理技术领域,特别是涉及一种案件特征解析方法。
背景技术
文本,是指书面语言的表现形式,从文学角度说,通常是具有完整、系统含义(Message)的一个句子或多个句子的组合。一个文本可以是一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。广义"文本":任何由书写所固定下来的任何话语。(利科尔)狭义"文本":由语言文字组成的文学实体,代指"作品",相对于作者、世界构成一个独立、自足的系统。
现有技术需要专业司法人员和技术开发人员共同讨论交流,技术开发人员必须充分理解司法业务逻辑的情况下才能执行下一步的软件编码实现,这样的缺点导致在人员交流过程中需要投入大量的人力资源,并且在司法领域中,案件特征的信息种类繁多,而且每一种信息业务规则,文本表示的方式多种多样,从而进一步增加人力成本。
发明内容
1.要解决的技术问题
由于现有技术采用具有专业司法知识背景的人员进行人工总业务规则,或者人工数据标注,再指导技术研发人员业务逻辑体现,技术人员依据业务逻辑进行软件实现。由于文本较多而且文本中的信息复杂,使得业务复杂而难以实现案件特征从文本中进行提取的问题,本申请提供了一种案件特征解析方法。
2.技术方案
为了达到上述的目的,本申请提供了一种案件特征解析方法,所述方法包括如下步骤:步骤1:提取文本中案件特征,获取所述案件特征的业务规则;步骤2:将所述业务规则通过可视化界面进行表述;步骤3:对所述业务规则进行步骤拆解,对每个步骤的动作进行解析,匹配相应的计算方法后,按照预设顺序有序执行计算。
本申请提供的另一种实施方式为:所述步骤1中案件特征包括案由/罪名、当事人姓名、当事人诉讼地位、审理法院、公司机关和地域。
本申请提供的另一种实施方式为:所述步骤2中采用图形化表示法将所述业务规则通过可视化界面进行表述。
本申请提供的另一种实施方式为:所述图形化为业务流程模型和标记法图形化。
本申请提供的另一种实施方式为:所述步骤3中基于有向图的拓扑排序实现业务流程模型和标记法工作流解析,将业务流程模型和标记法流程图中的每一个组件作为有向图的顶点进行初始化,通过拓扑排序算法进行排序,保证每个顶点的输入顶点优先执行,并通过解析逻辑表达式进行流程的分支判断,决定流程走向,从而完成对流程图的解析。
本申请提供的另一种实施方式为:所述可视化界面支持建流程顺序,逻辑判断和事件定义。
本申请提供的另一种实施方式为:所述流程顺序为所有元件按照一定的指向性顺序,按步执行,形成先后顺序;所述逻辑判断:通过判断性条件决定某个或某系列元件是否参与执行计算操作,所述事件定义为业务规则的核心内容是由各种各样的事件组合而成。
本申请提供的另一种实施方式为:所述事件包括分支事件、运算事件和合并事件,所述分支事件是将解析业务流程拆分成多个分支;所述运算事件为具体的执行算法,包含各种各样的计算规则;所述合并事件为将多个分支流程都运算结束后进行合并流程。
本申请提供的另一种实施方式为:所述运算事件包括字符截取、拼接和数值运算。本申请提供的另一种实施方式为:所述解析包括对字符串、数值类型、日期类型和自定结构体类型进行解析。
3.有益效果
与现有技术相比,本申请提供的一种案件特征解析方法的有益效果在于:
本申请提供的案件特征解析方法,利用图形化表示法,将文本中提取案件特征的业务规则通过可视化界面进行表述,再利用流程引擎技术,将业务规则转换成计算机计算过程,从而达到案件特征提取的目的。
本申请提供的案件特征解析方法,解决因业务复杂而难以实现案件特征从司法文本中提取的难题。
本申请提供的案件特征解析方法,主要针对司法文本进行案件特征解析。
本申请提供的案件特征解析方法,采用一种技术工具的办法,将各种提取过程进行流程拆解,对相同细节的业务逻辑过程提炼成共性方法,将共性方法封装成组件,对外提供技术参数处理不同的样本数据,通过对组件的逻辑组装,从而实现复杂业务逻辑解析操作。这个工具解决业务人员和技术人员一对一的交流过程,将技术人员完全释放出来了。
附图说明
图1是本申请的案件特征解析方法框架示意图。
具体实施方式
在下文中,将参考附图对本申请的具体实施例进行详细地描述,依照这些详细的描述,所属领域技术人员能够清楚地理解本申请,并能够实施本申请。在不违背本申请原理的情况下,各个不同的实施例中的特征可以进行组合以获得新的实施方式,或者替代某些实施例中的某些特征,获得其它优选的实施方式。
参见图1,本申请提供一种案件特征解析方法,所述方法包括如下步骤:步骤1:提取文本中案件特征,获取所述案件特征的业务规则。步骤2:将所述业务规则通过可视化界面进行表述。步骤3:对所述业务规则进行步骤拆解,对每个步骤的动作进行解析,匹配相应的计算方法后,按照预设顺序有序执行计算(流程引擎)。
依据BPMN中表述的顺序流程,实现一套解析流程引擎算法,对流程解析,并且按照顺序执行,对流程中每一个事件,转化成对应的运算方法;
进一步地,所述步骤1中案件特征包括案由/罪名、当事人姓名、当事人诉讼地位、审理法院、公司机关和地域。
进一步地,所述步骤2中采用图形化表示法将所述业务规则通过可视化界面进行表述。
进一步地,所述图形化为业务流程模型和标记法图形化。
BPMN定义了一个业务流程图(Business Process Diagram),该业务流程图基于一个流程图(flowcharting),该流程图被设计用于创建业务流程操作的图形化模型。而一个业务流程模型(Business Process Model),指一个由图形对象(graphical objects)组成的网状图,图形对象包括活动(activities)和用于定义这些活动执行顺序的流程控制器(flow controls)。BPMN就是业务流程模型和标记法(Business Process Model andNotation),是一套图形化表示法,用于以业务流程模型详细说明各种业务流程,包括这些图元如何组合成一个业务流程图(Business Process Diagram),讨论BPMN的各种的用途,包括以何种精度来影响一个流程图中的模型;BPMN作为一个标准的价值,以及BPMN未来发展的远景。
BPMN图形化表示案件特征提取的业务规则
设计一套图形可视化界面,支持构建流程顺序,逻辑判断,事件定义等一系列基础元件,利用这些基础元件,支撑图形可视化编辑具体的业务规则。
进一步地,所述步骤3中基于有向图的拓扑排序实现业务流程模型和标记法工作流解析,将业务流程模型和标记法流程图中的每一个组件作为有向图的顶点进行初始化,通过拓扑排序算法进行排序,保证每个顶点的输入顶点优先执行,并通过解析逻辑表达式进行流程的分支判断,决定流程走向,从而完成对流程图的解析。
进一步地,所述可视化界面支持建流程顺序,逻辑判断和事件定义。
进一步地,所述流程顺序为所有元件按照一定的指向性顺序,按步执行,形成先后顺序;所述逻辑判断:通过判断性条件决定某个或某系列元件是否参与执行计算操作,所述事件定义为业务规则的核心内容是由各种各样的事件组合而成。
流程顺序具体的执行依据BPMN图中有方向的连接线指定的顺序依次执行,如果有;并行表示的连接线,则以线头备注第一个数值字符表示优先级,数值越小越先执行。
逻辑判断:通过判断性条件,BPMN图中菱形图表表示的是有选择性的操作流程,每一个选择执行有向线路上标注具体的可执行条件,也就是一个逻辑运算表达式,通过带入当前文书信息计算表达式结果是与否,决定某个或某系列元件是否参与执行计算操作。
进一步地,所述事件包括分支事件、运算事件和合并事件,所述分支事件是将解析业务流程拆分成多个分支;所述运算事件为具体的执行算法,包含各种各样的计算规则;所述合并事件为将多个分支流程都运算结束后进行合并流程。
进一步地,所述运算事件包括字符截取、拼接和数值运算。
进一步地,所述解析包括对字符串、数值类型、日期类型和自定结构体类型进行解析。如:对字符串截取、查找、拼接;又如:对数值类型求最大值、最小值、加减乘除运算等;再如:对日期数值做格式转换等等;
实施例
采用本申请中的方法建立司法文本解析平台,包括:
语料标注管理:建设一套管理工具,对标注人员、原始数据、标注任务、标注结果、结果测评、语料导出等进行人工标注数据全流程管理,将人工经验转化成机器可以识别的数据,同时保障数据质量的正确性。
机器学习能力:主要是通过训练数据模型的方式,辅助NLP技术提升解析精准度。其算法多种多样,常用的有CRF(条件随机场)、HMM(隐马尔科夫模型)、朴素贝叶斯分类器、决策树、SVM(支持向量机)、RNN(循环神经网络)等。
语言技术服务:机器学习和语料库产出的人工经验,也就是数据模型,通过这个模型为文本提供自然语言处理技术服务,包括:中文自动分词、词性识别、命名实体识别三种能力输出。
司法文书解析管理:利用一套工具对文本信息提取进行管理,对解析规则、解析维度、维度间的关系、文书种类、文书与维度的关系等内容形成严谨的逻辑结构。
司法文书解析服务:将非结构化的司法文本文书转化成结构化数据,为各种智能化应用系统提供基础能力,这种能力主要将各种司法文书中的各种关键业务信息进行提取的过程。为上层应用系统提供非结构化文本转化成结构化数据的能力。司法领域的软件应用系统往往需要处理各种司法文书,从司法文书中提炼有价值的案件信息,用于大数据分析进行数据挖掘,从文本中提炼出案件信息就变成不可或缺的一步了,本申请的方法就是解决这样的难题,并且极大的减少了人力成本的投入。
采用本申请中的方法建立a)检务服务大数据平台
检察大数据应用平台是够为检务决策提供智能支持的数据整合、展示、检索、分析系统
b)民事行政检察智能辅助系统
民事行政智能辅助系统服务人民检察院民事、行政检察监督业务,涵盖对生效判决、裁定、调解书的监督业务,对审判程序中审判人员违法行为的监督业务,对执行活动的监督业务,辅助检察官高质高效完成案件的办理。系统利用大数据技术、人工智能、司法文书解析等技术,辅助检察官依职权从海量裁判文书中发现监督线索,辅助检察官阅览电子卷宗审查案件,辅助检察官撰写大量办案文书。
尽管在上文中参考特定的实施例对本申请进行了描述,但是所属领域技术人员应当理解,在本申请公开的原理和范围内,可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定,并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。
机译: 组成;药物组合物;联合疗法医疗器械一种给予至少一种缩水甘油环素和至少一种华法林的方法;治疗复杂的腹腔内感染(ciai)和复杂的皮肤及皮肤结构感染(csssi)的方法;施用抗生素的方法;制品;案件;使用案件;式I的糖基环素或其药学上可接受的盐的用途;和产品
机译: 从案件记录数据库中选择有关典型特征和特殊特征的知识的系统
机译: 从TICAM1基因衍生的多核苷酸,包括单个核苷酸多态性,微阵列和诊断试剂盒,包括相同的特征,以及使用相同的自闭症光谱障碍的解析方法