首页> 中国专利> 一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质

一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质

摘要

本发明公开了一种基于刑事司法文书的知识图谱的构建方法,构建方法包括:基于服务器终端,对法律规范所规定的各种量刑情节进行分类处理和归纳总结,建立结构化语义知识库,形成并基于量刑因素图谱规则,从刑事裁判文书网自动同步数据,或手动添加文书数据创建数据集,经过实体识别、信息抽取、知识融合、知识存储获得实体信息,进行知识图谱的构建,采用人工智能的技术手段,采集并对刑事裁判文书进行学习和分析,持续迭代更新,完善知识图谱。本发明有充足的法律依据作为法理支撑,数值精确度高;充分考虑到刑罚裁量的差异因素,能够适用于不同的量刑环境,还能不断地更新完善。

著录项

  • 公开/公告号CN113239130A

    专利类型发明专利

  • 公开/公告日2021-08-10

    原文格式PDF

  • 申请/专利权人 广东博维创远科技有限公司;

    申请/专利号CN202110677480.5

  • 发明设计人 王燕玲;

    申请日2021-06-18

  • 分类号G06F16/28(20190101);G06F16/2458(20190101);G06F16/25(20190101);G06F40/295(20200101);G06F40/30(20200101);G06Q50/18(20120101);

  • 代理机构44562 佛山高业知识产权代理事务所(普通合伙);

  • 代理人陈安平

  • 地址 528000 广东省佛山市顺德区乐从镇乐从社区居民委员会东平新城文华南路8号保利商务中心5座302房

  • 入库时间 2023-06-19 12:10:19

说明书

技术领域

本发明涉及司法文件文字识别技术领域,具体讲是一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质。

背景技术

以事实为根据是中外刑法定罪量刑的铁律,刑事处置方式及程度对应的事实应是反映该罪具体形态的事实以及附着于此的行为人因素。基本犯罪事实和相关的量刑情节是对量刑轻重有重要影响的因素,能够反映同种犯罪的罪轻与罪重,任何因素的遗漏都可能导致最终量刑结果的偏差,只有设计合法合规、科学合理的情节提取要素,才有可能得到相对公正的量刑结果。

任何犯罪都具备若干基本情节,这些用以定罪和量刑的情节是最基础的犯罪形式,反映了犯罪行为的基本情况,而定罪情节和量刑情节这两种信息的内容形式多变,构词规范复杂,不遵循特定的字符模式,提取难度较大,对此,应当引入结构化的语义知识库,构建适用于司法领域的精准量刑知识图谱,将描述案件事实数据粒度通过关系抽取的方式从文档级别降级到标签级别,聚合大量知识标签,有助于优化机器模型,提高识别的精准度。

发明内容

针对背景技术中存在的技术缺陷,本发明提出一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质,解决了上述技术问题以及满足了实际需求,具体的技术方案如下所示:

一种基于刑事司法文书的知识图谱的构建方法,所述构建方法包括:

基于服务器终端,对《刑法》、《量刑指导意见》、《量刑细则》法律规范所规定的各种量刑情节进行分类处理和归纳总结;

根据各种量刑情节的分类处理和归纳总结,以情节为基本变量,法律逻辑展开,建立结构化语义知识库,形成系统完整的量刑因素图谱规则;

基于所述量刑因素图谱规则,从刑事裁判文书网大量的文书数据提取刑事裁判文书自动同步数据,或手动在所述数据集详情页面直接添加文书数据创建数据集;

根据数据集的内容,经过实体识别、信息抽取、知识融合、知识存储获得实体信息并进行标注;

根据标注的所述实体信息,基于量刑因素图谱规则进行基于刑事裁判文书的知识图谱的构建;

基于上述构建的所述知识图谱不断采用人工智能的技术手段,采集公开的法律文书,通过对海量刑事裁判文书进行学习和分析,从中提取法定、酌定情节实体信息,部分经过人工审核后加入到知识库中持续迭代更新,完善所述知识图谱。

作为本发明的进一步方案,所述分类处理和归纳总结包括量刑的概念功能和特征、量刑的原则、量刑相关制度、立足于刑法分则规定的量刑过程中需要考虑的各种量刑情节要素,以及量刑指导意见、各省相应的量刑实施细则规定的各个罪不同的量刑规则,还包括现行的法律法规、司法解释和其他通知规定。

作为本发明的进一步方案,所述量刑因素图谱规则基于包括《中华人民共和国刑法》《最高人民法院<关于常见犯罪的量刑指导意见>》《广东省高级人民法院<关于常见犯罪的量刑指导意见>实施细则》《最高人民法院、最高人民检察院关于办理盗窃刑事案件适用法律若干问题的解释》《广东省高级人民法院、广东省人民检察院关于确定盗窃刑事案件数额标准的通知》以规范性法律文件的形式呈现的立法或司法依据。

作为本发明的进一步方案,所述数据集的创建根据互联网公布的刑事裁判文书所形成的海量司法大数据,基于所述量刑因素图谱规则对刑事裁判文书中的司法数据进行数据分析、数据预处理,对给定的刑事裁判文书分段打标签。

作为本发明的进一步方案,所述实体识别、信息抽取、知识融合以及知识存储是根据量刑因素图谱规则中不同案件实体的相互关系,通过NLP自然语言处理技术自动实时、明确地对海量司法文本信息进行分析推导和提取融合,结合模式匹配的方法,运用正则表达式,抽取刑事裁判文书中的特定表述及要素,并运用命名实体识别技术为抽取出的实体进行类型标注。

作为本发明的进一步方案,所述命名实体的类型标注包括标注实体标签、标注关系标签和特定规则,所述实体标签基于所述实体识别、信息抽取、知识融合以及知识存储的实体信息得到,所述关系标签基于所述量刑因素图谱规则中不同案件实体的相互关系组合得到,所述特定规则是指实体和标签是匹配对应关系,由所述量刑因素图谱规则确定。

作为本发明的进一步方案,所述知识图谱的构建具体为对所述实体信息根据其标注的所述实体标签和所述关系标签通过所述量刑因素图谱规则进行关系搭建,从而确定所述实体信息之间的联系构建出所述知识图谱。

基于一种基于刑事司法文书的知识图谱的构建方法的一种服务器,其包括:一个或多个处理器、存储器、一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行上述实施例中的基于刑事司法文书的知识图谱的构建方法。

本发明具有的有益效果在于:基于刑事裁判文书的知识图谱通过自顶向下和自底向上两种方式实现构建,首先从法律法规内容,提取高质量数据以及其中的本体和模式信息,构建所述量刑因素图谱规则,充分依据法律法规,具有充足的法律依据作为法理支撑。然后借助人工智能的技术手段,采集公开的法律文书,通过对海量刑事裁判文书进行学习和分析,从中提取法定、酌定情节实体信息,部分经过人工审核后加入到知识库中,在数量上足够多,文书依赖其结构内容亦能够全面反映所需的全部素材,运用大数据算法智能演算得出的数值精确度也足够高。

除此以外所述知识图谱还以实务盗窃罪刑事裁判文书作为素材,必然会考虑到刑罚裁量中所涉的法官自由裁量权,以及法官裁判的地域差异、经济文化差异等因素,能够适用于不同的量环境,提供精确的数据信息大力助推量刑监测的实现。同时所述知识图谱的构建还能够通过深度学习,智能捕捉锁定并自动吸收最新立法、司法解释、指导性案例内确立的量刑规则不断地进行更新完善。

附图说明

图1为本发明的逻辑流程示意图。

具体实施方式

下面结合附图与相关实施例对本发明的实施方式进行说明,需要指出的是,以下相关实施例仅是为了更好说明本发明本身而举的优选实施例,而本发明的实施方式不局限于如下的实施例中,并且本发明涉及本技术领域的相关必要部件,应当视为本技术领域内的公知技术,是本技术领域所属的技术人员所能知道并掌握的。

一种基于刑事司法文书的知识图谱的构建方法,所述构建方法包括:

基于服务器终端,对《刑法》、《量刑指导意见》、《量刑细则》法律规范所规定的各种量刑情节进行分类处理和归纳总结;

根据各种量刑情节的分类处理和归纳总结,以情节为基本变量,法律逻辑展开,建立结构化语义知识库,形成系统完整的量刑因素图谱规则;

基于所述量刑因素图谱规则,从刑事裁判文书网大量的文书数据提取刑事裁判文书自动同步数据,或手动在所述数据集详情页面直接添加文书数据创建数据集;

根据数据集的内容,经过实体识别、信息抽取、知识融合、知识存储获得实体信息并进行标注;

根据标注的所述实体信息,基于量刑因素图谱规则进行基于刑事裁判文书的知识图谱的构建;

基于上述构建的所述知识图谱不断采用人工智能的技术手段,采集公开的法律文书,通过对海量刑事裁判文书进行学习和分析,从中提取法定、酌定情节实体信息,部分经过人工审核后加入到知识库中持续迭代更新,完善所述知识图谱。

司法知识图谱是司法智能应用的基础,使用人工智能技术构建盗窃罪知识图谱是实现量刑监测模型的首要步骤。也是提升司法智慧的技术保障,其中包含实体、概念、属性、关系等信息。构建一份知识图谱需要通过先通过知识抽取技术,从不同形式的数据源获取知识图谱构建的各类知识,采取知识融合剔除各类不适合的知识,提高知识图谱的质量与性能。例如从知识图谱融入法律情景模式的角度出发,盗窃罪量刑知识图谱就是通过将盗窃罪的犯罪事实梳理细化分解为定罪情节要素和量刑情节要素等案件要素,建立起描述案件事实与裁判结果之间关系的结构化语义知识库,从而客观反映犯罪与刑罚之间的关系。本发明通过所述服务器终端进行对《刑法》、《量刑指导意见》、《量刑细则》等法律规范所规定的各种量刑情节进行分类处理和归纳总结,以情节为基本变量,法律逻辑展开,建立结构化语义知识库,形成系统完整的量刑因素图谱规则。比如在定罪情节方面,“盗窃金额”可以细分为“数额较大”“数额巨大”“数额特别巨大”,并与具体金额挂钩。又如自首这一量刑情节,可以细分为“主动投案自首”“自首(犯罪较轻)”“自首(因形迹可疑被盘问后或强制戒毒期间主动交代)”“自首(已被办案机关发觉,但未调查谈话,主动交代的)”“自首(主动交代罪行或因亲友劝解、陪同自首)”“其他类型的自首”,并与减轻处罚相连接。

所述量刑因素图谱规则构建完成后,应综合运用人工智能和大数据技术,从法律法规和司法刑事裁判文书中抽取结构化与半结构化文本数据,通过设置定罪情节要素和量刑情节要素等知识要素,绘制盗窃罪量刑情节的知识图谱,经过“实体识别——信息抽取——知识融合——知识存储”等环节持续迭代更新,构建盗窃罪量刑情节的知识图谱,以确保量刑规范化、精准化。本发明所述知识图谱的构建技术在实践中主要分为自顶向下和自底向上两种方式。自顶向下构建图谱的实现路径主要是参考法律法规内容,提取高质量数据以及其中的本体和模式信息,如法定定罪量刑的实体信息,并加入到知识库中。而自底向上图谱结构则是借助人工智能的技术手段,采集公开的法律文书,通过对海量刑事裁判文书进行学习和分析,从中提取法定、酌定情节实体信息,部分经过人工审核后加入到知识库中。能够让所述知识图谱充分依据法律法规构建完善,同时不断地从海量的刑事裁判文书数据中提取信息收据进行学习和完善,从而构建适用于司法领域的精准量刑知识图谱,有助于优化机器模型,提高识别的精准度。

作为本发明的进一步方案,所述分类处理和归纳总结包括量刑的概念功能和特征、量刑的原则、量刑相关制度、立足于刑法分则规定的量刑过程中需要考虑的各种量刑情节要素,以及量刑指导意见、各省相应的量刑实施细则规定的各个罪不同的量刑规则,还包括现行的法律法规、司法解释和其他通知规定。

作为本发明的进一步方案,所述量刑因素图谱规则基于包括《中华人民共和国刑法》《最高人民法院<关于常见犯罪的量刑指导意见>》《广东省高级人民法院<关于常见犯罪的量刑指导意见>实施细则》《最高人民法院、最高人民检察院关于办理盗窃刑事案件适用法律若干问题的解释》《广东省高级人民法院、广东省人民检察院关于确定盗窃刑事案件数额标准的通知》以规范性法律文件的形式呈现的立法或司法依据。

所述分类处理和归纳总结立足于刑法总则关于量刑的基本原理的规定,具体包括但不限于量刑的概念功能和特征、量刑的原则、量刑相关制度等基础理论知识,还立足于刑法分则规定的量刑过程中需要考虑的各种量刑情节要素,以及量刑指导意见、各省相应的量刑实施细则规定的各个罪不同的量刑规则。

所述量刑因素图谱规则基于但不限于现行法律法规、司法解释和其他通知规定,具体包括但不限于《中华人民共和国刑法》《最高人民法院<关于常见犯罪的量刑指导意见>》《广东省高级人民法院<关于常见犯罪的量刑指导意见>实施细则》等以规范性法律文件的形式呈现的立法或司法依据。

所述量刑因素图谱规则依据一定的法律法规,以《中华人民共和国刑法》《最高人民法院<关于常见犯罪的量刑指导意见>》《广东省高级人民法院<关于常见犯罪的量刑指导意见>实施细则》等文件作为构建所述量刑因素图谱规则的法理基础,对影响量刑的因素进行量化分析。综上所述,所述知识图谱的建构对于监测的实现,既具有充足的法律依据作为法理支撑,又有大数据人工智能运用技术手段获取的海量案例大数据,在数量上足够多,文书依赖其结构内容亦能够全面反映监测所需的全部素材,运用大数据算法智能演算得出的数值精确度也足够高,同时量刑监测理论模型是以刑事裁判文书作为素材兼监测对象,必然会考虑到刑罚裁量中所涉的法官自由裁量权,以及法官裁判的地域差异、经济文化差异等因素,故量刑监测理论模型将融合各方面积极因素大力助推量刑监测的实现。

作为本发明的进一步方案,所述数据集的创建根据互联网公布的刑事裁判文书所形成的海量司法大数据,基于所述量刑因素图谱规则对刑事裁判文书中的司法数据进行数据分析、数据预处理,对给定的刑事裁判文书分段打标签。

法律文书是司法案件数据的主要表现形式,人民法院在互联网公布的刑事裁判文书所形成的海量司法大数据,将成为分析盗窃罪量刑规律、构建量刑监测模型的重要素材,其主要包含案件的发生过程、涉案人员信息、裁判结果等内容。本发明对刑事裁判文书中的司法数据进行数据分析、数据预处理,对给定的刑事裁判文书分段打标签,具体位置对刑事裁判文书从内容结构上进行信息整理,如标题、正文与结尾三部分的分类分段。再对其中标题部分中的审判机构名称与文书种类编号,正文部分中的含涉案人员信息、案件发生过程、裁判认定结果;结尾中的参审人员姓名与审理时间等内容进行打标签,将刑事裁判文书的信息从文档级别降级到标签级别,方便下一步的实体信息处理。对一份刑事刑事裁判文书准确地进行识别、采集、标注和关联案件中的信息,包括但不限于罪名、裁判年份、法院层级、审理程序、文书性质、定罪情节、量刑情节、主刑、缓刑等内容。

作为本发明的进一步方案,所述实体识别、信息抽取、知识融合以及知识存储是根据量刑因素图谱规则中不同案件实体的相互关系,通过NLP自然语言处理技术自动实时、明确地对海量司法文本信息进行分析推导和提取融合,结合模式匹配的方法,运用正则表达式,抽取刑事裁判文书中的特定表述及要素,并运用命名实体识别技术为抽取出的实体进行类型标注。

在上述所述数据集中提取到的:被告人姓名、裁判年份、审判结构、法院层级、审理程序、文书性质、主刑、缓刑等内容在文本形式上特点明显,都遵循一定的字符模式,因此可以采取模式匹配的方式,通过构建正则表达式模型对其进行定向提取。

任何犯罪都具备若干基本情节,这些用以定罪和量刑的情节是最基础的犯罪形式,反映了犯罪行为的基本情况,而定罪情节和量刑情节这两种信息的内容形式多变,构词规范复杂,不遵循特定的字符模式,提取难度较大,对此,本发明引入上述所述构化语义知识库和所述量刑因素图谱规则,将描述案件事实数据粒度通过关系抽取的方式聚合大量知识标签,构建适用于司法领域的精准量刑知识图谱。所述实体识别、信息抽取、知识融合以及知识存储是为了将数据挖掘领域对半结构化、非结构化的文本数据进行预处理,从海量的刑事裁判文书中抽取指定的事件、事实等信息,并形成结构化存储在所述服务器终端。在法律情景之下,NLP自然语言处理技术自动实时、明确地对海量司法文本信息进行分析推导和提取融合,能够从法律文书的法律语言中(自然语言的一种状态)准确提取相应情节。实现了基于设计好的刑事案件本体框架,将批量的刑事裁判文书中半结构化、非结构化的数据进行语义标注与特征抽取,形成结构化程度较好且富含语义信息的标签存储于案例库,实现从“沉睡的”海量数据向支持模型运行的“有价值的”信息转化。

作为本发明的进一步方案,所述命名实体的类型标注包括标注实体标签、标注关系标签和特定规则,所述实体标签基于所述实体识别、信息抽取、知识融合以及知识存储的实体信息得到,所述关系标签基于所述量刑因素图谱规则中不同案件实体的相互关系组合得到,所述特定规则是指实体和标签是匹配对应关系,由所述量刑因素图谱规则确定。

作为本发明的进一步方案,所述知识图谱的构建具体为对所述实体信息根据其标注的所述实体标签和所述关系标签通过所述量刑因素图谱规则进行关系搭建,从而确定所述实体信息之间的联系构建出所述知识图谱。

所述实体信息通过所述命名实体得到的所述实体标签和所述关系标签构建实体三元组,并对三元组进行有效性的筛选和整理,构成最适合所述量刑因素图谱规则的实体关系三元组,得到的实体关系三元组形成完整的知识语言逻辑体系,成为所述知识图谱的理论基础。通过所述实体标签和所述关系标签定义刑事裁判文书中涉案、种类、受理等诸多关系,多个所述实体信息之间的关系就能构成一整套完整的知识库,在经过数据构建形成基于刑事裁判文书的知识图谱。然后经过不断采用人工智能的技术手段,采集公开的法律文书,通过对海量刑事裁判文书进行学习和分析,从中提取法定、酌定情节实体信息,部分经过人工审核后加入到知识库中持续迭代更新,不断完善所述知识图谱。

基于一种基于刑事司法文书的知识图谱的构建方法的一种服务器,其包括:一个或多个处理器、存储器、一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行上述实施例中的基于刑事司法文书的知识图谱的构建方法。

本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现任一项技术方案所述的犯罪实际刑期的预测方法。其中,所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(只读存储器)、RAM(随即存储器)、EPROM(可擦写可编程只读存储器)、EEPROM(电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储设备包括由设备(例如,计算机、手机)以能够读的形式存储或传输消息的任何介质,可以是只读存储器,磁盘或光盘等。

作为一个实施例,所述服务器包括:一个或多个处理器,存储器,一个或多个应用程序,其中所述一个或多个应用程序被存储在存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述实施例中的基于刑事司法文书的知识图谱的构建方法。

本发明实施例提供的服务器可实现上述基于刑事司法文书的知识图谱的构建方法的实施例,具体功能实现请参详方法实施例中的说明,在此不再赘述。

在本发明实施例中,综合运用人工智能和大数据技术,从法律法规和司法刑事裁判文书中抽取结构化与半结构化文本数据,通过设置定罪情节要素和量刑情节要素等知识要素,绘制基于刑事裁判文书的知识图谱,经过“实体识别——信息抽取——知识融合——知识存储”等环节持续迭代更新,构建盗窃罪量刑情节的知识图谱,以确保量刑规范化、精准化。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号