公开/公告号CN112800211A
专利类型发明专利
公开/公告日2021-05-14
原文格式PDF
申请/专利权人 江苏网进科技股份有限公司;
申请/专利号CN202011625462.4
发明设计人 李参宏;
申请日2020-12-31
分类号G06F16/34(20190101);G06Q50/18(20120101);G06F40/216(20200101);G06F40/30(20200101);
代理机构32342 苏州佳博知识产权代理事务所(普通合伙);
代理人唐毅
地址 215300 江苏省苏州市昆山市玉山镇登云路288号
入库时间 2023-06-19 10:58:46
技术领域
本发明涉及信息内容抽取方法技术领域,尤其涉及一种基于TextRank算法的法律文书中犯罪过程关键信息抽取方法。
背景技术
近年来犯罪手段的不断变化,导致法律文书中嫌疑人的犯罪过程具有形式多样的特点。对法律文书中嫌疑人的犯罪过程关键信息进行抽取,是最终实现文书匹配、量刑预测等下游应用的先决条件。而现有的文本信息抽取方法存在以下不足:
利用神经网络算法进行文本信息抽取需要大型文书语料库,同时存在训练时间长,犯罪过程关键信息抽取慢的问题,不适合进行实际应用。
利用基于统计的方法进行文书中信息抽取往往能够达到较快的速度,其中最经典的算法为TextRank算法。但其在对文本信息进行只考虑了句子节点间的相似性,在构建图模型中结点间边关系时直接比较句子间包含共同词的数量,以此来判断两句子关联程度,而忽视了文本的篇章结构以及文本中句子的位置及语义信息。
同时法律文书与其他领域文本不同,嫌疑人的犯罪过程在文书中较为集中且专业说法较多,不能直接利用现有文本信息抽取方法进行抽取。
因此,有必要提供一种新的抽取方法解决上述问题。
发明内容
为解决上述背景技术中提出的问题。本发明提供了一种基于TextRank算法的法律文书中犯罪过程关键信息抽取方法,可以使最终保留的句子更加具有连贯性。
为实现上述目的,本发明提供如下技术方案:一种基于TextRank算法的法律文书中犯罪过程关键信息抽取方法,具体包括以下步骤:
步骤A:对法律文书相关文本进行预处理,对设定的词或者词性进行标注,获得初步筛选出的主题词集合w={w
上述步骤D中,其步骤包括:步骤D1:文本在抽取词信息的时候,如果当前词语位于句子前部应增加权重信息,根据上步利用CBOW模型得到的词向量得到距离值,将其与位置平均值比较可以得到距离信息,距离句首位置越近权重P
上述D1步骤中,权重分配方式如下:
将第二步得到的词的TF-IDF值与权重P
上述步骤D3中,将集合w
其中,词w
上述步骤F包括:步骤F1:将句子在文本中所处位置以及主题词信息融入到图模型顶点计算图模型的顶点句子得分;确认句子中是否包含主题词,包含主题词的句子显然更为关键,并定义主题词信息权重;步骤F2:通过句子矩阵表示,获得两个矩阵的余弦相似度作为图模型中边关系权重;步骤F3:训练的TextRank图模型,将图中顶点间边关系权重初始化为1,学习率设置一个值,对所有顶点值及边关系权重不断迭代计算直到模型收敛,各顶点的最终得分将作为确定当前法律文书中关键句的重要依据。
上述步骤F1包括:句子位置信息权重的定义为:
主题词信息权重的定义为:
图模型的顶点句子得分方式为:
Score(i)=P(s
其中TextRank(i)为经典TextRank中的方式,公式为:
其中w
上述步骤F2中获得图模型中顶点间边关系权重具体方式:
所述步骤G包括如下步骤:步骤G1:对K个句子进行排序,按照得分顺序从高到低排列会使最后的犯罪过程关键信息缺乏整体性以及连贯性,按照该方式处理后形成犯罪过程关键信息集合S
MR(S
其中α为一设定值,相似度计算则采用同步骤F中图模型边关系权重的方法,S
与现有技术相比,本发明基于TextRank算法的法律文书中犯罪过程关键信息抽取方法的有益效果是:该方法针对法律文书的特殊性提取主题词,然后融合文本主题词、句间位置关系及语义关系计算TextRank算法中图模型的顶点得分以及顶点间边关系,并结合句子和主题词处理多余信息,最终选取topK得分的句子作为此法律文书中嫌疑人的犯罪过程关键信息。还结合句子和主题词信息并利用MMR算法来去除冗余信息,使最后从法律文书文本中抽取出的犯罪过程关键信息能够较好概括全文,同时保持语句间的连贯性。
附图说明
图1为本发明基于TextRank算法的法律文书中犯罪过程关键信息抽取方法流程示意图;
图2为本发明增加词位置信息以及合并语义相似词,获得最终关键词的排序信息流程示意图;
图3为本发明构建TextRank算法的图模型,利用步骤E获得的词向量表示与设置初始值进行迭代直至收敛流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至图3,本发明提供一种基于TextRank算法的法律文书中犯罪过程关键信息抽取方法,其特征在于,具体包括以下步骤:
步骤A:对法律文书相关文本进行预处理,对设定的词或者词性进行标注,主要包括分词、去停用词以及词性标注,得到初步筛选出的主题词集合w={w
具体的,上述步骤A在获取输入文本后,预处理步骤具体为:步骤A1:分词使用的是效果较好的中文分词工具jieba,对文本中包含的字符进行切分。
步骤A2:根据钢法律文书文本特性总结停用词表,并利用构建好的停用词表去除法律文书中无用词,这些词主要为介词、助词、连接词等。
步骤A3:使用jieba工具包对工艺文本进行词性标注,去掉文本中所有的非名词,获得工艺文本主题词集合w={w
步骤B:获得主题词集合中每个词语的TF*IDF值;步骤B具体为:首先计算词频TF值,统计w集合中相关词语在文本中出现的次数;再计算逆文档频率IDF值,统计w集合中相关词语在所有法律文书文本(或文书语料库)中出现的比例,将计算得到的结果取对数,该占比值越小,IDF的值则越大,表明该词区分于其他词的能力越强;最后计算词的TF-IDF值,词出现的次数越多,得到的TF*IDF值越大。
TF*IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,为一检索与分析种词频在文件中出现频率的常用技术方法。
步骤C:将文本预处理后的主题词集合w转化为向量表示形式,得到n维的词向量表示,得到新的工艺文本主题词集合w
具体的,将文本预处理后的主题词集合w通过word2vec工具转化为向量表示形式。
具体的,选用其中的CBOW模型并用hierarchical softmax方法完成转化,得到n维的词向量表示,为统计词位置信息以及词语间语义相似度做准备,经过向量化表示得到新的法律文书主题词集合w
步骤D:增加词位置信息以及合并语义相似词;
参考图2,上述步骤D中,其步骤包括:
步骤D1:文本在抽取词信息的时候,如果当前词语位于句子前部应增加权重信息,根据上步利用CBOW模型得到的词向量得到距离值,将其与位置平均值比较可以得到距离信息,距离句首位置越近权重P
步骤D2:将集合w
步骤D3:将剩余词语按TF-IDF
上述D1步骤中,权重分配方式如下:
将第二步得到的词的TF-IDF值与权重P
上述步骤D3中,将集合w
其中,词w
步骤E:将待抽取的法律文书以句子为单位进行分离,整个文本的句子集合表示为S={s
步骤F:构建TextRank算法的图模型,设置初始值进行迭代直至收敛;
上述步骤F包括:步骤F1:将句子在文本中所处位置以及主题词信息融入到图模型顶点计算图模型的顶点句子得分;文本中句子处在不同位置,权重信息不同,文本中段落的第一句包含的信息往往最多;同时确认句子中是否包含主题词,包含主题词的句子显然更为关键,并定义主题词信息权重;
步骤F2:通过句子矩阵表示,获得两个矩阵的余弦相似度作为图模型中边关系权重;
参考图3,上述步骤F1包括:
句子位置信息权重的定义为:
主题词信息权重的定义为:
图模型的顶点句子得分方式为:
Score(i)=P(s
其中现有技术中,TextRank(i)为经典TextRank中的方式,公式为:
其中w
主要统计两句子间共现词数量来反映关联性,而忽视了句子间语义信息。本发明则利用步骤E中得到的句子矩阵表示,计算两个矩阵的余弦相似度作为图模型中边关系权重。
现有技术仅仅是通过两个句子的共现词数量来反映关联性,而忽视了句子间语义信息,本发明包含更多的文本语义信息,抽取的信息更准确。
现有技术中,主要统计两句子间共现词数量来反映关联性而忽视了句子间语义信息,经典的TextRank算法的获取方式为:
本发明则利用步骤E中得到的句子矩阵表示,计算两个矩阵的余弦相似度作为图模型中边关系权重。获得图模型中顶点间边关系权重具体方式:
步骤F3:训练改进的TextRank图模型,将图中顶点间边关系权重初始化为1,学习率设置为0.001,对所有顶点值及边关系权重不断迭代计算直到模型收敛,此时各顶点的最终得分将作为确定当前法律文书中犯罪过程关键句的重要依据。
步骤G:对步骤F中的所有句子顶点得分进行排序,取topK作为抽取出的犯罪过程关键信息,其中K值为文本所有句子数的10%;并对此K个句子的顺序进行排列,并去除其中的冗余信息。
所述步骤G包括如下步骤:
步骤G1:对K个句子进行排序,仅仅按照得分顺序从高到低排列会使最后的犯罪过程关键信息缺乏整体性以及连贯性,本发明的排序原则为:
1)当句子中包含关键时刻、步骤等时序信息时,则两个句子由该时序信息决定顺序;
2)主题词原有顺序和句子顺序要相互对应,如果两个句子分别包含了两个不同的主题词信息,则该句子按照主题词原有顺序排序;
3)在句子包含主题词信息相同情况下,则按照原有文本的得分顺序进行排列。按照该方式处理后形成犯罪过程关键信息集合S
步骤G2:结合句子和主题词信息并利用MMR算法去除冗余的信息,计算公式为:
MR(S
其中α取0.8,相似度计算则采用同步骤F中图模型边关系权重的方法,S
计算每个句子的MR值,当MR(S
本发明与现有技术相比具有以下有益效果:
1)本发明相较于神经网络算法不需要构造大型语料库,同时训练时间短,法律文书中工艺信息抽取速度较快,适合于实际使用。
2)在文本预处理时,针对法律文书文本的特殊性,构造专用停用词表,相较于使用通用停用词表,可以有效提升文书最终抽取出的犯罪过程关键信息准确度。
3)经典的TextRank算法在构建图模型时,顶点得分和边关系权重计算均忽视了文本的篇章结构、文本主题以及文本中句子的位置和语义信息。本发明对经典TextRank算法进行改进,首先将句子在文本中所处位置以及主题词信息融入到图模型顶点计算中;其次图中顶点间边关系的计算不再用原有的共现词公式计算,而是利用包含句子语义信息的矩阵并通过计算两个矩阵的余弦相似度,最终作为图模型中边关系权重。
4)在利用改进TextRank算法获得topK关键句后,本发明还结合句子和主题词信息并利用MMR算法来去除冗余信息,使最后从法律文书文本中抽取出的犯罪过程关键信息能够较好概括全文,同时保持语句间的连贯性。
机译: 数据,即多媒体数据,一种处理方法,涉及将基于字典的算法的数据以压缩方式存储在嵌入式设备即控制模块的永久存储器中,并在易失性存储器中解压缩数据
机译: 基于Textrank的应用程序首选项文本分类方法
机译: 基于BERT TEXTRANK嵌入向量的BERT句子的核心句提取方法和设备