首页> 中国专利> 一种适用于法律识别的层次多标签分类方法

一种适用于法律识别的层次多标签分类方法

摘要

本发明公开了一种适用于法律识别的层次多标签分类方法,包括以下步骤:步骤1,从经过预处理的裁判文书中提取案件事实及其法律条文;步骤2,基于标签空间的层次结构,扩展案件事实对应的法律条文,使案件样本的类别标签为标签空间的一个子集;步骤3,对案件事实文本进行分词和词性标注,对分词结果进行特征选择,选取能够充分表示案件事实的特征词构建特征向量;步骤4,构建预测模型:找出未见实例x在扩展多标签训练集中的k近邻样本集合N(x),给每个近邻样本设置权重,根据k个近邻样本对各个类别的分类权重计算未见实例属于各个类别的置信度,最后预测未见实例的类别标签集合。

著录项

  • 公开/公告号CN107577785A

    专利类型发明专利

  • 公开/公告日2018-01-12

    原文格式PDF

  • 申请/专利权人 南京大学;

    申请/专利号CN201710832304.8

  • 发明设计人 柏文阳;陈朋薇;张剡;周嵩;

    申请日2017-09-15

  • 分类号G06F17/30(20060101);G06F17/27(20060101);G06K9/62(20060101);

  • 代理机构32237 江苏圣典律师事务所;

  • 代理人胡建华;于瀚文

  • 地址 210023 江苏省南京市栖霞区仙林大道163号南京大学

  • 入库时间 2023-06-19 04:16:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-02-07

    授权

    授权

  • 2018-02-06

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170915

    实质审查的生效

  • 2018-01-12

    公开

    公开

说明书

技术领域

本发明属于计算机数据分析与挖掘领域,涉及一种适用于法律识别的层次多标签分类方法。

背景技术

层次多标签分类是多标签分类的一个特例。与一般的多标签分类不同,层次多标签分类问题中,每个样本可以具有多个类别标签,同时样本标签空间以树形或有向无环图的层次结构组织。在有向无环图中,一个节点可能有多个父节点,相比树形结构更为复杂,算法的设计难度更大,因此目前层次多标签分类方面的研究主要针对树形的类别标签结构。根据算法考察类别层次结构的不同方式,层次多标签分类算法可以分为局部算法和全局算法。

局部算法逐一考察类别层次中的各个内部节点的局部分类信息,将层次多标签分类问题转化为多个多标签分类问题。而且在训练内部节点上的多标签分类器时,需要选择合适的局部样本集。在预测阶段采用自顶向下等预测方式使预测结果满足层次要求。文献ESULI A,FAGNI T,SEBASTIANI F.TreeBoost.MH:A boosting algorithm formulti-labelhierarchical text categorization[C]//String Processing andInformationRetrieval.2006:13–24.提出了TreeBoost.MH算法来处理层次多标签文本分类问题。算法递归地在类别标签树中的每一个非叶子节点上训练多标签分类器,基分类器选择AdaBoost.MH,在每个多标签分类器训练过程中,特征选择和训练样本的选择都局部地进行。实验效果证明TreeBoost.MH算法在时间效率和预测性能上都好于AdaBoost.MH算法。文献CERRI R,BARROS R C,DE CARVALHO AC.Hierarchical multi-labelclassificationusing local neural networks[J].Journal of Computer and SystemSciences,2014,80(1):39–56.提出了基于多层感知机的局部层次多标签分类算法,在类别层次的每一层训练一个多层感知机网络,每个神经网络与一个类别层次关联,用于预测该层次上的类别标签,某一层上神经网络的预测结果将作为下一层神经网络的输入。由于每一层神经网络都是在同样的样本集合上训练得到,因此预测结果会出现不满足层次限制的情况,需要通过对预测结果进行后续处理来保证其满足层次限制。

局部算法的缺点一方面在于需要训练多个分类器,造成模型较为复杂,影响了模型的可理解性;另一方面在于预测过程中会出现阻塞问题,即在上层被错误分类的样本无法到达下层的分类器,虽然有人提出了降低阈值、限制投票和扩展阈值倍增三种策略来应对局部算法的阻塞问题,但局部算法往往在预测准确率上较为不理想。

全局算法从整体上考虑类别的层次结构,训练单一的层次多标签分类器,对未见实例进行预测。全局算法根据其处理类别标签层次结构的方式主要可以分为以下几种:一种全局算法是利用类别聚类,首先计算测试样本与各个类别的相似度,然后将测试样本分类到距离最近的类别。另一种方法是将层次多标签分类问题转换为多标签分类问题进行处理:文献KIRITCHENKO S,MATWIN S,FAMILI F.Functional annotation of genesusinghierarchical text categorization[J],2005.对训练样本的类别标签进行扩展,增加其祖先类别标签,将层次多标签分类问题转换为多标签分类问题进行处理。在测试阶段,由于采用的多标签分类算法AdaBoost.MH没有考虑类别的层次结构,因此面临了与局部算法相同的问题,即预测结果会有层次不一致情况,同样需要对模型的输出进行修正来保证层次限制满足。还有的全局算法是改造现有非层次分类算法使其能够直接处理层次信息并利用层次信息来改善性能。文献VENS C,STRUYF J,SCHIETGAT L,et al.Decision treesfor hierarchical multilabelclassification[J].Machine Learning,2008,73(2):185–214.基于预测聚类树(PCT)提出了Clus-HMC算法,训练一棵决策树来处理层次多标签分类问题,并且与Clus-HSC和Clus-SC方法进行了比较,Clus-SC忽略类别标签的层次结构,为每个类别标签训练一个独立的分类器,Clus-HSC方法是层次化的Clus-SC,预测结果满足层次限制。实验结果表明,全局的Clus-HMC算法不仅在预测性能上好于Clus-SC和Clus-HSC算法,而且在时间效率上也更好。

总的来说,全局算法有两方面特征:一次性的从整体上考虑类别的层次结构;不具有局部算法所特有的模块性。全局算法和局部算法的关键不同之处在于训练过程,在测试阶段,全局算法甚至也可以像局部算法一样使用自顶向下的方式对未见实例进行类别预测。

由于层次多标签分类问题中,类别标签的组织呈层次结构,因此如果样本具有类别标签ci,则样本也隐含地具有了ci的所有祖先类别标签;另一方面,在预测未见实例的类别时,也要满足层次限制,即不能出现未见实例属于某类别而不属于该类别的祖先类别的情况。一般的层次多标签分类算法往往无法保证其预测结果满足层次限制,或者由于没有利用到标签空间的层次结构特征而无法取得最优的学习效果。因此,层次多标签分类算法不仅要充分利用类别标签之间的关联和层次结构,提高分类模型的预测性能,还要使预测结果满足层次限制。

案件适用法律自动识别问题本质上是一个层次多标签分类问题,样本的类别标签即案件适用的法律条文呈树形结构组织,一个案件可能适用多项法律条文,且案件适用的各项法律条文具体程度可能不同。相应的用于解决案件适用法律自动识别问题的层次多标签分类算法需要能够处理树形的类别层次结构,而且为非强制叶节点预测算法,预测的类别标签可以对应到类别层次结构中的任意节点。

发明内容

发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种有效的的适用于法律识别的层次多标签分类方法。

技术方案:本发明公开了一种适用于法律识别的层次多标签分类方法,包括以下步骤:

步骤1,利用基于jsoup的爬虫技术从互连网上爬取所需的裁判文书原始文本数据集,一份裁判文书对应一个样本,以7:3的比例将其随机划分为训练集和测试集。然后进行裁判文书的预处理:根据裁判文书的行文结构从中提取案件事实及其适用的法律条文,案件事实用于生成案件样本的特征向量,适用的法律条文用于表示案件样本的类别标签,将原始文本数据集转化为半结构化的多标签训练集和测试集,半结构化的样本形式为:(案件事实描述,法律条文文本);对案件适用法律条文中的错误和格式不一致进行修正;利用哈工大的语言技术平台LTP作为语言处理工具(LTP是一整套中文语言处理系统,制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等六项中文处理核心技术),以及基于动态链接库(DLL)的应用程序接口、可视化工具,并且能够以网络服务的形式进行使用)对案件事实描述进行分词和词性标注。

步骤2,由于法律系统中法律条文的组织呈树形结构,对应地,由多标签训练集中的类别标签构成的标签空间呈树形结构。基于多标签训练集中的类别标签构成的标签空间标签空间的层次结构,扩展所有样本的案件事实对应的法律条文,使每个案件事实对应的类别标签为标签空间的一个子集且满足层次限制;

步骤3,对步骤1中来自训练集的分词结果(指的是步骤1所述半结构化的多标签训练集的案件事实部分的分词结果)进行特征选择,选取能够充分表示案件事实的特征词构建特征向量;经过文本表示,得到结构化的扩展多标签训练集Tr和测试集Te;

步骤4,构建预测模型:找出来自扩展多标签测试集Te的未见实例x在扩展多标签训练集Tr中的k近邻样本集合N(x),未见实例即待分类的案件事实,给每个近邻样本设置权重,根据k个近邻样本对标签空间中各个类别的分类权重计算未见实例属于标签空间中各个类别的置信度,预测未见实例的类别标签集合h(x),且h(x)满足层次限制。最后根据标签空间的树形结构,除去预测类别标签集合h(x)中的层次限制,(即标签扩展的逆过程),得到未见实例的具体适用法律条文。。

步骤2包括:

步骤2-1,在层次多标签分类问题中,给定d维实例空间(为实数集),和包含q个类别的标签空间Y={y1,y2,…,yq},yi表示第i个类别,则类别标签空间层次结构可以用二元组(Y,<)表示,如果有yi,yj∈Y且yi<yj,则类别yi属于类别yj,yi是yj的子孙类别,yj是yi的祖先类别,<表示类别标签的偏序关系,偏序关系<可以理解为“属于”关系,即如果有yi,yj∈Y且yi<yj,则类别yi属于类别yj,yi是yj的子孙类别,yj是yi的祖先类别。偏序关系<具有非对称性、非自反性和传递性,可以用以下四个特征描述:

a)类别标签层次结构中唯一的根节点用虚拟类别标签R表示,对任意yi∈Y,有yi<R;

b)对任意yi,yj∈Y,如果有yi<yj,那么

c)任意yi∈Y,有

d)任意yi,yj,yk∈Y,yi<yj且yj<yk,则有yi<yk

类别标签的组织结构满足上述四个特征的多标签分类问题都可以认为是层次多标签分类问题。由上述形式化定义可知,在层次化的类别标签空间中,从任一类别节点开始往上追溯到根节点而形成的唯一路径上的所有其他类别节点(除去开始节点)都是该类别节点的祖先类别节点。因此如果样本具有类别标签yi,则样本也隐含地具有了yi的所有祖先类别标签,这就要求分类器对未见实例的预测类别集合h(x)也要满足层次限制,即,且y′<y″:y″∈h(x)。其中y′为h(x)中的类别,y″为y′的一个祖先类别;

步骤2-2,对于任意训练样本(xi,hi)(1≤i≤m),m为获取的全部裁判文书样本的数量,xi∈X为d维的特征向量,用于表示案件事实部分,为与xi对应的一组类别标签,即xi对应的法律条文,令扩展后的类别标签集合为则hi′中包含hi中的所有类别标签及其所有祖先类别标签。形式化地,

标签扩展过程将类别标签的层次关系明确地在样本的类别标签中表达出来:如果样本被标记为某些类别,那么经过标签扩展,这些类别的祖先类别也会显式地赋予该样本;因此每个样本的类别标签可以看作标签空间树的一棵子树,并且各个子树的顶层都是根节点。由此可见,如果有yi,yj∈Y且yi<yj,未见实例在扩展后的多标签训练集中的k近邻样本中,具有类别标签yi的样本数一定不小于具有类别标签yj的样本数。标签扩展是保证本学习算法预测结果满足层次限制的重要步骤。

步骤3包括如下步骤:

步骤3-1,特征选择的目的是为了特征降维,由于一般的文本特征选择算法不能直接处理多标签数据集,因此需要将多标签数据转换为单标签数据进行处理。转换的方法是:对于每一个多标签样本(x,h),用|h|表示标签类别集合h中标签类别的个数,将其替换为|h|个新的单标签样本(x,yi)(1≤i≤|h|,yi∈h),每个新样本的类yi即为原多标签样本类别标签集合h中的一个类别标签,表1给出了按照上述策略,将多标签样本转化为单标签样本的示例。

表1多标签样本转换过程

步骤3-2,经过步骤3-1的转换过程,多标签的案件样本就转换成为了多个单标签的案件样本,可以利用一般特征选择算法对步骤1中原始训练集所得分词结果进行特征选择,选择一定数量(通常视原始文本数据集情况而定,比如用信息增益算法进行特征选择时,应使所选特征词的信息增益总量尽可能大且特征词数量不至于过多,一般至少取100个特征词)的具有区分能力的特征词构成特征空间,用来自特征空间的特征词表示每个案件样本的案件事实部分。其中,每个特征词对应的属性值,也就是特征权重,采用常用的TF-IDF算法进行计算。将每个案件样本的案件事实部分看成一个已经分词的文档,则所有案件样本的案件事实部分组成一个文档集合。文档集合中第i个文档中第j维特征的特征权重tf-idfij定义如下:

其中,tfij表示特征词tj在文档di中出现的频率,idfj表示特征词tj在文档集合中的反文档频率,N表示文档集合中的文档总数,nj表示特征词tj在文档集合中的文档频率,即文档集合中出现特征词tj的文档数目,分母为归一化因子。

步骤3-3,对步骤1中原始训练集所得分词结果进行特征选择,选择大约100个最具有区分能力的特征词构成特征向量。常用的文本特征选择方法主要基于文档频率(DF),互信息(MI),信息增益(IG),卡方统计(χ2Statistic,CHI)等衡量指标。基于文档频率的特征选择过于简单,往往无法选取最具分类信息的特征词,互信息的缺点在于容易受到特征词的边缘概率影响,因此本层次多标签分类方法选择信息增益或者卡方统计算法进行特征选择。

步骤3-3包括:采用信息增益算法进行特征选择:特征词t的信息增益IG(t)的定义如下:

其中,Pr(yi)表示类别yi出现的概率,Pr(t)表示特征t出现的概率,Pr(yi|t)表示在特征t出现的前提下类别yi出现的概率,表示特征t不出现的概率,表示在特征t不出现的前提下类别yi出现的概率。对于文档集合中的每个特征词,计算其信息增益,信息增益值低于设定的阈值(比如取0.15,设定阈值时应使所选特征词的信息增益总量尽可能大且特征词数量不至于过多)的特征词不纳入特征空间。

步骤3-3还可以采用卡方统计算法进行特征选择:先假设特征词与类别是不相关的,如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备择假设:即特征词与类别有着很高的相关度。

令A为包含特征词t且属于类别y的文档数量,B为包含特征词t而不属于类别y的文档数量,C为不包含特征词t而属于类别y的文档数量,D为不包含特征词t且不属于类别y的文档数量,N为总文档数量,则特征词t和类别y的卡方统计量χ2(t,y)定义为:

特征词t和类别y独立时,其卡方统计量为0,针对一个特征词,计算其关于各个类别的卡方统计量,然后分别计算均值χ2avg(t)和最大值χ2max(t),用这两种方式进行综合考虑,选出大约100个最具有区分能力的特征词:

χ2avg(t)=∑i=1Pr(yi2(t,yi),

χ2max(t)=maxi=1,...,qχ2(t,yi)。

Pr(yi)表示类别yi出现的概率。卡方统计特征选择算法相比于互信息的主要优点在于它是归一化的值,因此可以更好地衡量同一类别中的不同特征词。

步骤4中,找k近邻时,未见实例x与样本(xi,hi)的距离d(x,xi),采用它们的特征向量的余弦相似度的倒数进行衡量。未见实例的特征向量γ和近邻样本的特征向量λ的余弦相似度cos(γ,λ)计算公式如下:

其中,s表示向量分量的下标,即该分量位于向量中的位置,S表示向量的维度,γs表示向量γ的第s分量,λs表示向量λ的第s个分量。

步骤4中,用d(x,xi)表示实例x与样本(xi,hi)的距离,采用全标签距离权重法或者熵标签距离权重法计算样本((xi,hi)∈N(x))对于hi中的类别yj的分类权重wij

全标签距离权重法计算wij

熵标签距离权重法计算wij

实例属于类别yj的置信度c(x,yj)计算公式如下:

其中r表示第r个类别,wir表示hi的第r个类别yr的分类权重;

预测未见实例x的类别标签集合h(x)为:

选择0.5作为决策阈值,当未见实例属于各个类别的置信度都小于决策阈值时,返回置信度最大的类别作为未见实例所属的类别。

作为一种层次多标签分类方法,其预测结果需要满足层次限制,即,且y′<y″:y″∈h(x)。下面给出证明:由置信度计算公式知,如果算法预测未见实例x具有类别标签ya(ya∈Y),则x属于类别ya的置信度c(x,ya)大于阈值t,或者在所有类别中为最大值。考察类别ya的祖先类别yb(yb∈Y,ya<yb),如果yb对应于类别层次结构中的虚拟根节点,则x具有类别标签ya显然符合层次限制;否则,对于x的任意近邻样本(xi,Yi)∈N(x),如果ya∈Yi,则也有yb∈Yi,而反之则不一定成立,训练集的标签扩展过程保证了上述结论成立。因此,采用全标签距离权重法和熵标签距离权重法,可以推导出:

分母上保持不变,因此x属于类别yb的置信度c(x,yb)不小于x属于类别ya的置信度c(x,ya),如果有c(x,ya)>t,必然也有c(x,yb)>t,因此预测结果满足层次限制。

最后,本学习方法的性能评价指标采用的层次化评价指标:层次化的精度(hP)、层次化的召回率(hR)和层次化的F度量值(hF),它们的定义如下:

其中,是预测测试样本i属于的类别及其祖先类别的集合,是测试样本i实际属于的类别及其祖先类别的集合,求和操作是为了计算在所有测试样本上的值。

为了使案件适用法律的识别更有实用性,算法预测的目标类别最好是具体的法律条款,而不只是宽泛的法律,所以本方法考虑目标类别为全部法律条文和具体法律条款两种情况下的预测性能。下文分别用hP_all、hR_all、hF_all表示在目标类别为全部法律条文时系统的层次化精度、召回率和F度量值,用hP_partial、hR_partial、hF_partial表示在目标类别为具体法律条款时算法的层次化精度、召回率和F度量值。

除了层次化评价指标,还可以分别计算各个类别上的精度、召回率和F度量值,将所有类别上的精度、召回率和F度量值的均值作为系统性能的评价指标,即精度、召回率和F度量值的宏平均(Macro-averaging)。对于各个类别,令TP表示真正例的个数,FP表示伪正例的个数,TN表示真负例的个数,FN表示伪负例的个数,则精度、召回率和F值的宏平均Macro-P、Macro-R、Macro-F的计算公式如下:

本发明是一种全局的层次多标签分类方法,在整体上考虑类别标签的层次结构,保证预测结果也满足层次限制。本学习方法是一种惰性学习算法,不需要在训练集上构造明确的预测模型,只将原始的多标签样本进行标签扩展后存储起来,因而支持增量学习;在预测阶段,首先找到未见实例在训练集中的k个近邻样本,根据这些近邻样本对各个类别的分类权重来确定实例属于各个类别的置信度,进而预测未见实例所属的类别。本学习方法模型简单,支持增量学习,可以很好地应用到案件适用法律自动识别这类包含海量数据且数据不断增长的层次多标签分类问题中。

有益效果:本发明提供的一种适用于法律识别的层次多标签分类方法,在整体上充分考虑了法律条文标签空间的树形层次结构,使预测结果满足层次限制,不需要对预测结果进行额外修正。同时,本方法模型简单,支持增量学习,可以很好地应用到案件适用法律自动识别这类包含海量数据且数据不断增长的层次多标签分类问题中。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。

图1本发明主要流程图。

图2裁判文书样例。

图3法律条文标签空间树形结构。

图4法律条文组合频率分布。

图5不同近邻个数下的层次化指标性能比较。

图6不同近邻个数下的宏平均指标性能比较。

图7不同权重策略下的各指标性能比较。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本发明公开了一种适用于法律识别的层次多标签分类方法,包括以下步骤:

步骤1,利用基于jsoup的爬虫技术从互连网上爬取所需的裁判文书原始文本数据集,以7:3的比例将其随机划分为训练集和测试集。然后进行裁判文书的预处理,主要完成以下几项工作:

根据裁判文书的行文结构从中提取案件事实及其适用的法律条文,前者用于生成案件样本的特征向量,后者用于表示案件样本的类别标签,将原始文本数据集转化为半结构化的多标签训练集和测试集;

对案件适用法律条文中的错误和格式不一致进行修正;

利用哈工大的语言技术平台LTP对案件事实描述进行分词和词性标注。

步骤2,由于法律系统中法律条文的组织呈树形结构,对应地,由多标签训练集中的类别标签构成的标签空间呈树形结构。基于标签空间的层次结构,扩展所有样本的案件事实对应的法律条文,使每个案件事实对应的类别标签集合为标签空间的一个子集且满足层次限制;

步骤3,对步骤1中原始训练集所得分词结果进行特征选择,选取能够充分表示案件事实的特征词构建特征向量;经过文本表示,得到结构化的扩展多标签训练集Tr和测试集Te;

步骤4,构建预测模型:找出来自扩展多标签测试集Te的未见实例x在扩展多标签训练集Tr中的k近邻样本集合N(x),给每个近邻样本设置权重,根据k个近邻样本对标签空间中各个类别的分类权重计算未见实例属于标签空间中各个类别的置信度,预测未见实例的类别标签集合h(x),且h(x)满足层次限制。最后根据标签空间的树形结构,除去预测类别集合h(x)中的层次限制,(即标签扩展的逆过程),得到未见实例的具体适用法律条文。

步骤2包括:

步骤2-1,在层次多标签分类问题中,给定d维实例空间和包含q个类别的标签空间Y={y1,y2,…,yq},yi表示第i个类别,则类别标签空间层次结构可以用二元组(Y,<)表示,<表示类别标签的偏序关系,偏序关系<可以理解为“属于”关系,即如果有yi,yj∈Y且yi<yj,则类别yi属于类别yj,yi是yj的子孙类别,yj是yi的祖先类别。偏序关系<具有非对称性、非自反性和传递性,可以用以下四个特征描述:

e)类别标签层次结构中唯一的根节点用虚拟类别标签R表示,对任意yi∈Y,有yi<R;

f)对任意yi,yj∈Y,如果有yi<yj,那么

g)任意yi∈Y,有

h)任意yi,yj,yk∈Y,yi<yj且yj<yk,则有yi<yk

类别标签的组织结构满足上述四个特征的多标签分类问题都可以认为是层次多标签分类问题。由上述形式化定义可知,在层次化的类别标签空间中,从任一类别节点开始往上追溯到根节点而形成的唯一路径上的所有其他类别节点(除去开始节点)都是该类别节点的祖先类别节点。因此如果样本具有类别标签ci,则样本也隐含地具有了ci的所有祖先类别标签,这就要求分类器对未见实例的预测类别集合h(x)也要满足层次限制,即,且y′<y″:y″∈h(x)。

步骤2-2,对于任意训练样本(xi,yi)(1≤i≤m),m为获取的全部裁判文书样本的数量,xi∈X为d维的特征向量,为与xi对应的一组类别标签。令扩展后的类别标签集合为yi′,则yi′中包含了yi中的所有类别标签及其所有祖先类别标签。形式化地,

标签扩展过程将类别标签的层次关系明确地在样本的类别标签中表达出来:如果样本被标记为某些类别,那么经过标签扩展,这些类别的祖先类别也会显式地赋予该样本;因此每个样本的类别标签可以看作标签空间树的一棵子树,并且各个子树的顶层都是根节点。由此可见,如果有yi,yj∈Y且yi<yj,未见实例在扩展后的多标签训练集中的k近邻样本中,具有类别标签yi的样本数一定不小于具有类别标签yj的样本数。标签扩展是保证本学习算法预测结果满足层次限制的重要步骤。

步骤3包括如下步骤:

步骤3-1,特征选择的目的是为了特征降维,由于一般的文本特征选择算法不能直接处理多标签数据集,因此需要将多标签数据转换为单标签数据进行处理。转换的方法是:对于每一个多标签样本(x,h),用|h|表示标签类别集合h中标签类别的个数,将其替换为|h|个新的单标签样本(x,yi)(1≤i≤|y|,yi∈h),每个新样本的类yi即为原多标签样本类别标签集合h中的一个类别标签,表1给出了按照上述策略,将多标签样本转化为单标签样本的示例。

表1多标签样本转换过程

步骤3-2,经过步骤3-1的转换过程,多标签的案件样本就转换成为了单标签的案件样本,可以利用一般特征选择算法对步骤1中原始训练集所得分词结果进行特征选择,选择大约100个最具有区分能力的特征词构成特征空间。用来自特征空间的特征词表示每个案件样本的案件事实部分,其中,每个特征词对应的属性值,也就是特征权重,采用常用的TF-IDF算法进行计算。将每个样本的案件事实部分看成一个已经分词的文档,则所有样本的案件事实部分组成一个文档集合。第i个文档中第j维特征的特征权重tf-idfij定义如下:

其中,tfij表示特征词tj在文档di中出现的频率,idfj表示特征词tj在文档集合中的反文档频率,N表示文档集合中的文档总数,nj表示特征词tj在文档集合中的文档频率,即文档集合中出现特征词tj的文档数目,分母为归一化因子。

步骤3-3,对步骤1中原始训练集所得分词结果进行特征选择,选择一定数量的具有区分能力的特征词构成特征向量。常用的文本特征选择方法主要基于文档频率(DF),互信息(MI),信息增益(IG),卡方统计(χ2Statistic,CHI)等衡量指标。基于文档频率的特征选择过于简单,往往无法选取最具分类信息的特征词,互信息的缺点在于容易受到特征词的边缘概率影响,因此本层次多标签分类方法选择信息增益或者卡方统计算法进行特征选择。

步骤3-3包括:采用信息增益算法进行特征选择:特征词t的信息增益IG(t)的定义如下:

其中,Pr(yi)表示类别yi出现的概率,Pr(t)表示特征t出现的概率,Pr(yi|t)表示在特征t出现的前提下类别yi出现的概率,表示特征t不出现的概率,表示在特征t不出现的前提下类别yi出现的概率。对于文档集合中的每个特征词,计算其信息增益,信息增益值低于设定的阈值的特征词不纳入特征空间。

步骤3-3还可以采用卡方统计算法对训练集中的案件事实文本进行特征选择:先假设特征词与类别是不相关的,如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备择假设:即特征词与类别有着很高的相关度。

令A为包含特征词t且属于类别y的文档数量,B为包含特征词t而不属于类别y的文档数量,C为不包含特征词t而属于类别y的文档数量,D为不包含特征词t且不属于类别y的文档数量,N为总文档数量,则特征词t和类别y的卡方统计量χ2(t,y)定义为:

特征词t和类别y独立时,其卡方统计量为0,针对一个特征词,计算其关于各个类别的卡方统计量,然后分别计算均值χ2avg(t)和最大值X2max(t),用这两种方式进行综合考虑,选出最有区分能力的特征词:

X2avg(t)=∑i=1Pr(yi2(t,yi),

χ2max(t)=maxi=1,...,qχ2(t,yi)。

Pr(yi)表示类别yi出现的概率。卡方统计特征选择算法,相比于互信息的主要优点在于它是归一化的值,因此可以更好地衡量同一类别中的不同特征词。

步骤4中,找k近邻时,未见实例x与样本(xi,hi)的距离d(x,xi),采用它们的特征向量的余弦相似度的倒数进行衡量。未见实例的特征向量γ和近邻样本的特征向量λ的余弦相似度cos(γ,λ)计算公式如下:

其中,s表示向量分量的下标,即该分量位于向量中的位置,S表示向量的维度,γs表示向量γ的第s分量,λs表示向量λ的第s个分量。

步骤4中,用d(x,xi)表示实例x与样本(xi,hi)的距离,采用全标签距离权重法计算样本((xi,hi)∈N(x))对于类别yj的分类权重wij

全标签距离权重法计算wij

熵标签距离权重法计算wij

未见实例属于类别yj的置信度c(x,yj)计算公式如下:

预测未见实例x的类别标签集合h(x)为:

选择0.5作为决策阈值,当未见实例属于各个类别的置信度都小于决策阈值时,返回置信度最大的类别作为未见实例所属的类别。

实施例

如图1所示,本发明的步骤为:

步骤一,利用基于jsoup的爬虫技术从互连网上爬取所需的裁判文书原始文本数据集,以7:3的比例将其随机划分为训练集和测试集。然后进行裁判文书的预处理,主要完成以下几项工作:

根据裁判文书的行文结构从中提取案件事实及其适用的法律条文,前者用于生成案件样本的特征向量,后者用于表示案件样本的类别标签,将原始文本数据集转化为半结构化的多标签训练集和测试集;

对案件适用法律条文中的错误和格式不一致进行修正;

利用哈工大的语言技术平台LTP对案件事实描述进行分词和词性标注。

步骤二,基于标签空间的层次结构,扩展所有样本的案件事实对应的法律条文,使每个案件事实对应的类别标签为标签空间的一个子集且满足层次限制;

步骤三,对步骤1中原始训练集所得分词结果进行特征选择,选取能够充分表示案件事实的特征词构建特征向量;经过文本表示,得到结构化的扩展多标签训练集Tr和测试集Te;

步骤四,构建预测模型:首先找出来自扩展多标签测试集Te的未见实例x在扩展多标签训练集Tr中的k近邻样本集合N(x),给每个近邻样本设置权重,根据k个近邻样本对标签空间中各个类别的分类权重计算未见实例属于标签空间中各个类别的置信度,预测未见实例的类别标签集合h(x),且h(x)满足层次限制。最后根据标签空间的树形结构,除去预测类别集合h(x)中的层次限制,(即标签扩展的逆过程),得到未见实例的具体适用法律条文。

本具体实施数据取自浙江法院公开网公开的浙江省各级人民法院裁判文书。

图2是裁判文书样例,其中直线下划线标注部分为案件事实部分,曲线下划线标注部分为案件适用的法律条文。根据裁判文书的行文规律,提取案件事实及其法律条文。预处理工作主要是对案件适用法律部分的清洗和修正。

图3中,展示了法律条文标签空间的树形结构。基于这样的层次结构,对每个案件事实对应的法律条文进行标签扩展。

图4是法律条文组合频率分布图。根据各个法律条文被引用的频率,选择了频率较高的“《中华人民共和国民事诉讼法》”、“《中华人民共和国合同法》”等26部法律以及这些法律所包含的451项具体法律条款作为类别标签组成标签空间,即标签空间的维度为477。每个案件样本的类别标签集合用标签向量的形式表示,向量的每一维代表标签空间中的一个类别标签,即一项完整的法律条文。如果案件适用了某项法律条文,则其标签向量中该项法律条文以及包含该项法律条文的所有法律条文对应的标签条目值均为1,否则为0。因此,每个样本的标签向量都对应于一个法律条文组合,各个组合出现的频率即为对应的案件样本的数量,各个法律条文组合出现的频率也可以反映案件样本集合的一些性质。通过计算各,并选取出现频率较高的组合将其按照从大到小的顺序排列,可以得到图4。从图中可以看出,法律条文组合出现频率大致呈长尾分布,少数法律条文组合出现频率极高,表明有大量案件样本适用该法律条文组合,除此之外,大多数的法律条文组合出现频率较为均衡。

步骤三选择信息增益算法进行特征选择。通过计算各个特征词的信息增益可以发现,具有较高信息增益的词大多为动词或名词,表2中显示了信息增益值最高的特征词中动词和名词所占比例,可见在适用法律识别问题中名词和动词相比其他性质的词更具有区分能力,也从另一方面说明可以通过词性标注,去除文本中动词名词之外的词,从而减少文本中词的数量,简化后续计算。

表2特征词中动词名词比例:

特征词数量动词名词数量比例动词名词信息增益总量比例10088.0%87.9%20080.0%82.3%30081.0%82.5%40080.5%82.0%50076.8%79.7%

表3实验训练集和测试集的概况:

样本数量样本平均类别标签数量训练集1026087.6344测试集442107.6397

图5和图6分别是取不同近邻个数时层次化指标和宏平均指标性能的比较。

从图5中可知:当近邻个数为偶数时,算法的精度较高,而召回率较低;当近邻个数为奇数时,算法的精度较低,而召回率较高。随着近邻个数的增大,这种区别逐渐变小。通过对算法的原理进行分析,可以对这种现象进行解释:算法设定的决策阈值为0.5,而当近邻个数为偶数时,由于加入了平滑参数,只有出现次数超过k=2的类别标签会预测为未见实例的类别标签,而出现次数恰好为k=2的类别标签则不会赋予未见实例。因此,当近邻个数为偶数时,各个类别标签赋予未见实例的条件更为严苛,导致算法的预测精度偏高,而相应地召回率就偏低。当近邻个数不断增大后,这种影响逐渐减弱,因此这种区别也就变小。从图中还可以看出目标类别为全部法律条文时,算法的各项预测指标都高于目标类别为具体法律条款时。这是因为更为宽泛的法律类别包含更多的案件样本,从而使得模型在这些类别上有更好的预测能力。综合来看,当近邻个数k值为5时,算法的综合预测性能最好。

从图6可以发现:随着近邻个数的增加,算法的宏平均精度、召回率和F度量值都在降低。其原因可能是随着近邻个数的增加,样本数量较少的类别更难达到决策阈值,因而导致大多数类别的预测性能下降,最终导致相应的宏平均性能降低。

图7为固定近邻个数为5,样本权重策略分别为全标签距离权重法和熵标签距离权重法时算法在各个评价指标上的表现。综合来看,不管是层次化指标还是宏平均指标,采用熵标签距离权重策略可以在精度上取得更好的效果,而采用全标签距离权重策略可以在召回率和F度量值上取得更好的效果。究其原因,熵标签权重策略偏向于类别标签个数较少的样本,而在扩展后的层次多标签样本中,样本所属的类别越具体,其类别标签就会越多,导致在熵标签权重策略下分类权重较小,因而采用熵标签权重策略预测结果更倾向于较上层的类别,导致泛化误差较大。尽管当目标类别为具体的法律条款时算法在性能上有所下降,但仍然有接近80%的层次化精度和超过65%的层次化召回率,说明基于本层次多标签分类算法的案件适用法律识别是有效的。

考虑目标类别为全部法律条文和具体法律条款两种情况,在本发明中分别用mP_all、mP_all、mP_all表示目标类别为全部法律条文时算法的宏平均精度、召回率和F度量值,用mP_partial、mP_partial、mP_partial表示目标类别为具体法律条款时算法的宏平均精度、召回率和F度量值。

本实施分别选择了TreeBoost.MH局部算法和Clus-HMC全局算法两种常用的层次多标签分类算法,与本层次多标签分类算法的预测性能进行比较,表5给出了它们在各层次化指标上的性能对比,表6给出了它们在各个宏平均指标上的预测性能对比。

表5各算法层次化指标性能比较:

表6各算法宏平均性能比较:

事实证明本层次多标签分类算法在预测性能上可以取得比现有方法更好的效果。结合Lazy-HMC算法支持增量学习的特点,可以利用Lazy-HMC算法构建有效且适用的案件适用法律自动识别系统。

本发明提供了一种适用于法律识别的层次多标签分类方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号