首页> 中国专利> 一种在线自学习的法院电子卷宗文本分类方法

一种在线自学习的法院电子卷宗文本分类方法

摘要

本发明公开了一种在线自学习的法院电子卷宗文本分类方法,包括采集文本数据,基于所采集的法律文书语料集,采用Word2vec的Skip‑gram模型,训练得到司法领域词向量模型,基于所采集的卷宗语料集,采用Doc2vec的PV‑DM模型进行训练,进行训练LDA模型;使用多维度语义表示方法获取卷宗文件特征向量;在应用系统中集成基于高斯核函数的KELM离线学习案卷文本分类器;利用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化。本发明通过基于人工标注的卷宗语料集,提出多维度语义表示方法获取卷宗文件特征向量,通过使用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化,经过迭代更新,模型分类正确率得到了逐步优化。

著录项

  • 公开/公告号CN112836051A

    专利类型发明专利

  • 公开/公告日2021-05-25

    原文格式PDF

  • 申请/专利权人 太极计算机股份有限公司;

    申请/专利号CN202110188680.4

  • 发明设计人 万玉晴;王霄;

    申请日2021-02-19

  • 分类号G06F16/35(20190101);G06F40/242(20200101);G06F40/279(20200101);G06F40/30(20200101);G06Q50/18(20120101);

  • 代理机构11210 北京纽乐康知识产权代理事务所(普通合伙);

  • 代理人王珂

  • 地址 100102 北京市朝阳区容达路7号中国电科太极信息产业园

  • 入库时间 2023-06-19 11:05:16

说明书

技术领域

本发明涉及文本分类技术领域,具体来说,涉及一种在线自学习的法院电子卷宗文本分类方法。

背景技术

文本分类是NLP的一项基本任务,相关研究主要包括文本预处理、文本表示、特征提取,以及分类模型构建。与英文不同,中文文本的预处理更为重要,对于文本分类任务来说,文本预处理主要包括分词、去除停用词、过滤低频词等过程。

文本分类最为关键的环节在于文本表示和特征提取,有时会合在一起完成。文本表示的目的是把语言文本转化为机器可计算的数学表达,主要理论方法有:向量空间模型、基于主题的方法、和基于机器学习的方法。向量空间模型(一种自动索引的向量空间模型,ACM通讯,1975,18(11):613-620)是对文本空间中每个文本使用n个特征词来表示,特征词的值可以是one-hot、词频、TF-IDF,VSM文本表示方法在长文本分类中具有很好的表现。基于主题的文本表示是从篇章级语义粒度对文本语义进行概括表达,主要有:有潜在语义分析(LSA:Latent Semantic Analysis)、潜在语义概率分析(pLSA:Probabilistic LatentSemantic Analysis)和隐含狄利克雷分布(LDA:Latent Dirichlet Allocation)等方法(通过潜在语义来分析索引,美国信息科学学会杂志,1990,41(6):391;一个潜在语义分析概论,过程论述,1998,25(2-3):259-284;潜在语义概率分析,第十五届人工智能不确定性会议论文集,Morgan Kaufmann出版股份有限公司,1999:289-296;狄利克雷潜在分配,机器学习研究杂志,2003,3(Jan):993-1022),LSA是在VSM基础上,通过奇异值分解得到文本特征矩阵的近似,该近似矩阵更稠密并易于计算。pLSA在LSA基础上进行了理论补充,具有完整的概率统计基础,通过所定义的生成模型从文本中学习出主题概率分布和主题的词概率分布。LDA模型在pLSA基础上加入狄利克雷先验,使模型更准确的拟合真实分布。基于机器学习的文本表示是当前被广泛使用方法,典型的神经网络语言模型有HLBL、RNNLM、Word2vec、GloVe、ELMo、BERT等(一种可扩展的分层分布式语言模型,神经信息处理系统国际会议,Curran联合股份有限公司,2008;基于递归神经网络的语言模型,国际演讲交流协会会议,2010:1045-1048;向量空间中词语表示的有效估计,arXiv预印本arXiv:1301.3781,2013;用于单词表示的全局向量,2014年自然语言处理中用于文字表示的经验方法会议的全球进展(EMNLP),2014:1532-1543;深度语境化的词语表征,arXiv预印本arXiv:1802.05365,2018),以上模型可训练得到字、词和句等细粒度语义单元的嵌入向量,进而获取文本表示。Mikolov等人提出的Doc2vec是直接用于文本表示的模型(句子和文档的分布式表示,第31届机器学习国际会议论文集(ICML-14),2014:1188-1196),该模型在Word2vec基础上引入段落信息,增强对文本语义表示的准确性和完整性。随着深度学习的兴起,出现了多种基于CNN、RNN的文本表示模型(用于句子分类的卷积神经网络,自然语言处理的经验方法研讨会,USA,2014,1746-1751;一种用于建模句子的卷积神经网络,arXiv预印本arXiv:1404.2188,2014;一种文本分类的C-LSTM神经网络,arXiv预印本arXiv:1511.08630,2015;基于递归和卷积神经网络的序列短文本分类,arXiv预印本arXiv:1603.03827,2016),前者能够较好的学习文本局部序列和语义信息,后者更善于学习上下文依赖关系、句法和行文逻辑等信息。深度学习追求的是end2end思想,这些模型通常结合词向量完成文本表示、特征提取、文本分类多个环节。特征提取可看作降维的过程,从特征空间中筛选出主要特征,新的特征子集能够更简洁准确的表现文本类别差异,提高分类性能,常用的特征提取算法有TF-IDF、期望交叉熵、互信息、信息增益、卡方检验等方法,此外文本证据权、基尼指数、特征聚类等方法也常被用于特征降维。

文本分类模型主要有传统分类模型,和基于深度学习的模型,传统模型通常基于特征工程结合分类器构成,属于浅层语义学习模型,分类器主要有:KNN、决策树、SVM(最相邻模式分类,IEEE信息理论汇刊,1967,13(1):21-27;分类和回归树,CRC出版社,1984;归纳决策树,机器学习,1986,1(1):81-106;机器学习程序,1992;支持向量网络,机器学习,1995,20(3):273-297;一种最优边缘分类器的训练算法,第五届计算学习理论年度研讨会论文集,ACM,1992:144-152;支持向量回归的机器,神经信息处理系统的进展,1997:155-161)、逻辑回归等。基于深度学习的模型相比于传统模型,可以获取更抽象的文本语义表征,并把特征提取任务融于模型构建的过程中,从而减少了人为设计特征的不完备性和冗余度,比如:Yoon Kim(用于句子分类的卷积神经网络,自然语言处理的经验方法研讨会,USA,2014,1746-1751)提出的Text-CNN模型,利用CNN捕捉文本局部相关性,得到很好的分类效果。Armand Joul in等人(高效的文本分类技巧,第15届计算语言学协会欧洲分会会议论文集,第二卷,短篇论文,2017,427-431)提出一种快速文本分类模型FastText,把文本表示与分类融合在一起,进行分类的同时还获取了词向量。Yogatama等(基于递归神经网络的生成和判别文本分类,2017)构建基于LSTM的生成模型和判别模型,解决文本分类的问题。Wang(用于文本分类的中断循环神经网络,计算语言学协会会议,2018:2311-2320)提出的中断循环神经网络DGRU模型,既能学习长距离依赖关系,又能抽取关键短语信息,在多个数据集上都获取了很好的分类效果。Yang等人(文献分类的层次注意力网络,2016年计算语言学协会北美分会会议论文集:人类语言技术,圣地亚哥,2016,1480-1489)提出一种层次Attention模型用来解决长文本分类的问题,证明这种层级结构获取的文本特征在长文本分类中具有很大帮助。还有RCNN(基于注意力机制和RCNN的学术新闻文本分类模型,计算机支持的合作工作和社会计算的CCF会议,新加坡,2018)这类混合结构模型也被成功用于文本分类任务中。近几年,Transformer框架的提出和相关方法(如GPT(通过生成性预训练提高语言理解能力,2018)、BERT(用于语言理解的深度双向Transformers预训练模型,arXiv预印本arXiv:1810.04805,2018)、ERNIE(使用信息实体增强语言表示,arXiv预印本arXiv:1905.07129,2019)、ULMFiT(文本分类的通用语言模型微调,arXiv预印本arXiv:1801.06146,2018))的使用,使得迁移学习在文本分类等多个NLP任务上取得了重大进展。

另外,集成学习作为提升分类效果的方法,也被广泛使用,其思想是通过构建并组合多个同质或异质的学习器处理同一任务,获取比单一学习器更好的效果(基于集成学习的标题分类算法研究,计算机应用研究,2017,34(04):1004-1007),集成学习按照集成方式主要分为两类:Bagging和Boosting,前者基学习器之间无强依赖关系,具有更好的鲁棒性(基于优化样本分布抽样集成学习的半监督文本分类方法研究,中文信息学报,2017,31(06):180-189),典型算法是随机森林(随机森林,机器学习,2001,45(1):5-32);后者串行生成基分类器,代表算法有adaboost(一种在线学习的决策理论泛华及其在提升模型中的应用,计算机与系统科学杂质,1997,55(1):119-139),和基于梯度提升算法(gbdt)的xgboost(一种可扩展的树提升系统//第22届ACM Sigkdd知识发现和数据挖掘国际会议论文集,2016:785-794)和l ightgbm(一种高效的梯度提升决策树//神经信息处理系统的进展,2017:3146-3154)。

近些年,极限学习机(ELM:Extreme Learning Machine)的相关理论(一种新的前馈神经网络学习方案,2004年IEEE国际联席会议,IEEE,2004,2:985-990;理论和应用[J],神经计算与控制,2006,70(1):489-501;以随机隐藏节点方式使用泛逼近定理增量构造前馈网络,IEEE夸神经网络,2006,17(4):879-892;用于回归和多类分类的极限学习机制[J],IEEE系统汇刊,2012,42(2):513-529)在机器学习界越来越受到关注,ELM是基于单隐层前馈神经网络[J],神经网络(SLFNs)的一种快速学习算法,该算法随机初始化输入权重和偏置,根据KKT优化理论,通过一次计算获取输出权重的全局最优解,相比基于梯度下降的反向传播训练方法,ELM算法具有计算速度快、泛化能力强的优点。

发明内容

针对相关技术中的上述技术问题,本发明提出一种在线自学习的法院电子卷宗文本分类方法,能够克服现有技术方法的上述不足。

为实现上述技术目的,本发明的技术方案是这样实现的:

一种在线自学习的法院电子卷宗文本分类方法,包括采集文本数据,从案卷中选取常见案件卷宗,从所述案件卷宗中选取文本文件进行人工标注作为卷宗语料集,从中国裁判文书网采集裁判文书作为法律文书语料集;基于所采集的法律文书语料集,采用Word2vec的Skip-gram模型,训练得到司法领域词向量模型,向量维度为300维,并标记词向量;基于所采集的卷宗语料集,采用Doc2vec的PV-DM模型进行训练,得到文件特征向量,向量维度为300维,并标记特征向量;基于所采集的卷宗语料集,进行训练LDA模型;使用多维度语义表示方法获取卷宗文件特征向量;在应用系统中集成基于高斯核函数的KELM离线学习案卷文本分类器;系统在线使用过程,采集用户修正后的文件作为新标注样本,利用基于RLS的在线序列优化模型KOS-ELM对当前案卷文本分类器进行在线优化。

基于所述高斯核函数的KELM对(C,Y)是敏感,其中C为正则化参数,Y高斯核函数参数;通过多种组合参数的对比实验,确定合适的参数值;基于少量样本对模型进行训练。

LDA模型进行训练首先构建基于词的主题模型和基于LDA对文件主题和词的概率分布的设定得到联合概率关系式,采用算法得到卷宗文件主题的概率分布和主题中词的概率分布,确定一个矩阵,所述矩阵中每一列作为对应词的主题信息向量。

使用多维度语义表示方法获取卷宗文件特征向量通过采用卡方检验构建类别特征词典,语料集经过预处理后,对文本进行计算出词语类型的卡方值,按降序排列,再根据文件特征词卡方值的分布情况设定阈值,得到本卷重语料集的类别特征词典,获取卷宗文件特征向量。

ELM算法是通过随机初始化输入权重和偏置,根据KKT优化理论,通过计算获取输出权重的全局最优解。

KOS-ELM通过RLS逐渐增加新样本来更新模型参数,进行优化模型预测精准度,采用离线方式计算得到KELM输出权重矩阵。

本发明的有益效果:通过基于人工标注的卷宗语料集,提出多维度语义表示方法获取卷宗文件特征向量,通过使用基于RLS的在线序列优化模型KOS-ELM对当前案卷文本分类器进行在线优化,经过迭代更新,模型分类正确率得到了逐步优化,每次迭代使用的样本越多,优化效果越明显,而且模型优化的趋势越平稳,但每次迭代花费时间越长,反之,优化过程中模型性能波动越大,但计算时间越短。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的在线自学习的法院电子卷宗文本分类方法的LDA主题模型示意图。

图2是根据本发明实施例所述的在线自学习的法院电子卷宗文本分类方法的单输入输出的基本ELM模型示意图。

图3是根据本发明实施例所述的在线自学习的法院电子卷宗文本分类方法的不同数量新样本进行20次迭代优化效果示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。

根据本发明实施例所述的在线自学习的法院电子卷宗文本分类方法,包括数据采集标注、多维度语义表示以及基于KOS-ELM的案卷文本分类及在线优化方法,数据采集有法院电子卷宗文本分类是面向案件卷宗,识别其中包含文件的类别,为自动生成阅卷目录和自动归档奠定基础。本文所提出的方法,在训练模型的过程中使用到两个数据集,一是经过人工标注的卷宗语料集,由于不同类型案件卷宗内的文件类别和数量存在较大差异,本文从项目合作法院提供的案卷中选取了10类常见案件卷宗(其中包含5类刑事子案由,5类民事子案由),共计1455卷,从中选出重要的20类文本文件,共计12841份,进行人工标注。另一个数据集是从中国裁判文书网采集的400多万份裁判文书构成,用于训练司法领域词向量模型的法律文书语料集。

所述多维度语义表示分为司法领域的词向量、卷宗文件特征向量,基于LDA模型的主题向量、卷宗文件的多维度语义表示方法。

所述司法领域词向量,通过基于采集的法律文书语料集,采用Word2vec的Skip-gram模型,训练得到司法领域词向量模型,向量维度为300维,某词向量标记为

所述卷宗文件特征向量,通过基于卷宗语料集,采用Doc2vec的PV-DM模型进行训练,虽然PV-DM模型可同时得到词向量模型,但本文只使用文件特征向量,向量维度为300维,记语料集中某文件的特征向量为

所述基于LDA模型的主体向量,如图1所示,LDA模型基于卷宗预料集进行训练,该数据集包含10类常见案件卷宗,相应的设定主体数量为10,如图1所示构建基于词的主题模型,基于LDA对文件主题和词的概率分布的设定,得到联合概率关系式(1):

式(1)中:K为主题数;M为卷宗语料集中的文件数;N为文件中的词数,W是唯一可以观察到的量,表示文档中词的概率分布,Z,θ,是代表三种分布的中间隐含变量,α,β是需要确定的Dirichlet分布超参数。对式(1)进一步处理:

P(W;α,β)=∑

本文要计算的就是超参α、β的极大似然估计值:

采用EM算法学习出

所述卷宗文件的多维度语义表示方法通过基于人工标注了文件类别的卷宗语料集,采用卡方检验构建类别特征词典,语料集经过分词、去除停用词、去人名、过滤低频词等预处理后,对20类文本计算词与类型的卡方值:

式中c为类别标签;w为c类文本语料中出现的词;N为卷宗语料集文件总数;A为包含w且属于c类别的文件数;B为包含w但不属于c类别的文件数;C为不包含w却属于c类别的文件数;D为不包含w也不属于c类别的文件数。

本文分别计算出20类文件中每个词的卡方值,按降序进行排列,根据每类文件特征词卡方值的分布情况手动设定阈值,将高于阈值的各类文件特征词合在一起,去重后得到本卷宗语料集的类别特征词典D

基于以上定义,计算卷宗语料集中每个文件的表示向量,记卷宗语料集为C

tfidf

其中w

如图2所示,所述基于KOS-ELM的案卷文本分类及在线优化方法,包括ELM算法、KELM以及基于递归最小乘的在线序列优化模型,所述ELM算法,首先给定训练集X={(x

其中h(x)=[h

s.t.h

其中ζ

其中,H=[h(x

所述KELM根据核函数理论,核函数可将数据隐式映射到高维特征空间,近而实现样本在高维空间中线性可分,同时还解决了ELM随机初始化的问题。应用Mercer’s条件定义ELM的核矩阵为:Ω=HH

则KELM的预测输出函数可表示为:

从上式可看出,确定核函数后,则无需知道特征映射h(x),也无需给出特征空间的维数L(隐层神经元数量)。在本文中,选择高斯核函数作为ELM的核函数,将样本从原始输入空间映射到无限维空间。

K(x

γ为核函数参数,γ>0,根据(21)式调整KELM的输出权重矩阵为:

即:

f(x)=[K(x,x

所述基于递归最小二乘的在线序列优化模型,KELM算法可以快速学习分类预测模型参数,但其性能受限于训练样本的数量和特征质量,在线序列核极限学习机(KOS-ELM)是通过RLS逐渐增加新样本来更新模型参数,进而优化模型预测精准度。

首先采用离线方式计算得到KELM输出权重矩阵,设模型的特征映射矩阵为H

Ω

当输入的特征矩阵无法确保为可逆方阵时,该问题通常转为基于广义逆求解范数最小二乘解,根据Moore-Penrose广义逆的计算得到解的形式为:

在迭代优化阶段,每次增加一批新样本,基于递推最小二乘算法(RLS)对α

经过上述计算实现了使用一批新样本对模型参数的更新,其中对

经过改写,大矩阵求逆转换为小矩阵求逆,转换矩阵大小等于新增样本数,可按需调整。为了提高计算效率应避免求逆运算,可以每次仅使用一个样本w

以上过程实现了新增样本对KELM模型参数的序列迭代,若每次使用一条新样本,则整个优化迭代过程中不存在矩阵求逆运算,保证了在线计算效率。

综上所述,借助于本发明的上述技术方案,通过基于人工标注的卷宗语料集,提出多维度语义表示方法获取卷宗文件特征向量,该方法基于卡方检验构建特征词典,可筛选出对分类具有重要作用的词;计算tf-idf值可作为特征词对文本语义的贡献权重;训练LDA模型,在文本表示中加入案由信息,这些更精准的信息补充到基于Doc2vec的文本表示中,得到了更全面的文本特征信息。然后通过使用基于高斯核函数的KELM离线学习案卷文本分类器,这种基于ELM的方法具有更好的多分类表现,可以在很少的训练时间内获取更高的正确率,其中KELM的训练时间是BP算法的1/6,是LSSVM的1/10,另外,与ELM相比,高斯核函数将样本从原始输入空间映射到无限维特征空间,同时不再受随机初始化的影响,在实验中得到了最好的文本多分类效果。最后通过使用基于RLS的在线序列优化模型KOS-ELM对当前案卷文本分类器进行在线优化,经过迭代更新,模型分类正确率得到了逐步优化,每次迭代使用的样本越多,优化效果越明显,而且模型优化的趋势越平稳,但每次迭代花费时间越长,反之,优化过程中模型性能波动越大,但计算时间越短。如图3所示,通过对比实验证明,以上方法无论在文本分类性能上还是在训练效率上,都具有明显优势,并且使分类模型具有在线快速自学习的能力。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号