首页> 中文期刊> 《华南理工大学学报:自然科学版》 >基于半监督学习的涉及未成年人案件文书识别方法

基于半监督学习的涉及未成年人案件文书识别方法

         

摘要

案件文书作为司法信息公开的重要内容,需要在审判之后向公众公开,某些涉及未成年人的案件文书极有可能会造成未成年人的个人隐私信息泄露。为了能从大量案件文书中准确地识别出涉及未成年人信息的文书,进而有针对性地对其进行隐私保护处理。同时,为解决现实数据集因有标注样本缺乏而难以进行有效的有监督学习的问题,文中提出了基于半监督学习的涉及未成年人案件文书识别方法。首先,对案件文书语料文本进行预处理后分别使用Word2Vec和BERT-wwm-ext对文本进行特征提取,将长语料文本转换为可作为分类模型输入的数据格式;接着,采用PU学习方法训练分类模型,在正例样本极少的情况下借助大量未标注样本构建有效的分类器;然后,在分类模型预测结果的基础上,使用主动学习方法获取关键词并对模型预测结果进行筛选处理,以进一步提升预测效果。在基于现实场景比例构建的测试集上,文中提出的案件文书识别方法取得了98.67%的召回率和81.02%的准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号