首页> 中国专利> 一种基于困难样本筛选的即兴委婉语检测方法

一种基于困难样本筛选的即兴委婉语检测方法

摘要

本发明公开了一种基于困难样本筛选的即兴委婉语检测方法,包括以下步骤:S1、构造目标语料库,包括黑语料、白语料和包含即兴委婉语的语料;S2、对目标语料进行粗分类:训练二分类模型,对目标物料进行推理;S3、细粒度筛选:训练语言模型,对粗分类的推理结果进行推理,判断前topn个是否存在seed词语,若存在则保留,作为推理结果;S4、重训练:使用细粒度筛选的推理结果重新训练语言模型,对粗分类的推理结果进行推理,获得检测结果。本发明提出了一种三段式的检测框架,使用该检测框架能够在提升即兴委婉语的检测精度的同时,提升对普通委婉语的检测精度。相较现有方法,本发明普通委婉语的检测精度提升高达0.24。

著录项

  • 公开/公告号CN116151249B

    专利类型发明专利

  • 公开/公告日2023.08.08

    原文格式PDF

  • 申请/专利权人 天津大学;

    申请/专利号CN202310242065.6

  • 发明设计人 李湘;赵来平;李克秋;

    申请日2023.03.14

  • 分类号G06F40/289(2020.01);G06F40/30(2020.01);G06F16/35(2019.01);G06F16/33(2019.01);G06F16/335(2019.01);G06N5/04(2023.01);G06N3/04(2023.01);G06N3/08(2023.01);

  • 代理机构北京保识知识产权代理事务所(普通合伙) 11874;

  • 代理人张晶

  • 地址 300072 天津市南开区卫津路92号

  • 入库时间 2023-09-01 19:02:54

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号