首页> 中国专利> 一种基于主动学习的中文正式文本分词方法

一种基于主动学习的中文正式文本分词方法

摘要

本申请提供一种基于主动学习的中文正式文本分词方法,包括:使用当前的标注数据集L训练一个朴素贝叶斯分类器;使用当前的朴素贝叶斯分类器标注未标注数据集U;使用抽样方法选择最有信息量的片段给专家标注;将新抽样的标注好的片段添加到标注数据集L中;不断迭代直到预先设定的满足条件停止。本申请的方法能够有效减少人工标注数据的同时得到一个性能较好的分词器。采用主动学习的方法抽取数据训练得到的模型比随机抽取的方法抽取数据训练得到的模型性能(采用F值度量)提升5个百分点左右。主动学习结合EM迭代后抽取数据训练得到的模型比单独采用主动学习方法抽取数据训练得到的模型,每次性能均提升1.5个百分点左右。

著录项

  • 公开/公告号CN108519978A

    专利类型发明专利

  • 公开/公告日2018-09-11

    原文格式PDF

  • 申请/专利权人 成都信息工程大学;

    申请/专利号CN201810316873.1

  • 申请日2018-04-10

  • 分类号G06F17/27(20060101);

  • 代理机构11246 北京众合诚成知识产权代理有限公司;

  • 代理人夏艳

  • 地址 610225 四川省成都市西南航空港经济开发区学府路一段24号

  • 入库时间 2023-06-19 06:28:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-10-09

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20180410

    实质审查的生效

  • 2018-09-11

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号