首页> 中国专利> 一种文本数据中错误字符的检测方法、装置和设备

一种文本数据中错误字符的检测方法、装置和设备

摘要

本发明提供了一种文本数据中错误字符的检测方法、装置和设备,该方法包括:对待检测文本数据中字符的出现次数进行统计,获取待检测文本数据中频繁出现的目标字符;根据预先创建的易错字符库,获取包含目标字符的相似字符集合,其中,相似字符集合包含与目标字符形状相似的相似字符;若相似字符在待检测文本数据中的出现次数大于零且小于预设阈值,则确认待检测文本数据中的相似字符为错误字符。本发明通过获取文本中频繁出现的目标字符,并判断文本中出现的与目标字符形状相似的字符是否为错误字符,充分考虑了人工录入数据中产生的形状相似的错误字符,有效检测了文本数据中的错误字符,取代人工纠错,提高了错误字符检测效率。

著录项

  • 公开/公告号CN108280051B

    专利类型发明专利

  • 公开/公告日2019-04-05

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN201810067388.5

  • 发明设计人 刘英博;王建民;张育萌;

    申请日2018-01-22

  • 分类号

  • 代理机构北京路浩知识产权代理有限公司;

  • 代理人王莹

  • 地址 100084 北京市海淀区清华园北京100084-82信箱

  • 入库时间 2022-08-23 10:29:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-05

    授权

    授权

  • 2018-08-07

    实质审查的生效 IPC(主分类):G06F 17/24 申请日:20180122

    实质审查的生效

  • 2018-08-07

    实质审查的生效 IPC(主分类):G06F 17/24 申请日:20180122

    实质审查的生效

  • 2018-07-13

    公开

    公开

  • 2018-07-13

    公开

    公开

  • 2018-07-13

    公开

    公开

查看全部

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号