首页> 中国专利> 一种低资源语种与通用语种的字典词条提取及识别方法

一种低资源语种与通用语种的字典词条提取及识别方法

摘要

本发明公开了一种低资源语种与通用语种的字典词条提取及识别方法,在完成训练基础网络模型之后,包括以下步骤:首先对输入的字典图像进行几何校正和二值化等预处理;检测字典分栏情况,字典被分为两栏或多栏,将文本框间小于一定阈值T的框选为统一栏;在每一栏中进行图像词条切割;将切割获得的目标词条图像传入文本识别模块。本发明一种低资源语种与通用语种的字典词条提取及识别方法,通过先对输入的字典图像进行预处理矫正,再对输入的字典图像进行文本检测,然后再对字典进行分栏检测,将切割获得的词条文本图像传入文本识别模块,最后对识别结果按语料库格式规范化并自动导入指定语料库,极大提高字典词条导入语料库的效率。

著录项

  • 公开/公告号CN111652157A

    专利类型发明专利

  • 公开/公告日2020-09-11

    原文格式PDF

  • 申请/专利权人 广东外语外贸大学;

    申请/专利号CN202010501435.X

  • 发明设计人 颜学明;薛海威;蒋盛益;刘建明;

    申请日2020-06-04

  • 分类号G06K9/00(20060101);G06K9/32(20060101);G06K9/62(20060101);G06N3/04(20060101);G06F40/242(20200101);

  • 代理机构11833 北京化育知识产权代理有限公司;

  • 代理人尹均利

  • 地址 510000 广东省广州市白云大道北2号

  • 入库时间 2023-06-19 08:14:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-12-30

    发明专利申请公布后的视为撤回 IPC(主分类):G06K 9/00 专利申请号:202010501435X 申请公布日:20200911

    发明专利申请公布后的视为撤回

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号