首页> 中国专利> 端到端的文本识别模型训练方法、文本识别方法及装置

端到端的文本识别模型训练方法、文本识别方法及装置

摘要

本申请公开了一种端到端的文本识别模型训练方法及装置,将目标文本行图像输入特征提取模块,获取目标输入特征向量。将目标输入特征向量和目标字符位置向量输入特征编码器,获得第一特征向量。对第一特征向量进行重复操作,获取第二特征向量。基于目标文本行图像对应的标签,获取目标输出特征向量。将第二特征向量、目标输出特征向量以及目标字符位置向量输入特征解码器,获得目标文本行图像的预测概率分布结果。由图像对应的标签和预测概率分布结果,获取损失值,基于损失值训练模型。目标输出特征向量由图像中每个字符的真实位置向量和真实文本内容向量拼接组成。训练完成的模型可同时预测字符的字符位置和文本内容,可提高文本识别的效率。

著录项

  • 公开/公告号CN115082937A

    专利类型发明专利

  • 公开/公告日2022-09-20

    原文格式PDF

  • 申请/专利权人 抖音视界(北京)有限公司;

    申请/专利号CN202210704167.0

  • 发明设计人 张宇轩;林丽;黄灿;

    申请日2022-06-21

  • 分类号G06V30/19;G06V30/18;

  • 代理机构北京信远达知识产权代理有限公司;

  • 代理人储倩

  • 地址 100041 北京市石景山区实兴大街30号院3号楼2层B-0035房间

  • 入库时间 2023-06-19 16:54:51

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-20

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号