基于残差连接的场景文本识别端到端网络结构优化

黄金星; 潘翔; 郑河荣

首页> 中文期刊>计算机科学 >基于残差连接的场景文本识别端到端网络结构优化

基于残差连接的场景文本识别端到端网络结构优化

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对已有文本识别网络由于深度不够而识别准确率较低的问题,文中提出一种改进的端到端文本识别网络结构.首先,将文本作为序列,采用残差模块将文本按列切分成特征向量输入循环层.这种残差结构增加了卷积网络的深度,使网络保持对文本图像的最佳表征能力,实现对文本信息的捕捉.另一方面,残差模块采用堆叠层来学习残差映射,在层数加深的情况下提高了网络的收敛性.然后,采用循环层对这些文本特征序列进行上下文建模,并把建模结果输入Softmax层以获得序列对应标签的预测,实现了对任意长度文本的识别.循环层使用长短时记忆网络学习文本之间的依赖关系,解决长序列训练过程中的"梯度消失"问题.最后,通过最优路径方法进行文本标签转录.该方法找到一条路径使其概率最大,并输出这条路径对应的序列为最优序列.改进的文本识别网络结构增加了深度,提高了文本图像的特征描述能力和在噪声下的稳定性.在多个测试数据集(ICDAR2003,ICDAR2013,SVT和IIIT5K)上将所提算法与已有典型算法进行实验对比分析,结果表明该网络结构能够得到更高的场景文本识别准确率,验证了其有效性.

著录项

来源
《计算机科学》|2020年第8期|221-226|共6页
作者
黄金星; 潘翔; 郑河荣;
展开▼
作者单位

浙江工业大学计算机科学与技术学院杭州 310023;

浙江工业大学计算机科学与技术学院杭州 310023;

浙江工业大学计算机科学与技术学院杭州 310023;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
残差连接; 场景文本识别; 堆叠层; 网络深度; 最优路径;

相似文献

中文文献
外文文献
专利

1. 基于深度优化残差卷积神经网络的端到端语音识别 [J] . 徐冬冬 ,蒋志翔 . 计算机应用研究 . 2020,第S02期
2. 基于残差注意力U-Net结构的端到端歌声分离模型 [J] . 汪斌 ,陈宁 . 华东理工大学学报（自然科学版） . 2021,第005期
3. 基于端到端思维的LTE网络概率性感知差的优化研究 [J] . 蔡文斌 . 信息通信 . 2016,第007期
4. 基于伪随机码置乱的分布式视频残差编码端码率控制算法 [J] . 胡春筠 ,胡斌杰 . 电子学报 . 2016,第006期
5. 基于注意力残差编解码网络的动态场景图像去模糊 [J] . 杨飞璠 ,李晓光 ,卓力 . 应用光学 . 2021,第004期
6. 腹腔镜下骶主韧带残端-圆韧带残端悬吊术治疗子宫脱垂的疗效探讨 [C] . 刘艳霞 ,李留霞 ,张颖 . 2015年河南省妇产科学学术年会 . 2015
7. 基于光流校正的端到端场景文本识别方法的研究 [A] . 张文强 . 2020

基于残差连接的场景文本识别端到端网络结构优化

摘要

著录项

相似文献

相关主题

期刊订阅