首页> 中文学位 >基于人工智能机器学习的文字识别方法研究
【6h】

基于人工智能机器学习的文字识别方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1文字识别算法国内外研究现状

1.2 本文主要内容及结构安排

第二章 文字识别系统方案设计

2.1字形结构识别

2.2统计决策识别

2.3基于机器学习的文字识别方法

2.4本文方案

2.5本章小结

第三章 预处理及字符分割

3.1 字符图像预处理

3.2 字符分割

3.3 字符图像归一化

3.4本章小结

第四章 特征提取

4.1 特征设计

4.2 空间分布特征

4.3 笔画密度特征

4.4 小波能量分布特征

4.5本章小结

第五章 分类器训练与识别

5.1 机器学习理论概述

5.2 BP神经网络

5.3 支持向量机

5.4 多类支持向量机

5.5 文字识别系统分类器构建与实现

5.5文字识别性能分析

5.6本章小结

第六章 总结与展望

5.1 本文工作总结

5.2展望

致谢

参考文献

攻读硕士期间取得的研究成果

展开▼

摘要

机器学习是当前人工智能领域中新兴的研究热点,已在机器视觉、语音识别、自然语言处理、网络搜索、推荐系统、智能机器人等复杂系统中获得成功应用。尤其是近两年基于人工智能机器学习的自动驾驶、深度问答技术问世,其在某些方面超过人类智能的操作水平,使得人们开始重新思考‘机器是由人类发明,其智能水平永远不会超过人类’这一观点。
  字符集庞大的汉字识别一直是文字识别领域的难点问题,与由少量字符组成的英文文字不同,很难使用传统的算法对其进行自动识别。得益于人工智能机器学习的深入发展,汉字的自动识别录入已进入实用化阶段,不少国内外软件厂商相继推出识别率不错的汉字自动识别系统,但依然有较大的改进空间。
  在现有的国内大量文献中,主要都是针对少量字符的自动识别研究,很难将其应用到大字符集的识别对象中,这与机器学习自身结构及学习算法特性紧密相关。当前国外主流的解决办法是:用学习器训练出多个分类器对字符特征向量进行分类,然后对各分类器输出结果进行投票统计,将得票最多的结果作为最终输出。
  本文以医学病历单的自动识别录入为研究对象。本着多角度识别、交叉验证的思想,提取字符图像的多组特征,对每组特征单独训练出分类器;最后在一定的容错条件下,将各分类器的输入特征向量与输出对应于事先保存库内的典型特征向量进行交叉验证,输出验证匹配最多的结果。实验证明,该方法不但可以正确的识别输出,还可自我发现识别错误,为实现文字识别系统的错误自发现和自修正功能打下基础,是本文的一大亮点。另外,本文还对支持向量机(SVM)、BP神经网络的分类性能进行了对比分析,对文字识别中学习器的选择具有一定的指导意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号