首页> 中文学位 >OCR文字识别技术在不动产数据整合中的应用——以广东省清远市清新区为例
【6h】

OCR文字识别技术在不动产数据整合中的应用——以广东省清远市清新区为例

代理获取

目录

声明

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 论文主要研究内容及论文结构

第二章 文字识别相关理论及不动产数据整合技术

2.1 Tesseract文字识别方法

2.2 百度OCR文字识别服务

2.3 图像预处理方法

2.4 不动产数据整合相关技术

2.5 本章小结

第三章 基于OCR界址点识别系统设计

3.1系统简介

3.2 图像裁剪模块

3.3 版面分析模块

3.4 字符切分和识别模块

3.5 识别信息生成Excel模块

3.6 界址点生成宗地图模块

3.7 本章小结

第四章 实践应用

4.1 应用环境

4.2 程序使用流程

4.3 实践结果分析

4.4 本章小结

第五章 本程序与Tesseract效果对比与分析

5.1 Tesseract使用介绍

5.2 实验数据选择

5.3 两种方法识别结果对比与分析

5.4 本章小结

第六章 总结与展望

6.1 工作总结

6.2 工作展望

参考文献

致谢

展开▼

摘要

数字识别作为文字识别的重要组成部分,在前人近百年的摸索中,已经拥有了成熟的技术和蓬勃的发展。虽然各行业广泛应用这门技术,并且在数字识别发展的近百年时间里,涌现了大量优秀的算法和研究成果。但是对于测绘行业,文字识别技术的应用还尚在起步阶段,因此针对测绘行业的一些特定工作文字识别技术仍然有巨大的研究价值与空间。数字识别主要指通过使用硬件设施结合计算机软件编程手段实现自动识别阿拉伯数字的过程。在针对不动产数据整合这个项目中,通过数字识别可以大幅度减轻工作量与工作强度,具有非常重要的推广应用价值。本文主要研究如何解决在测区中纸质档案中含有界址点的扫描件如何直接生成数字化图的问题。本文的目的就是要解决识别纸质档案中的界址点,以及利用Arc Engine进行二次开发批量生成宗地图这两个技术难点。并最终形成一个能够自动识别界址点信息并且能自动生成数字化图的系统。  全文主要工作包括如下:(1)数字识别图像预处理算法研究,包含图像的灰度化、图像的二值化、图像的降噪三个部分,研究三个部分的算法并将其实现应用在设计的系统中。(2)文字识别的算法选取,选择成熟的第三方库Tesseract文字识别引擎和百度OCR文字识别服务,对其进行对比分析,分析标准为识别后的正确率、错误率、拒识率以及识别所花费的时间,综上标准进行综合分析。最终做出最适合实验设计的选择。在应用选择好的识别方法时利用第一步掌握的图像预处理方法,尽可能的提高图像质量,提升识别正确率。(3)利用Arc Engine开发能够直接批量生成宗地图的软件。(4)结合前三步的工作,设计出一款能够通过计算机识别扫描件中界址点信息并最终能生成数字化宗地图的系统。(5)将该系统实际应用于清新区不动产数据整合项目中,验证是否满足实验精度需求。  通过最终选定的文字识别方法,结合对扫描件图像的预处理工作,并将识别结果输出后提供给批量转换软件这一整套系统流程,最终满足实验设想,实现了高识别率的系统建设。

著录项

  • 作者

    马泽;

  • 作者单位

    东华理工大学;

  • 授予单位 东华理工大学;
  • 学科 地图学与地理信息系统
  • 授予学位 硕士
  • 导师姓名 陈晓勇;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    OCR文字识别,不动产数据整合,图像处理;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号