首页> 中文学位 >红头文件检测关键技术研究
【6h】

红头文件检测关键技术研究

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景及意义

1.2 研究现状

1.2.1 多模式匹配研究现状

1.2.2 图片中文字识别研究现状

1.3 论文主要工作及结构安排

2 中英文文本多模式匹配

2.1 模式匹配技术

2.1.1 模式匹配算法思想

2.1.2 经典模式匹配算法

2.2 多模式匹配技术

2.3 中英文文本多模式匹配技术

2.3.1 DFSA-QS算法

2.3.2 THT算法

2.4 本章小结

3 文本类文件检测关键技术

3.1 常见编码方式及特征

3.1.1 ASCII码

3.1.2 GB2312、GBK和BIG5编码

3.1.3 Unicode系列编码

3.2 编码判定和误匹配检测模块

3.2.1 编码分析模块设计

3.2.2 误匹配判断模块设计

3.3 文本类文件检测整体流程

3.4 本章小结

4 图片类文件检测关键技术

4.1 Tesseract-ocr性能测试

4.2 图片预处理

4.2.1 基于霍夫线变换的图像倾斜检测

4.2.2 透视变换

4.2.3 基于霍夫圆变换的印章检测

4.2.4 自适应阈值二值化

4.3 Tesseract-ocr字库训练

4.4 图片类文件检测整体流程

4.5 本章小结

5 检测系统设计与实现

5.1 文本类文件检测实现

5.2 图片类文件检测实现

5.3 本章小结

6 总结与展望

6.1 总结

6.2 展望

参考文献

附录

攻读学位期间的研究成果

致谢

展开▼

摘要

随着无纸化办公的推广和计算机技术的进步,越来越多包含重要信息的文件在网络中传播,一些纸质材料通过拍照、扫描等途径转存为电子文档,方便阅读和存储。技术的进步在带来便利的同时,给不宜广泛传播、包含私密信息的资料(如合同、红头文件等重要文档)带来了巨大的安全隐患,一些不当操作会导致重要信息无意间通过电子文档泄漏到网络环境中。
  当前广泛使用的红头文件检测方法一般是预先在重要文件中加入隐藏且不易损坏的电子水印,检测过程中对加入的信息进行提取和匹配。这种方式需要提前处理,在用户无意间造成的泄露中并不实用。一些基于文本相似度的文件检测方法的核心是段落之间的比较和语义的识别,需要预设的关键信息较多,计算量大、耗费时间长,满足不了日益增长的数据处理速度需求。
  本文针对网络传输数据包中的文本类红头文件及图片类红头文件,设计了一个具有普适性的适用于网络数据包中关键特征检测的系统,检测的目标是文件中的特定关键字和红头文件的关键特征。本文主要工作概括如下:
  (1)在文本类文件检测方面,采用多模式匹配算法缩短在文本中搜索关键字的时间。常用于字符串搜索的多模式匹配应用到中英文混合环境中会有空间膨胀、单字词误匹配的问题。为此本文在详尽分析常见编码方式的基础上,结合组合状态自动机(DFSA-QS)算法和线索完全哈希字典树匹配机(THT)算法的优点,提出了一种适用于多种编码方式的中英文混合文本多模式匹配算法。该算法实现了从小段数据中判定出编码方式,并且利用对比常用汉字表对搜索出的单字符匹配结果进行筛选,删除误匹配结果。实验结果表明本文算法能有效地在中英文环境中快速搜索关键字,且不会产生误匹配。
  (2)在图片类文件检测方面,主要解决的问题是通过图像预处理提高光学字符识别(OCR)的识别率。通过对OCR的测试了解其输入图片的需求,设计了针对性的图像预处理步骤。使用累积概率霍夫变换检测红头文件中的红色分割线,得出倾斜角度,使用霍夫圆变换定位出印章区域,对原图进行裁剪,必要时使用透视变换修正图像。运用结合边界信息的自适应阈值二值化算法消除光照不均对图像的影响。通过训练OCR的字库将红色五角星等特征识别成关键字,增加检测结果的可信度。实验结果显示能有效地检测出亮度不均、倾斜等环境中包含指定关键特征的红头文件。
  实验结果表明,本文提出的红头文件检测系统能有效地检测出包含关键字的文本类文件,耗时比常见的多模式匹配算法低,且不会产生单字词误匹配的情况,必要时可以还原出原始汉字内容以供查看;图片类文件检测系统能有效检测关键字和关键特征,处理大小为1024*768的图片平均耗时1.3s,满足实际应用需求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号