首页> 中文学位 >基于图像识别的敏感文件检测技术研究
【6h】

基于图像识别的敏感文件检测技术研究

代理获取

目录

声明

摘要

第一章绪论

1.1研究背景及意义

1.2研究现状

1.2.1国内外图像文本检测技术的研究现状

1.2.2国内外敏感文件检测技术的研究现状

1.3论文主要工作及结构安排

第二章图像文本文件字符识别技术

2.1光学字符识别OCR技术

2.1.1百度OCR识别

2.1.2阿里OCR识别

2.1.3腾讯OCR识别

2.2 Tesseract-oct开源系统文字识别

2.3 ABBYY FineReader Engine

2.4.1基于霍夫线变换的图像特征检测

2.4.2透视变换

2.4.3基于霍夫圆变换的印章检测

2.5印刷体文本图像文件检测整体流程

2.6本章小结

第三章图像文本检测算法设计与实现

3.1图像文本检测技术

3.1.1图像文本检测算法思想

3.1.2 SWT笔画宽度算法

3.1.3基于二维离散傅里叶变换的图像倾斜检测

3.2中文文本图像检测技术实现

3.2.1中文印刷体图像感兴趣区域(ROI)

3.2.2改进的笔画宽度算法

3.2.3中文印刷体检测算法优化

3.3实验结果与分析

3.3.1中文文本图像样本库建立

3.3.2文本检测结果对比规则

3.4本章小结

第四章基于深度学习的敏感文件检测模型设计与实现

4.1深度学习的原理

4.1.1神经元模型

4.1.2多层感知器模型

4.1.3反向传播算法

4.2深度学习网络

4.2.1循环神经网络RNN

4.2.2长短期记忆神经网络LSTM

4.2.3双向长短期记忆神经网络Bi-LSTM

4.2.4注意力分层模型

4.3神经网络优化

4.3.1 Dropout改进过拟合

4.3.2 LSTM Dropout正则化

4.4基于Bi-LSTM与HAN(分层注意力机制)的敏感文件检测模型设计

4.5敏感文件语料库建立

4.6实验结果与分析

4.6.1模型参数设计

4.6.2实验结果对比

4.7本章小结

第五章敏感文件检测系统设计与实现

5.1系统概述

5.1.1图像预处理

5.1.2图像扫描管理

5.1.3文本图像OCR识别

5.1.4敏感文本图像文件检测

5.2本章小结

第六章总结与展望

6.1本文工作总结

6.2未来工作展望

参考文献

攻读学位期间的研究成果

致谢

展开▼

摘要

在数字化技术迅猛发展的今天,一些涉及企业与政府的敏感信息文件经常因为窃泄密等原因在网络上出现,这些文件的泄露往往会给政府或企业带来重大的负面影响,因此如何发现这些敏感文件已经成为当前信息安全领域的热点课题之一。传统的敏感文件检测大部分是通过特定的关键字匹配来实现的(比如保密、机密、绝密等关键字),但中文是一种重“意合”,轻形式的文字,语句歧义现象非常普遍,对于存在语义歧义的时候,基于关键字匹配的敏感文件检测,存在检测精度差,以及后续关键词扩充繁琐的特点,同时由于很多泄露的文件往往是先拍照再在网络上传输,此时基于关键字匹配的检测方法就完全失效了。 本文针对互联网上拍照泄露敏感信息文件的常见情况,首先设计了一个高效判断是否是中文文本图像文件的算法,然后在此基础上采用OCR处理实现文字提取,最后通过基于深度学习技术对文本语料样本库进行训练而建成的模型实现检测。本文的主要工作概括如下: (1)提出一种基于改进的笔画宽度中文文本图像检测算法(SWT)。利用文本笔画宽度较为固定的特征,首先通过canny算子对图像进行边缘检测提取边缘检测图。其次,在文字边缘像素点上寻找符合笔画宽度方向阈值上的边缘像素点,并计算像素点间的笔画宽度距离。然后,把笔画宽度路径上大于笔画中值的宽度信息,更新为笔画宽度中值信息,输出包含每个像素点笔画宽度信思的SWT图像。最后,根据字符候选区域相关过滤规则聚字成行,同时结合本文针对中文文本图像设计的4点启发性规则来进一步提高中文文本图像文件的检测效果。 (2)提出一种基于双向长短期记忆神经网络(Bi-LSTM)与分层注意力机制(HAN)相结合的深度学习敏感文件检测方法。首先,根据国家相关保密法规对敏感文件的定义方式,综合选出了“政治敏感”,“宗教敏感”,“军事敏感”,“人权敏感”,“非敏感”5种敏感文件定义,然后收集、标注、构建训练的敏感文件语料库。其次,针对文本语料的训练特点,对构建的语料进行向量化,使其符合深度学习对输入数据格式的要求。最后,提出基于Bi-LSTM与HAN相结合的神经网络模型,对收集到的文本语料库进行训练,并最终实现图像形式的敏感文件检测。 (3)利用以上算法搭建了一个验证演示系统。系统主要分为图像预处理、图像OCR、以及文本图像敏感文件检测3个部分。在图像预处理方面,本文针对图像文件拍照过程中,较常出现的倾斜以及透视现象,提供相应的校正功能,使其在图像OCR阶段可以取得较好的识别效果。在敏感文件检测方面通过设计的基于Bi-LSTM与HAN相结合的检测模型,对OCR识别提取到的文本,进行敏感检测从而达到系统的设计要求。

著录项

  • 作者

    周一枫;

  • 作者单位

    浙江理工大学;

  • 授予单位 浙江理工大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 张华熊,金向东;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    图像识别; 敏感; 文件;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号