基于图像识别的敏感文件检测技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在数字化技术迅猛发展的今天，一些涉及企业与政府的敏感信息文件经常因为窃泄密等原因在网络上出现，这些文件的泄露往往会给政府或企业带来重大的负面影响，因此如何发现这些敏感文件已经成为当前信息安全领域的热点课题之一。传统的敏感文件检测大部分是通过特定的关键字匹配来实现的（比如保密、机密、绝密等关键字），但中文是一种重“意合”，轻形式的文字，语句歧义现象非常普遍，对于存在语义歧义的时候，基于关键字匹配的敏感文件检测，存在检测精度差，以及后续关键词扩充繁琐的特点，同时由于很多泄露的文件往往是先拍照再在网络上传输，此时基于关键字匹配的检测方法就完全失效了。本文针对互联网上拍照泄露敏感信息文件的常见情况，首先设计了一个高效判断是否是中文文本图像文件的算法，然后在此基础上采用OCR处理实现文字提取，最后通过基于深度学习技术对文本语料样本库进行训练而建成的模型实现检测。本文的主要工作概括如下: (1)提出一种基于改进的笔画宽度中文文本图像检测算法(SWT)。利用文本笔画宽度较为固定的特征，首先通过canny算子对图像进行边缘检测提取边缘检测图。其次，在文字边缘像素点上寻找符合笔画宽度方向阈值上的边缘像素点，并计算像素点间的笔画宽度距离。然后，把笔画宽度路径上大于笔画中值的宽度信息，更新为笔画宽度中值信息，输出包含每个像素点笔画宽度信思的SWT图像。最后，根据字符候选区域相关过滤规则聚字成行，同时结合本文针对中文文本图像设计的4点启发性规则来进一步提高中文文本图像文件的检测效果。 (2)提出一种基于双向长短期记忆神经网络(Bi-LSTM)与分层注意力机制(HAN)相结合的深度学习敏感文件检测方法。首先，根据国家相关保密法规对敏感文件的定义方式，综合选出了“政治敏感”，“宗教敏感”，“军事敏感”，“人权敏感”，“非敏感”5种敏感文件定义，然后收集、标注、构建训练的敏感文件语料库。其次，针对文本语料的训练特点，对构建的语料进行向量化，使其符合深度学习对输入数据格式的要求。最后，提出基于Bi-LSTM与HAN相结合的神经网络模型，对收集到的文本语料库进行训练，并最终实现图像形式的敏感文件检测。 (3)利用以上算法搭建了一个验证演示系统。系统主要分为图像预处理、图像OCR、以及文本图像敏感文件检测3个部分。在图像预处理方面，本文针对图像文件拍照过程中，较常出现的倾斜以及透视现象，提供相应的校正功能，使其在图像OCR阶段可以取得较好的识别效果。在敏感文件检测方面通过设计的基于Bi-LSTM与HAN相结合的检测模型，对OCR识别提取到的文本，进行敏感检测从而达到系统的设计要求。

著录项

作者
周一枫;
展开▼
作者单位

浙江理工大学;

展开▼
授予单位浙江理工大学;
学科计算机技术
授予学位硕士
导师姓名张华熊,金向东;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
图像识别; 敏感; 文件;

相似文献

中文文献
外文文献
专利

1. 基于敏感图像识别预防水利灾害关键技术研究 [J] . 任侠 ,廖建平 . 软件工程师 . 2013,第006期
2. 基于图像识别的智能变电站检测预警技术研究 [J] . 唐志勇 ,沈自刚 ,汪正刚 . 电力系统装备 . 2020,第021期
3. 基于光学图像识别的船体变形量检测技术研究 [J] . 王宇 ,刘旭东 . 舰船科学技术 . 2018,第8X期
4. 基于图像识别的错位图书检测技术研究 [J] . 孙继周 ,王小雄 ,罗佳佳 . 现代电子技术 . 2016,第005期
5. 基于图像识别技术的桥梁病害检测技术研究 [J] . 马卫建 ,孙凯林 . 黑龙江交通科技 . 2015,第011期
6. 基于动态污点跟踪的敏感文件泄露检测方法 [C] . Li Weiming ,李伟明 ,He Xuan . 中国教育和科研计算机网CERNET第二十三届学术年会 . 2016
7. 基于图像识别的工作人员穿戴规范性检测技术研究 [A] . 袁一丹 . 2019

基于图像识别的敏感文件检测技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅