声明
摘要
第一章绪论
1.1研究背景及意义
1.2研究现状
1.2.1国内外图像文本检测技术的研究现状
1.2.2国内外敏感文件检测技术的研究现状
1.3论文主要工作及结构安排
第二章图像文本文件字符识别技术
2.1光学字符识别OCR技术
2.1.1百度OCR识别
2.1.2阿里OCR识别
2.1.3腾讯OCR识别
2.2 Tesseract-oct开源系统文字识别
2.3 ABBYY FineReader Engine
2.4.1基于霍夫线变换的图像特征检测
2.4.2透视变换
2.4.3基于霍夫圆变换的印章检测
2.5印刷体文本图像文件检测整体流程
2.6本章小结
第三章图像文本检测算法设计与实现
3.1图像文本检测技术
3.1.1图像文本检测算法思想
3.1.2 SWT笔画宽度算法
3.1.3基于二维离散傅里叶变换的图像倾斜检测
3.2中文文本图像检测技术实现
3.2.1中文印刷体图像感兴趣区域(ROI)
3.2.2改进的笔画宽度算法
3.2.3中文印刷体检测算法优化
3.3实验结果与分析
3.3.1中文文本图像样本库建立
3.3.2文本检测结果对比规则
3.4本章小结
第四章基于深度学习的敏感文件检测模型设计与实现
4.1深度学习的原理
4.1.1神经元模型
4.1.2多层感知器模型
4.1.3反向传播算法
4.2深度学习网络
4.2.1循环神经网络RNN
4.2.2长短期记忆神经网络LSTM
4.2.3双向长短期记忆神经网络Bi-LSTM
4.2.4注意力分层模型
4.3神经网络优化
4.3.1 Dropout改进过拟合
4.3.2 LSTM Dropout正则化
4.4基于Bi-LSTM与HAN(分层注意力机制)的敏感文件检测模型设计
4.5敏感文件语料库建立
4.6实验结果与分析
4.6.1模型参数设计
4.6.2实验结果对比
4.7本章小结
第五章敏感文件检测系统设计与实现
5.1系统概述
5.1.1图像预处理
5.1.2图像扫描管理
5.1.3文本图像OCR识别
5.1.4敏感文本图像文件检测
5.2本章小结
第六章总结与展望
6.1本文工作总结
6.2未来工作展望
参考文献
攻读学位期间的研究成果
致谢