首页> 中文学位 >基于打印指令的打印数据文本信息的提取和追加
【6h】

基于打印指令的打印数据文本信息的提取和追加

代理获取

目录

声明

摘要

1 绪论

1.1 课题研究背景

1.2 课题研究目标和意义

1.2.1 课题研究目标

1.2.2 课题研究意义

1.3 打印数据解析的国内外研究现状

1.3.1 EMF解析研究现状

1.3.2 PostScript解析研究现状

1.4 本文结构

2 Windows系统打印原理和打印数据获取

2.1 Windows打印原理

2.1.1 图形设备接口(GDI)

2.1.2 Windows字体库介绍(TTF)

2.1.3 假脱机系统(Spooling)

2.1.4 Windows系统假脱机打印流程

2.2 打印数据的获取

2.2.1 打印数据的分类

2.2.2 标准假脱机文件(EMF)打印内容获取

2.2.3 原始打印类型的假脱机文件(PostScript)打印内容获取

2.3 本章小结

3 基于DRAW16的EMF文件格式解析研究

3.1 EMF文件格式解析方法研究

3.1.1 EMF文件格式介绍

3.1.2 EMF记录类型分析

3.1.3 EMF文本提取方法研究

3.2 输出文本属性转换算法研究

3.2.1 EMF文本信息输出格式

3.2.2 属性转换算法设计及实现

3.3 DRAW16的EMF解析算法仿真分析

3.3.1 测试工具设计

3.3.2 测试结果展示

3.4 本章小结

4 PS文件追加方法研究与实现

4.1 PS文件机制分析

4.1.1 PS数据对象

4.1.2 PS栈

4.1.3 PS对象的存储机制

4.1.4 PS常用操作符

4.1.5 PS单色位图显示机制

4.1.6 PS文本显示机制

4.1.7 PS字库解码方式研究

4.2 PS信息追加方法研究

4.2.1 PS单色位图追加研究和实现

4.2.2 PS文本信息追加研究和实现

4.3 PS信息追加算法仿真测试

4.3.1 测试工具展示

4.3.2 测试结果展示

4.4 本章小结

5 总结和展望

5.1 论文总结

5.2 研究展望

参考文献

附录

致谢

个人简历

展开▼

摘要

随着互联网的普及,大数据概念应运而生,与此同时各种数据采集方式也相继出现。除去平时常见的网页爬虫、网卡过滤等数据采集方法之外,打印机数据采集的需求也越来越多。毫无疑问,数据采集是大数据分析的基础工作。
  最早的数据采集出现在工业时代的自动控制和环境监测领域,后来发展到电子证据领域,而如今数据采集作为大数据分析的基础性工作,在互联网领域中的地位举足轻重。互联网中的数据有多种来源,包括客户机使用记录、系统日志、网络流量监控、邮件信息、硬盘文件、浏览器缓存数据、聊天记录等。
  打印机数据采集的需求出现较晚,它是随着互联网支付的出现而出现的,特别是在O2O概念普及之后,很多实体店都开始尝试使用线上支付的经营策略。尤其是对于那些先消费后支付的商店而言,获取客户的已消费信息就非常重要。如果要对目前存在的客户管理系统增加支付功能就只能从账单打印这一环节入手,因为各种管理系统的实现千差万别,消费信息获取太过复杂,所以要获取客户消费信息只能从分析待打印的客户账单(打印缓冲文件)中得到,原因在于相比于各种管理系统的种类数量而言,打印机的种类数量要少的多。因此从软件通用的角度来讲,消费信息的采集可以从打印机入手,而对各种打印指令翻译也就变得越来越迫切。
  本文从Windows操作系统的打印机制入手,分别以Windows标准假脱机文件(EMF)和与打印机相关的假脱机文件(以Postscript打印指令为例)为研究对象,在现有指令解析相关研究的基础上,提出了基于DRAW16的EMF文件解析算法,以及将标准文本或者图片转换为PostScript打印指令的转换算法。
  本文针对EMF矢量文字识别中遇到的各种问题均提出具体的解决方案,包括训练集和测试集的选取、矢量特征提取、多文字记录识别方式等。在标准文本或图片转换成打印指令的过程中也涉及到了多个方面的问题,比如PostScript坐标转换、分辨率设定、字库创建等。本文的研究成果对有效解决这类打印机指令翻译以及追加有积极的推进作用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号