首页> 中文学位 >基于PDF文件结构的英文发音系统应用研究
【6h】

基于PDF文件结构的英文发音系统应用研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1引言

1.2国内外研究现状及发展动态

1.3论文研究目的与意义

1.4论文主要研究内容及其组织

1.4.1论文研究的主要内容

1.4.2论文组织

第二章PDF文档结构研究

2.1 PDF文档概述

2.1.1 PDF文档线状综述

2.1.2 PDF规范的发展

2.1.3 PDF文档的优点

2.1.4 PDF格式与HTML及XML格式比较

2.2 PDF文档语法

2.2.1 PDF对象

2.2.2 PDF文件结构

2.2.3 PDF文档逻辑结构

2.2.4 PDF线性结构

第三章英文发音系统研究

3.1概述

3.2 PDF文本信息提取的实现

3.2.1主3叉引用表与第一页交叉引用表的提取与合并

3.2.2寻找、提取存放正文中各页内容的stream流。并进行解码

3.2.3提取正文文本及其相关信息

3.2.4文本及其相关信息提取的实现

3.3英文发音系统

第四章系统实现

4.1系统实现原理

4.2 PDF文档分析

4.2.1 PDF基本语法

4.2.2修改过的PDF文件结构

4.2.3 Hello World文件分析

4.3实现方法

4.3.1交叉引用表的提取与合并

4.3.2提取Stream流

4.3.3解码Stream流

第五章总结与展望

5.1工作总结

5.2工作展望

致谢

参考文献

作者简历 攻读硕士学位期间完成的主要工作

展开▼

摘要

通过对PDF语法以及文件结构的分析,包括最流行的线性PDF文件,以及修改过的PDF文件,论述如何从PDF文件中取出正文内容字符串流并进行解码,并从解码后的字符串流中提取出文本。同时,本文详细的叙述了如何将PDF文件的各个交叉引用表合并,从而获得所有最新的对象的偏移量。然后根据PDF文档的逻辑结构获得到当前处于活动状态的所有流,最后进行解码,并提取出其中的文本内容。 PDF文件使用了工业标准的压缩算法,通常比PostScript文件小,易于传输与储存。它还是页独立的,一个PDF文件包含一个或多个“页”,可以单独处理各页,特别适合多处理器系统的工作。此外,一个PDF文件还包含文件中所使用的PDF格式版本,以及文件中一些重要结构的定位信息。正是由于PDF文件的种种优点,它逐渐成为出版业中的新宠。 根据本文的内容可以将线性化非线性化,修改过,没有修改过的各种PDF文件进行解析,获取其中的所有有效的流对象(二进制流)。 英语发音训练系统是一个用于协助用户提高自己发音的嵌入式系统。本次毕业设计的目标是将用户从网络上获取的传输入系统中的PDF文件中的文本内容提取出来,使用户可以将网络中丰富的PDF文件资源直接运用于我们的英语口语发音训练系统上。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号