首页> 中国专利> 一种异构源文档静态化html处理方法

一种异构源文档静态化html处理方法

摘要

本发明公开了一种异构源文档静态化html处理方法,通过将不同源文档统一转换为PDF,再将PDF转换为HTML,从而避降低了将文档直接转换为html的难度,也避免了文档直接转换为html可能会造成的样式错乱及内容丢失的情况。从而提升了工作效率,也便于数据存储和文件传输。

著录项

  • 公开/公告号CN112395833A

    专利类型发明专利

  • 公开/公告日2021-02-23

    原文格式PDF

  • 申请/专利权人 贵州电网有限责任公司;

    申请/专利号CN202011073266.0

  • 申请日2020-10-09

  • 分类号G06F40/154(20200101);

  • 代理机构51238 成都玖和知识产权代理事务所(普通合伙);

  • 代理人胡琳梅

  • 地址 550000 贵州省贵阳市南明区滨河路17号

  • 入库时间 2023-06-19 09:58:59

说明书

技术领域

本发明涉及数据文件处理技术领域,特别涉及一种异构源文档静态化html处理方法。

背景技术

现有技术实现文档在线浏览主要有以下几种方案:1. 客户端浏览器插件;2. 将文档转换为图片;3. 通过POI等工具将文档转换为HTML,以上第一针方式需要客户端浏览器安装相应插件,增加了客户端的压力,容易引起用户的反感,且不同的文档源需要不同的插件支持,第二种方式将文档转换为图片后在线浏览,此种方式会导致文档内容不可选,不方便用户操作;第三种方式通过POI等工具进行转换,由于不同源的文档结构不同,解析难度较大,且解析后悔出现样式错乱,文本丢失等问题。

发明内容

有鉴于此,本发明的目的是提供一种异构源文档静态化html处理方法。能够解决背景技术中存在的问题。

本发明的目的是通过以下技术方案实现的:

本发明的第一方面的目的是提供一种异构源文档静态化html处理方法,包括

读取文档;

判断文档格式不是PDF文档格式时,则根据当前操作系统判断,根据不同的操作系统选用不同的转换模块进行格式转换;

将不同源的文档统一转换为PDF格式。

特别地,如果是windows操作系统且文档格式为WPS文档格式,则调用WPS应用程序进行转换,如果是office文档格式,则调用office应用程序进行转换;若操作系统位Linux,则调用LibreOffice进行转换;将不同源的文档统一转换为PDF格式。

特别地,在将不同源的文档统一转换为PDF格式后,加载PDF文件,调用pdf2htmlEX进行转换,得到html格式文档。

特别地,对于含有目录结构的PDF可以提取出文档目录,方便web端浏览时进行快速导航操作。、

特别地,对转换后的html进行预处理,处理内容包括html文档样式转换为源文档演示,部分转换出错标签处理。

特别地,所述office文档格式包括Word、PPT、excel、visio文档格式。

本发明的第二方面的目的是提供一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前所述的方法。

本发明的第三方面的的目的是提供一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现如前所述的方法。

本发明的有益效果是:本发明通过将不同源文档统一转换为PDF,再将PDF转换为HTML,从而避降低了将文档直接转换为html的难度,也避免了文档直接转换为html可能会造成的样式错乱及内容丢失的情况,

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和前述的权利要求书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:

图1为本发明的处理流程示意图;

图2为PDF文档转换为HTML的流程示意图;

图3为word原始文档显示图;

图4为图3所示文件转换为pdf文档的显示图;

图5为图4的pdf文件转换为html文档的显示图;

图6为visio原始文档显示图;

图7为图6所示文件转换为pdf文档的显示图;

图8为图7的pdf文件转换为html文档的显示图

具体实施方式

以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。

本发明的一种异构源文档静态化html处理方法,总的步骤包括

1.将不同源文档转换为PDF,具体流程如图1所示:

读取文档;

在文档转换为pdf时,如果文档格式原来就是pdf则不需要转换,如果不是pdf,则根据当前操作系统判断,如果是windows操作系统且文档格式为wps则调用wps应用程序进行转换,如果是Word、PPT、excel、visio等文档则调用office应用程序进行转换;若操作系统位Linux,则调用LibreOffice进行转换,最终将不同源的文档统一转换为PDF格式。

2. PDF文档转换为HTML

通过上述第一步处理后,实现了不同源文档到PDF的标准化处理,简化了后续转换为html的复杂度,其流程如图2所示:

首先加载pdf文件,调用pdf2htmlEX进行转换,对于含有目录结构的pdf可以提取出文档目录,方便web端浏览时进行快速导航操作。

3. HTML预处理

通过上述pdf转换为html后的文件会带有部分pdf的样式,比如pdf背景,而源文档格式可能不是pdf的,所以需要对转换后的html进行预处理,处理内容包括html文档样式转换为源文档演示,部分转换出错标签处理。

本发明通过标准化处理,将不同源的文档统一转换为PDF,在此过程中可以确保文档的样式不变且文本信息不会被转换为图片,然后再将转换后的PDF转换为HTML,从而实现了不同源文档的标准化输出。

从而避降低了将文档直接转换为html的难度,也避免了文档直接转换为html可能会造成的样式错乱及内容丢失的情况,图3-图8是不同格式文档转换为pdf后再转换为html的效果对比示意图。由图中可以看出,转换后的html文档显示清晰,样式完整,内容没有出现丢失的情况。

本发明的流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置) ,便携式计算机盘盒(磁装置) ,随机存取存储器(RAM) ,只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号