首页> 中国专利> 一种解析Office二进制格式并提取文档属性文字的方法及系统

一种解析Office二进制格式并提取文档属性文字的方法及系统

摘要

本发明提供了一种解析Office二进制格式并提取文档属性文字的方法及系统,本发明通过分析Office文档的二进制数据,根据文档中属性的存放原理,将Office文档中的属性文字全部提取出来,相对于使用二次接口开发和JAVA OPI技术接口提取文档属性中的文字,通过分析二进制文件并提取文件属性中文字可支持跨平台,不仅支持Windows系统而且支持Linux等系统,且效率高,通过二进制读取文件,并进行精确定位处理,执行效率显著提高,另外程序包小,所有实现均通过手动编码和调用系统API函数,不依赖任何第三方程序文件。本发明不限制于Office文件的文字提取,凡是采用Office存放原理的文件都可采用此方法提取文字,如金山Office等。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-06-23

    实质审查的生效 IPC(主分类):G06F40/149 申请日:20200113

    实质审查的生效

  • 2020-05-29

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号