公开/公告号CN112861473A
专利类型发明专利
公开/公告日2021-05-28
原文格式PDF
申请/专利权人 国网浙江省电力有限公司物资分公司;
申请/专利号CN202110271300.3
发明设计人 李雪维;钱仲文;裘华东;范江东;赵欣;金日强;张志仁;韩欣之;吕晓青;卢孔实;吴越人;郭燕玲;潘丐多;叶凡;林春;张睿;李媛媛;朱力;郑思佳;吴波;徐天天;袁奕文;何佳;杨文颖;喻琤;刘挺;杨钦;
申请日2021-03-12
分类号G06F40/117(20200101);G06F40/169(20200101);G06F40/177(20200101);G06F40/194(20200101);G06F16/16(20190101);G06F16/35(20190101);G06Q10/10(20120101);
代理机构33246 浙江千克知识产权代理有限公司;
代理人任婷婷
地址 310000 浙江省杭州市下城区凤起路378号5-6层
入库时间 2023-06-19 11:08:20
技术领域
本发明涉及技术语言文档处理技术领域,具体为一种基于openpyxl的目录审查结果汇总系统及方法。
背景技术
技术语言文档处理技术主要是针对庞杂的表格及文本信息按照特殊的逻辑关系标识出有用的技术词语。随着海量表格及文本数据的增加,如何从海量文本信息中迅速捕获到适用于自身的信息,进而对这些信息进行合理的应用和管理是当前急需解决的问题。
目前,物资项目管理领域下,表格及文档大都直接人为处理,导致在目录文档的整理过程中,工作效率较低且容易出现错漏,进而使目录文档的处理效果及处理效率不太理想。
发明内容
本发明针对现有技术存在的问题,提出了一种基于openpyxl的目录审查结果汇总系统及方法,能够有效提高物资项目管理领域下目录文档的处理效果及处理效率。
本发明解决其技术问题所采用的技术方案是:一种基于openpyxl的目录审查结果汇总系统,包括
目录数据上传模块,用于上传同一批次的目录数据并将所述目录数据进行预处理以得到待处理文档;
文档分类模块,用于将所述待处理文档分类为excel文件和word文件;
excel文件处理模块,用于对所述excel文件进行处理以得到具有标注的物资目录页;
word文件处理模块,用于对所述word文件进行处理以得到具有标注的物资目录页;
物资目录页封装模块,用于将所述物资目录页进行整理封装。
本发明系统能够通过文档分类模块对目录文档进行分类以得到excel文件和word文件,并能够通过excel文件处理模块对excel文件进行关键内容查找和标注,还能够通过word文件处理模块对word文件进行关键词查找和标注,从而提高了物资项目管理领域下目录文档的处理效果和处理效率。
作为优选,所述目录数据上传模块包括
总文件夹建立单元,用于建立存放所述目录数据的批次文件总文件夹,所述目录数据包括压缩包、文件夹、word文件和excel文件;
压缩包解压单元,用于在所述批次文件总文件夹中将所述压缩包解压为文件夹;
次文件夹建立单元,用于建立存放所述批次文件总文件夹以及所述文件夹中的word文件和excel文件的批次文件次文件夹。
作为优选,所述文档分类模块通过openpyxl功能模块对所述待处理文档进行分类。
作为优选,所述excel文件处理模块用于当所述待处理文档为excel文件时,通过fileParse功能函数读取excel文件的内容;
用于当所述excel文件的sheet名称为投标人采购材料设备表或招标人采购材料设备表时,将投标人采购材料设备表或招标人采购材料设备表中内容与数据库的一二级采购目录进行匹配,如果匹配上,则根据所述一二级采购目录的大中小类给所述投标人采购材料设备表或招标人采购材料设备表中的对应单元格添加不同的背景色;
用于当所述excel文件的sheet名称为工程量清单时,将工程量清单中内容与数据库的一二级采购目录进行匹配,如果匹配上,则根据所述一二级采购目录的大中小类给所述工程量清单的对应单元格添加不同的背景色。
作为优选,所述word文件处理模块用于当所述待处理文档为word文件时,通过read_word_java功能函数读取word文件的内容并将其进行切词处理,还用于将切好的词与数据库里的技术规范书中的关键词进行匹配,如果匹配上,则将该词进行高亮处理。
一种基于openpyxl的目录审查结果汇总方法,包括以下步骤
S1上传同一批次的目录数据,并将所述目录数据进行预处理以得到待处理文档;
S2通过文档分类模块将所述待处理文档分类为excel文件和word文件;
S3通过excel文件处理模块对所述excel文件进行处理并通过word文件处理模块对所述word文件进行处理以得到具有标注的物资目录页;
S4将所述物资目录页进行整理封装。
本发明方法能够通过文档分类模块对目录文档进行分类以得到excel文件和word文件,并能够通过excel文件处理模块对excel文件进行关键内容查找和标注,还能够通过word文件处理模块对word文件进行关键词查找和标注,从而提高了物资项目管理领域下目录文档的处理效果和处理效率。
作为优选,所述S1具体包括
S11建立批次文件总文件夹,并将目录数据上传至所述批次文件总文件夹,所述目录数据包括压缩包、文件夹、word文件和excel文件;
S12在所述批次文件总文件夹中将所述压缩包解压为文件夹;
S13在所述批次文件总文件夹中建立批次文件次文件夹,将所述批次文件总文件夹以及所述文件夹中的word文件和excel文件移动至所述批次文件次文件夹以形成待处理文档。
作为优选,所述S2具体包括,通过openpyxl功能模块对所述待处理文档进行分类。
作为优选,所述S3中,当所述待处理文档为excel文件时,所述excel文件处理模块通过fileParse功能函数读取excel文件的内容;
当所述excel文件的sheet名称为投标人采购材料设备表或招标人采购材料设备表时,所述excel文件处理模块将投标人采购材料设备表或招标人采购材料设备表中内容与数据库的一二级采购目录进行匹配,如果匹配上,则根据所述一二级采购目录的大中小类给所述投标人采购材料设备表或招标人采购材料设备表中的对应单元格添加不同的背景色;
当所述excel文件的sheet名称为工程量清单时,所述excel文件处理模块将工程量清单中内容与数据库的一二级采购目录进行匹配,如果匹配上,则根据所述一二级采购目录的大中小类给所述工程量清单的对应单元格添加不同的背景色。
作为优选,所述S3中,当所述待处理文档为word文件时,所述word文件处理模块通过read_word_java功能函数读取word文件的内容并将其进行切词处理,所述word文件处理模块将切好的词与数据库里的技术规范书中的关键词进行匹配,如果匹配上,则将该词进行高亮处理。
有益效果
本发明系统及方法能够通过Openpyxl功能模块对目录文档进行分类以得到excel文件和word文件,并能够通过Openpyxl功能模块对excel文件进行关键内容查找和标注,还能够通过word文件处理模块对word文件进行关键词查找和标注,从而提高了物资项目管理领域下目录文档的处理效果和处理效率。
附图说明
图1为本发明目录数据的组成图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
一种基于openpyxl的目录审查结果汇总系统,包括目录数据上传模块,文档分类模块,excel文件处理模块,word文件处理模块和物资目录页封装模块。
目录数据上传模块用于上传同一批次的目录数据并将所述目录数据进行预处理以得到待处理文档。所述目录数据上传模块具体包括总文件夹建立单元,压缩包解压单元和次文件夹建立单元。总文件夹建立单元用于建立存放所述目录数据的批次文件总文件夹,所述目录数据如图1所示,包括压缩包、文件夹、word文件和excel文件。压缩包解压单元用于在所述批次文件总文件夹中将所述压缩包解压为文件夹,首先获取压缩包的文件名称,通过压缩包的文件名称的后缀判断压缩包的文件格式,常见的压缩包的文件格式包括zip、tar、rar、7z等常用格式,对于不同格式的压缩包采用不同的解压方法。次文件夹建立单元用于建立存放所述批次文件总文件夹以及所述文件夹中的word文件和excel文件的批次文件次文件夹。
文档分类模块用于将所述待处理文档分类为excel文件和word文件。所述文档分类模块通过openpyxl功能模块对所述待处理文档进行分类。Openpyxl功能模块是一个读写excel 2010 文档的 Python 库,它是一款比较综合的工具,不仅能够同时读取和修改excel 文件,而且可以对excel文件内单元格进行详细设置,包括单元格样式等内容,甚至还支持图表插入、打印设置等内容,使用 openpyxl 功能模块可以读写xltm, xltx, xlsm,xlsx 等类型的文件,且可以处理数据量较大的excel 文件。本发明系统通过openpyxl功能模块能够判定待处理文档是否为excel文件,如果待处理文档不是excel文件,则该待处理文档必定是word文件。
excel文件处理模块用于对所述excel文件进行处理以得到具有标注的物资目录页。具体的,所述excel文件处理模块用于当所述待处理文档为excel文件时,通过fileParse功能函数读取excel文件的内容,fileParse功能函数是Openpyxl功能模块的一个功能函数;并用于当所述excel文件的sheet名称为投标人采购材料设备表或招标人采购材料设备表时,将投标人采购材料设备表或招标人采购材料设备表中内容与数据库的一二级采购目录进行匹配,如果匹配上,则根据所述一二级采购目录的大中小类给所述投标人采购材料设备表或招标人采购材料设备表中的对应单元格添加不同的背景色;另外,将投标人采购材料设备表中不建议某某供的字体加红加粗,建议某某供的字体加黄加粗。还用于当所述excel文件的sheet名称为工程量清单时,将工程量清单中内容与数据库的一二级采购目录进行匹配,如果匹配上,则根据所述一二级采购目录的大中小类给所述工程量清单的对应单元格添加不同的背景色;如果匹配不上,则将工程量清单中对应的单元格字体加粗加红。
word文件处理模块用于对所述word文件进行处理以得到具有标注的物资目录页。具体的,所述word文件处理模块用于当所述待处理文档为word文件时,通过read_word_java功能函数读取word文件的内容并将其进行切词处理,还用于将切好的词与数据库里的技术规范书中的关键词进行匹配,如果匹配上,则将该词进行高亮处理。
物资目录页封装模块用于将所述物资目录页进行整理封装。可以将具有颜色标注的物资目录封装为字典形式,其中包括的词语有“文件名”、“关键词”、“类型”、“sheet页”、“行数”、“列数”等,并将字典内容放入批次文件的总报表中。
本发明系统能够通过Openpyxl功能模块对目录文档进行分类以得到excel文件和word文件,并能够通过Openpyxl功能模块对excel文件进行关键内容查找和标注,还能够通过word文件处理模块对word文件进行关键词查找和标注,从而提高了物资项目管理领域下目录文档的处理效果和处理效率。
一种基于openpyxl的目录审查结果汇总方法,包括以下步骤,
S1上传同一批次的目录数据,并将所述目录数据进行预处理以得到待处理文档。所述S1具体包括S11建立批次文件总文件夹,并将目录数据上传至所述批次文件总文件夹,所述目录数据如图1所示,包括压缩包、文件夹、word文件和excel文件。S12在所述批次文件总文件夹中将所述压缩包解压为文件夹,首先获取压缩包的文件名称,通过压缩包的文件名称的后缀判断压缩包的文件格式,常见的压缩包的文件格式包括zip、tar、rar、7z等常用格式,对于不同格式的压缩包采用不同的解压方法。S13在所述批次文件总文件夹中建立批次文件次文件夹,将所述批次文件总文件夹以及所述文件夹中的word文件和excel文件移动至所述批次文件次文件夹以形成待处理文档。
S2通过文档分类模块将所述待处理文档分类为excel文件和word文件。具体的,通过openpyxl功能模块对所述待处理文档进行分类。Openpyxl功能模块是一个读写excel2010 文档的 Python 库,它是一款比较综合的工具,不仅能够同时读取和修改 excel 文件,而且可以对excel文件内单元格进行详细设置,包括单元格样式等内容,甚至还支持图表插入、打印设置等内容,使用 openpyxl 功能模块可以读写xltm, xltx, xlsm, xlsx 等类型的文件,且可以处理数据量较大的excel 文件。本发明系统通过openpyxl功能模块能够判定待处理文档是否为excel文件,如果待处理文档不是excel文件,则该待处理文档必定是word文件。
S3通过excel文件处理模块对所述excel文件进行处理并通过word文件处理模块对所述word文件进行处理以得到具有标注的物资目录页。
所述S3中,当所述待处理文档为excel文件时,所述excel文件处理模块通过fileParse功能函数读取excel文件的内容,fileParse功能函数是Openpyxl功能模块的一个功能函数;当所述excel文件的sheet名称为投标人采购材料设备表或招标人采购材料设备表时,所述excel文件处理模块将投标人采购材料设备表或招标人采购材料设备表中内容与数据库的一二级采购目录进行匹配,如果匹配上,则根据所述一二级采购目录的大中小类给所述投标人采购材料设备表或招标人采购材料设备表中的对应单元格添加不同的背景色;另外,将投标人采购材料设备表中不建议某某供的字体加红加粗,建议某某供的字体加黄加粗。当所述excel文件的sheet名称为工程量清单时,所述excel文件处理模块将工程量清单中内容与数据库的一二级采购目录进行匹配,如果匹配上,则根据所述一二级采购目录的大中小类给所述工程量清单的对应单元格添加不同的背景色;如果匹配不上,则将工程量清单中对应的单元格字体加粗加红。
所述S3中,当所述待处理文档为word文件时,所述word文件处理模块通过read_word_java功能函数读取word文件的内容并将其进行切词处理,所述word文件处理模块将切好的词与数据库里的技术规范书中的关键词进行匹配,如果匹配上,则将该词进行高亮处理。
S4将所述物资目录页进行整理封装。可以将具有颜色标注的物资目录封装为字典形式,其中包括的词语有“文件名”、“关键词”、“类型”、“sheet页”、“行数”、“列数”等,并将字典内容放入批次文件的总报表中。
本发明方法能够通过Openpyxl功能模块对目录文档进行分类以得到excel文件和word文件,并能够通过Openpyxl功能模块对excel文件进行关键内容查找和标注,还能够通过word文件处理模块对word文件进行关键词查找和标注,从而提高了物资项目管理领域下目录文档的处理效果和处理效率。
上面所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的构思和范围进行限定。在不脱离本发明设计构思的前提下,本领域普通人员对本发明的技术方案做出的各种变型和改进,均应落入到本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。
机译: 电子文档审查意见汇总系统,非暂时性计算机可读介质,电子文档审查意见汇总和输入装置以及非临时性计算机可读介质
机译: 图片审查系统,图片审查方法,程序的目录以及记录程序的媒体
机译: 电子目录汇总装置,用于实现快速高效的电子目录系统