公开/公告号CN113807816A
专利类型发明专利
公开/公告日2021-12-17
原文格式PDF
申请/专利权人 山东亿云信息技术有限公司;
申请/专利号CN202111101926.6
申请日2021-09-18
分类号G06Q10/10(20120101);G06K9/62(20060101);G06N5/02(20060101);G06F40/289(20200101);G06F40/247(20200101);
代理机构37221 济南圣达知识产权代理有限公司;
代理人张庆骞
地址 250014 山东省济南市高新区新泺大街2008号银荷大厦B座3层
入库时间 2023-06-19 13:45:04
技术领域
本发明属于项目建设信息处理领域,尤其涉及一种项目建设方案查重方法、装置、存储介质及电子设备。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在政务信息化的发展过程中,各部门已建设大量的信息化系统,伴随着信息化进程的推进,各部门会提出新的建设需求。在新项目的立项审核过程中,如何有效识别出系统的重复建设情况,已成为政务信息化项目管理过程中最关心的问题。
在解决识别项目重复建设的问题上,业内采取的方式是利用关联分析和文本挖掘技术对建设方案进行整体文本分析,算出新项目的建设方案与历史项目库中的项目的重复率,然后对重复率高的项目进行人工确认。但是发明人发现,由于建设方案文本内容偏多,很多无效文本成为信息查重的噪点,导致查重识别准确率比较低,需要花费大量时间人工审核。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种项目建设方案查重方法、装置、存储介质及电子设备,其能够提高项目重复识别率,减少因无效信息带来大量的人工成本。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种项目建设方案查重方法,其包括:
获取新项目的建设方案、报价表和立项申请表;
将预构建的行业知识库内每个历史项目的建设方案、报价表和立项申请表分别与新项目建设方案、报价表和立项申请表进行对应比对,得到所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分;
赋予所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分相应预先训练好的权重,累加求和后得到所述行业知识库内每个历史项目与新项目的重复率分值;
按照所述重复率分值从大到小的顺序,将排在前预设位数的历史项目作为疑似重复项目,以用于新项目建设方案查重的复核确认。
本发明的第二个方面提供一种项目建设方案查重装置,其包括:
新项目信息获取模块,其用于获取新项目的建设方案、报价表和立项申请表;
比对查重得分模块,其用于将预构建的行业知识库内每个历史项目的建设方案、报价表和立项申请表分别与新项目建设方案、报价表和立项申请表进行对应比对,得到所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分;
项目重复率分值计算模块,其用于赋予所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分相应预先训练好的权重,累加求和后得到所述行业知识库内每个历史项目与新项目的重复率分值;
疑似重复项目确定模块,其用于按照所述重复率分值从大到小的顺序,将排在前预设位数的历史项目作为疑似重复项目,以用于新项目建设方案查重的复核确认。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的项目建设方案查重方法中的步骤。
本发明的第四个方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的项目建设方案查重方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明预先构建了行业知识库,利用预构建的行业知识库内每个历史项目的建设方案、报价表和立项申请表分别与新项目建设方案、报价表和立项申请表进行对应比对,解决自动语义识别关联性低或无法关联问题,提高了关联分析模型识别率。
本发明利用对应比对得到所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分,得到了查重判断的多个因子;再赋予这些多个因子相应预先训练好的权重,累加求和后得到所述行业知识库内每个历史项目与新项目的重复率分值,解决了对比过程中噪点信息过多的问题,提升了查询建设方案的查重准确率,较原有的单文件全文本识别方法,能够提升高识别的有效率。而且经过项目实际验证查重识别率从25%提升到45%,能够有效节约审核时间,降低人工成本。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的项目建设方案查重方法的示例性应用环境的系统架构的示意图;
图2是本发明实施例的项目建设方案查重方法流程图;
图3是本发明实施例的项目建设方案查重结构示意图;
图4是本发明实施例的电子设备结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
图1示出了可以应用本发明实施例的项目建设方案查重方法的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括电子设备101和/或电子设备102,网络103和服务器104。网络103用以在电子设备101、电子设备102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。电子设备101、电子设备102,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的电子设备、网络和服务器的数量仅仅是示意性的。根据实现需要,可以具有任意数目的电子设备、网络和服务器。比如服务器104可以是多个服务器组成的服务器集群等。
本发明实施例所提供的项目建设方案查重方法一般由服务器104执行,相应地,项目建设方案查重装置可以设置于服务器104中。本领域技术人员容易理解的是,本发明实施例所提供的项目建设方案查重方法也可以由电子设备101、电子设备102执行。
实施例一
参照图2,本实施例所提供的项目建设方案查重方法,其具体包括如下步骤:
S201:获取新项目的建设方案、报价表和立项申请表。
S202:将预构建的行业知识库内每个历史项目的建设方案、报价表和立项申请表分别与新项目建设方案、报价表和立项申请表进行对应比对,得到所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分。
在具体实施中,所述行业知识库的构建过程包括:
对历史项目的建设方案、报价表和立项申请表分别进行全文本抽取,自动分词后形成相应关键词库;
对相应关键词库进行校正修改,丢弃无效同义词以及补充行业同义词,得到行业知识库。
在本实施例中,所述立项申请表中预设内容包括建设目的、建设依据和建设内容。
需要说明的是,在其他实施例中,立项申请表中预设内容除了建设目的、建设依据和建设内容之外,也可以包含其他内容,比如:建设时间等等。
所述行业知识库内每个历史项目的报价表和新项目的报价表格式统一。例如:报价表为统一格式的EXCEL,利用POI程序对excel文件中的软件报价部分提取模块名称和功能描述。
所述行业知识库内每个历史项目的立项申请表和新项目的格式统一。例如:立项申请表为统一格式的word表格,利用POI程序对word内申请表格的建设依据、建设目标和建设内容进行提取。
在具体实施中,所述查重得分的计算过程为:
(1)将待查重文本以句子为单位进行拆分;其中,句子拆分符号为“。??!”等;
(2)将拆分后的句子进行预处理;比如:分词并去除停用词等预处理;
(3)将待查重文本的预处理后的每个句子与语料库中的每个句子进行相似性计算得出相似度,并找出相似度超过设定相似度阈值(如:相似度阈值设为0.4)的句子;
其中,相似度可采用Jaccard相似性系数来计算。
此处需要说明的是,相似度计算也可采用其他现有的相似性计算方法来计算,比如:利用欧式距离来衡量相似度等。
(4)根据待查重文本中所有句子的相似度求平均,计算得出待查重文本的总体相似度,即为相应查重得分。
总体相似度=(句子1相似度+句子2相似度+...+句子n相似度)/n;
其中,n为待查重文本的句子总数;句子相似度范围0.0~1.0绿色句子相似度按照0计算,例如相似度小于阈值0.4(该阈值可配置)的认为是绿色句子。
例如:在本实施例中,得到行业知识库内每个历史项目的建设方案、报价表及立项申请表中建设目的、建设依据和建设内容的查重得分,分别为D1、D2、D3、D4和D5。
S203:赋予所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分相应预先训练好的权重,累加求和后得到所述行业知识库内每个历史项目与新项目的重复率分值。
具体地,得到所述行业知识库内每个历史项目与新项目的重复率分值R的计算公式为:
R=a*D1+b*D2+c*D3+e*D4+f*D5
其中:D1、D2、D3、D4和D5为行业知识库内每个历史项目的建设方案、报价表及立项申请表中建设目的、建设依据和建设内容这六个因子的查重得分;a、b、c、e和f为各因子的权重值;其中a、b、c、e因子f的具体权重值根据历史项目的信息训练而来。
其中,所述权重的训练过程为:
(1)从历史项目信息中获取权重训练的数据集;
(2)预设多种权重处理策略方案,将数据集应用到不同权重处理策略中处理数据,得到不同权重处理策略方案的功重复率;
(3)对比不同策略的重复率情况,取出中位数作为训练完成的权重。
S204:按照所述重复率分值从大到小的顺序,将排在前预设位数(比如:前20位等)的历史项目作为疑似重复项目,以用于新项目建设方案查重的复核确认。
实施例二
参照图3,本实施例所提供的项目建设方案查重装置,其具体包括如下模块:
新项目信息获取模块301,其用于获取新项目的建设方案、报价表和立项申请表;
比对查重得分模块302,其用于将预构建的行业知识库内每个历史项目的建设方案、报价表和立项申请表分别与新项目建设方案、报价表和立项申请表进行对应比对,得到所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分;
项目重复率分值计算模块303,其用于赋予所述行业知识库内每个历史项目的建设方案、报价表及立项申请表中预设内容的查重得分相应预先训练好的权重,累加求和后得到所述行业知识库内每个历史项目与新项目的重复率分值;
疑似重复项目确定模块304,其用于按照所述重复率分值从大到小的顺序,将排在前预设位数的历史项目作为疑似重复项目,以用于新项目建设方案查重的复核确认。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的项目建设方案查重方法中的步骤。
实施例四
参照图4,本实施例中电子设备的一种结构示意图。需要说明的是,图4示出的电子设备400仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
本实施例的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的项目建设方案查重方法中的步骤。
如图4所示,电子设备400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统操作所需的各种程序和数据。中央处理单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元501执行时,执行本申请的装置中限定的各种功能。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 一种用于制造具有用于存储应用程序和库的可重编程非易失性存储器的可定制便携式电子设备的方法,一种可定制便携式电子设备以及用于定制具有非易失性存储器的电子设备的便携式电子设备定制系统。
机译: 一种存储介质阵列控制器,一种存储介质阵列装置,一种存储介质驱动器,一种控制存储介质阵列的方法以及一种带有信号的介质嵌入式程序,用于存储介质阵列的控制器
机译: 一种存储介质阵列控制器,一种存储介质阵列装置,一种存储介质驱动器,一种控制存储介质阵列的方法以及一种将存储介质阵列控制器的程序嵌入的带有信号的介质