首页> 中国专利> 一种关于招标信息的关键字段提取方法及装置

一种关于招标信息的关键字段提取方法及装置

摘要

本发明涉及数据处理技术,提出的关于招标信息的关键字段提取方法、装置、计算机设备和存储介质,其中方法包括:通过获取已公开的招标信息形成招标集,招标集中包括多个招标文本,每个招标文本均具有对应的编号;从招标集中筛选出潜在包含有预设关键字段预测文本,并提取预测文本的编号;依据编号获取预测文本,依据正则表达式匹配算法对预测文本提取出相应的招标关键字段;将招标关键字段存储至指定位置,以供后续检索分析使用,这样由于首先通过在海量的招标信息中筛选出潜在包含预设关键字段的招标文本,再在筛选出的招标文本中提取相应的招标关键字段,大大地减小了提取招标关键字段的处理数据量,提高效率,节省资源。

著录项

  • 公开/公告号CN113128218A

    专利类型发明专利

  • 公开/公告日2021-07-16

    原文格式PDF

  • 申请/专利权人 华世界数字科技(深圳)有限公司;

    申请/专利号CN202110462661.6

  • 发明设计人 李武钊;

    申请日2021-04-27

  • 分类号G06F40/289(20200101);G06F40/216(20200101);G06N7/00(20060101);G06Q10/10(20120101);

  • 代理机构

  • 代理人

  • 地址 518000 广东省深圳市龙岗区平湖街道禾花社区华南大道1号华南国际印刷纸品包装物流区二期2号楼A1617

  • 入库时间 2023-06-19 11:52:33

说明书

技术领域

本发明涉及到数据处理的技术领域,特别是涉及到一种关于招标信息的关键字段提取方法、装置、计算机设备和存储介质。

背景技术

招标投标是在市场经济条件下进行的大宗货物的买卖、工程建设项目有发包与承包以及服务项目的采购与提供时,所采用的一种交易方式。随着经济的发展,在市场竞争日益剧烈的情况下,对招标投标信息的分析也越显重要,对于海量的招标投标信息,往往需要通过关键字段来进行检索筛选,而目前通常是通过自定义预设关键字段,这样得到的数据不全面准确,容易出现分析错漏;或者直接通过从海量的招标投标信息中获取,处理的数据量巨大,效率过低。

发明内容

本发明的主要目的为提供一种关于招标信息的关键字段提取方法、装置、计算机设备和存储介质,旨在解决现有技术中提取招标信息中关键字段处理数据量过大的技术问题。

基于上述发明目的,本发明提出一种关于招标信息的关键字段提取方法,包括:

通过获取已公开的招标信息形成招标集,所述招标集中包括多个招标文本,每个所述招标文本均具有对应的编号;

从所述招标集中筛选出潜在包含有预设关键字段的招标文本,记为预测文本,并提取所述预测文本的编号;

依据所述编号获取所述预测文本,并依据正则表达式匹配算法对所述预测文本进行处理,以提取出相应的招标关键字段;

将所述招标关键字段存储至指定位置,以供后续检索分析使用。

进一步地,所述从所述招标集中筛选出潜在包含有关键字段的招标文本的步骤,包括:

依据所述招标文本分别计算出所述招标文本包含预设关键字段的第一概率以及所述招标文本不包含预设关键字段的第二概率;

依据所述第一概率与所述第二概率确实所述招标文本是否包含有预设关键字段,以筛选出包含预设关键字段的所述招标文本。

进一步地,所述依据所述招标文本分别计算出所述招标文本包含预设关键字段的第一概率以及所述招标文本为不包含预设关键字段的第二概率的步骤,包括:

利用以下公式计算得到所述第一概率:

P(D|S)=Π

利用以下公式计算得到所述第二概率:

其中,s表示包含预设关键字段的类别,

进一步地,所述依据所述第一概率与所述第二概率确实所述招标文本是否包含有预设关键字段的步骤,包括:

依据所述第一概率以及所述第二概率计算出P(s|D)以及

进一步地,所述依据所述招标文本分别计算出所述招标文本包含预设关键字段的第一概率以及所述招标文本不包含预设关键字段的第二概率的步骤之前,包括:

定义多个预设关键字段;

依据各所述预设关键字段分别对各所述招标文本进行标注。

本发明还提供一种关于招标信息的关键字段提取装置,包括:

获取信息单元,用于通过获取已公开的招标信息形成招标集,所述招标集中包括多个招标文本,每个所述招标文本均具有对应的编号;

筛选文本单元,用于从所述招标集中筛选出潜在包含有预设关键字段的招标文本,记为预测文本,并提取所述预测文本的编号;

提取字段单元,用于依据所述编号获取所述预测文本,并依据正则表达式匹配算法对所述预测文本进行处理,以提取出相应的招标关键字段;

存储字段单元,用于将所述招标关键字段存储至指定位置,以供后续检索分析使用。

进一步地,所述筛选文本单元包括:

计算概率子单元,用于依据所述招标文本分别计算出所述招标文本包含预设关键字段的第一概率以及所述招标文本不包含预设关键字段的第二概率;

筛选文本子单元,用于依据所述第一概率与所述第二概率确实所述招标文本是否包含有预设关键字段,以筛选出包含预设关键字段的所述招标文本。

进一步地,所述计算概率子单元包括:

利用以下公式计算得到所述第一概率:

P(D|S)=Π

利用以下公式计算得到所述第二概率:

其中,s表示包含预设关键字段的类别,

本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述关于招标信息的关键字段提取方法的步骤。

本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述关于招标信息的关键字段提取方法的步骤。

本发明的有益效果为:通过获取网络上公开的海量招标数据,并判断招标数据中的文本是否潜在包含有的预设关键字段,当检测到潜在包含有预设关键字段信息时,通过正则匹配对招标文本进行匹配提取得到相应的招标关键字段,这样不但可以方便后续根据各关键字段检索及统计分析,而且由于首先通过在海量的招标信息中筛选出潜在包含有预设关键字段的招标文本,再在筛选出的招标文本中提取相应的招标关键字段,大大地减小了提取招标关键字段的处理数据量,提高效率,节省资源。

附图说明

图1为本发明一实施例中关于招标信息的关键字段提取方法的步骤示意图;

图2为本发明一实施例中关于招标信息的关键字段提取装置的结构示意框图;

图3是本申请的存储介质的一实施例的结构示意框图;

图4是本申请的计算机设备的一实施例的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

参照图1,本实施例中的关于招标信息的关键字段提取方法,包括:

步骤S1:通过获取已公开的招标信息形成招标集,所述招标集中包括多个招标文本,每个所述招标文本均具有对应的编号;

步骤S2:从所述招标集中筛选出潜在包含有预设关键字段的招标文本,记为预测文本,并提取所述预测文本的编号;

步骤S3:依据所述编号获取所述预测文本,并依据正则表达式匹配算法对所述预测文本进行处理,以提取出相应的招标关键字段;

步骤S4:将所述招标关键字段存储至指定位置,以供后续检索分析使用。

如上述步骤S1所述,通过多种渠道获取已公开的招标数据,得到海量的招标信息,例如通过爬虫爬取或者从指定数据库采集等,将这些招标信息汇集形成招标集,招标集中包括招标文本,且每个招标文本均对应有编号或者id,例如招标文本的项目编号:GGZC2020-G3-0001-GG或项目id:GGZC2020-G3-0001-GG。

如上述步骤S2所述,从招标集多个招标文本中筛选出所需的招标文本,此处的所需招标文本也即上述预测包含有预设关键字段的招标文本,上述预设关键字段可以为招标文本中的省份、城市、项目编号、预算金额、采购代理机构、采购代理机构地址、采购代理机构地址联系方式、项目联系地址、项目联系联系方式、项目联系联系人、采购物品、采购人名称、采购人地址、采购人联系电话、招标截止时间等字段,具体可通过预设规则来预测招标文本是否具有预设关键字段,若预测具有,则将该招标文本从招标集中筛选出来,记为预测文本,同时提取该预测文本的编号,例如提取上述项目编号:GGZC2020-G3-0001-GG,以便后续依据该编号获取相应的招标文本,例如通过朴素贝叶斯模型来确定潜在包含预设关键字段的招标文本,或者通过预设相应的匹配规则,当符合该匹配规则时,则确定该招标文本包含有预设关键字段。

如上述步骤S3-S4所述,当将招标集中海量的招标文本均遍历筛选之后,得到多个潜在包含关键字段的预测文本,这时可通过编号获取来获取相应的预测文本,依据正则表达式匹配算法对预测文本进行处理,得到相应的招标关键字段,然后将招标关键字段存储至指定位置,以便后续可以根据这些招标关键字段进行检索及统计分析。上述通过正则表达式获取预测文本中招标关键字段的具体过程为现有技术,此处不再赘述。

这样通过在海量的招标信息中先筛选出潜在包含有预设关键字段的招标文本,再在筛选出的招标文本中提取相应的招标关键字段,大大地减小了提取招标关键字段的处理数据量,提高效率,节省资源。

在一个实施例中,可基于贝叶斯定理来对招标文本进行处理,具体而言,上述步骤S2包括:

步骤S21:依据所述招标文本分别计算出所述招标文本包含预设关键字段的第一概率以及所述招标文本不包含预设关键字段的第二概率;

步骤S22:依据所述第一概率与所述第二概率确实所述招标文本是否包含有预设关键字段,以筛选出包含预设关键字段的所述招标文本。

如上述步骤S21所述,为了计算出上述第一概率以及第二概率,可预设招标集的招标文本具有两个类别,分别为包含预设关键字段的类别,用s表示该类别,以及不包含预设关键字段的类别,用

P(D|S)=Π

利用以下公式计算得到所述第二概率:

其中,s表示包含预设关键字段的类别,

如上述步骤S22所述,依据第一概率与所述第二概率确认招标文本是否包含有预设关键字段,具体地,依据所述第一概率以及所述第二概率计算出P(s|D)以及

在另一实施例中,依据上述第一概率以及第二概率整理得公式:

在一个实施例中,在步骤S21之前,包括:

步骤S201:定义多个预设关键字段;

步骤S202:依据各所述预设关键字段分别对各所述招标文本进行标注。

本实施例中,定义出多个预设关键字段,例如上述提到的省份、城市、项目编号、预算金额、采购代理机构、采购代理机构地址、采购代理机构地址联系方式、项目联系地址、项目联系联系方式、项目联系联系人、采购物品、采购人名称、采购人地址、采购人联系电话、招标截止时间等等,然后依据上述每个预设关键字段对各个招标文本标注,从而确定招标文本是否有标注,具有哪些标注,以及每个招标文本中相应的标注数量以及总标注数量等,以便后续依据这些数据计算出上述第一概率以及第二概率。

参照图2,本实施例中提供一种关于招标信息的关键字段提取装置,该装置对应上述关于招标信息的关键字段提取方法,该装置包括:

获取信息单元1,用于通过获取已公开的招标信息形成招标集,所述招标集中包括多个招标文本,每个所述招标文本均具有对应的编号;

筛选文本单元2,用于从所述招标集中筛选出潜在包含有预设关键字段的招标文本,记为预测文本,并提取所述预测文本的编号;

提取字段单元3,用于依据所述编号获取所述预测文本,并依据正则表达式匹配算法对所述预测文本进行处理,以提取出相应的招标关键字段;

存储字段单元4,用于将所述招标关键字段存储至指定位置,以供后续检索分析使用。

如上述获取信息单元1所述,通过多种渠道获取已公开的招标数据,得到海量的招标信息,例如通过爬虫爬取或者从指定数据库采集等,将这些招标信息汇集形成招标集,招标集中包括招标文本,且每个招标文本均对应有编号或者id,例如招标文本的项目编号:GGZC2020-G3-0001-GG或项目id:GGZC2020-G3-0001-GG。

如上述筛选文本单元2所述,从招标集多个招标文本中筛选出所需的招标文本,此处的所需招标文本也即上述预测包含有预设关键字段的招标文本,上述预设关键字段可以为招标文本中的省份、城市、项目编号、预算金额、采购代理机构、采购代理机构地址、采购代理机构地址联系方式、项目联系地址、项目联系联系方式、项目联系联系人、采购物品、采购人名称、采购人地址、采购人联系电话、招标截止时间等字段,具体可通过预设规则来预测招标文本是否具有预设关键字段,若预测具有,则将该招标文本从招标集中筛选出来,记为预测文本,同时提取该预测文本的编号,例如提取上述项目编号:GGZC2020-G3-0001-GG,以便后续依据该编号获取相应的招标文本,例如通过朴素贝叶斯模型来确定潜在包含预设关键字段的招标文本,或者通过预设相应的匹配规则,当符合该匹配规则时,则确定该招标文本包含有预设关键字段。

如上述提取字段单元3以及存储字段单元4所述,当将招标集中海量的招标文本均遍历筛选之后,得到多个潜在包含关键字段的预测文本,这时可通过编号获取来获取相应的预测文本,依据正则表达式匹配算法对预测文本进行处理,得到相应的招标关键字段,然后将招标关键字段存储至指定位置,以便后续可以根据这些招标关键字段进行检索及统计分析。上述通过正则表达式获取预测文本中招标关键字段的具体过程为现有技术,此处不再赘述。

这样通过在海量的招标信息中先筛选出潜在包含有预设关键字段的招标文本,再在筛选出的招标文本中提取相应的招标关键字段,大大地减小了提取招标关键字段的处理数据量,提高效率,节省资源。

在一个实施例中,可基于贝叶斯定理来对招标文本进行处理,具体而言,上述筛选文本单元2包括:

计算概率子单元,用于依据所述招标文本分别计算出所述招标文本包含预设关键字段的第一概率以及所述招标文本不包含预设关键字段的第二概率;

筛选文本子单元,用于依据所述第一概率与所述第二概率确实所述招标文本是否包含有预设关键字段,以筛选出包含预设关键字段的所述招标文本。

如上述计算概率子单元所述,为了计算出上述第一概率以及第二概率,可预设招标集的招标文本具有两个类别,分别为包含预设关键字段的类别,用s表示该类别,以及不包含预设关键字段的类别,用

P(D|S)=Π

利用以下公式计算得到所述第二概率:

其中,s表示包含预设关键字段的类别,

如上述筛选文本子单元所述,依据第一概率与所述第二概率确认招标文本是否包含有预设关键字段,具体地,依据所述第一概率以及所述第二概率计算出P(s|D)以及

在另一实施例中,依据上述第一概率以及第二概率整理得公式:

在一个实施例中,上述关于招标信息的关键字段提取装置,还包括:

定义字段单元,用于定义多个预设关键字段;

标注文本单元,用于依据各所述预设关键字段分别对各所述招标文本进行标注。

本实施例中,定义出多个预设关键字段,例如上述提到的省份、城市、项目编号、预算金额、采购代理机构、采购代理机构地址、采购代理机构地址联系方式、项目联系地址、项目联系联系方式、项目联系联系人、采购物品、采购人名称、采购人地址、采购人联系电话、招标截止时间等等,然后依据上述每个预设关键字段对各个招标文本标注,从而确定招标文本是否有标注,具有哪些标注,以及每个招标文本中相应的标注数量以及总标注数量等,以便后续依据这些数据计算出上述第一概率以及第二概率。

参考图3,本申请还提供了一种计算机可读的存储介质10,存储介质10中存储有计算机程序20,当其在计算机上运行时,使得计算机执行以上实施例所描述的关于招标信息的关键字段提取方法。

参考图4,本申请还提供了一种包含指令的计算机设备40,计算机设备包括存储器30和处理器50,存储器30存储有计算机程序20,处理器30执行计算机程序20时实现以上实施例所描述的关于招标信息的关键字段提取方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号