首页> 中国专利> 异常投标识别模型训练方法、异常投标识别方法及装置

异常投标识别模型训练方法、异常投标识别方法及装置

摘要

本公开提供了一种异常投标识别模型训练方法、异常投标识别方法及装置,可用于人工智能领域或者金融领域,该训练异常投标识别模型的方法包括:从历史投标数据中提取投标主体关联信息集合;对投标主体关联信息集合进行扩展,得到候选异常投标特征集合;基于候选异常投标特征集合中候选异常投标特征与异常投标之间的相关性,从候选异常投标特征中确定异常投标特征;以及基于异常投标特征对异常投标识别模型进行训练。

著录项

  • 公开/公告号CN112990281A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 中国工商银行股份有限公司;

    申请/专利号CN202110224949.X

  • 发明设计人 王茹楠;邬文佳;查礼;瞿伟;

    申请日2021-03-01

  • 分类号G06K9/62(20060101);G06Q30/08(20120101);

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人李春伟

  • 地址 100140 北京市西城区复兴门内大街55号

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本公开涉及人工智能技术领域、金融领域,更具体地,涉及一种异常投标识别模型训练方法、异常投标识别方法及装置。

背景技术

相关技术中,招投标是一种择优成交的方式。招标人需要对投标人进行资格审查,以避免投标人之间采用不正当手段,对招标投标事项进行串通,通过限制竞争,排挤其他投标人,使某个利益相关者中标,从而谋取利益,扰乱市场秩序。

在实现本公开构思的过程中,申请人发现相关技术中至少存在如下问题,需要进行招投标的场景多种多样,投标主体的特点多种多样,难以基于预设规则准确地对异常投标进行识别。

发明内容

有鉴于此,本公开提供了一种异常投标识别模型训练方法、异常投标识别方法及装置,以至少部分解决难以基于预设规则对异常投标进行识别,以提高异常投标识别的准确率。

本公开的一个方面提供了训练异常投标识别模型的方法,包括:从历史投标数据中提取投标主体关联信息集合;对投标主体关联信息集合进行扩展,得到候选异常投标特征集合;基于候选异常投标特征集合中候选异常投标特征与异常投标之间的相关性,从候选异常投标特征中确定异常投标特征;以及基于异常投标特征对异常投标识别模型进行训练。

本公开的一个方面提供了一种异常投标识别方法,包括:获取输入投标数据;以及利用如上的方法训练的异常投标识别模型处理输入投标数据,得到针对输入投标数据的识别结果。

本公开的一个方面提供了一种异常投标识别装置,包括:投标数据获取模块和异常投标识别模块。其中,投标数据获取模块用于获取输入投标数据;以及异常投标识别模块用于利用如上的方法训练的异常投标识别模型处理输入投标数据,得到针对输入投标数据的识别结果。

本公开的另一方面提供了一种电子设备,包括一个或多个处理器以及存储装置,其中,存储装置用于存储可执行指令,可执行指令在被处理器执行时,实现如上的方法。

本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,指令在被执行时用于实现如上的训练异常投标识别模型训练的方法和/或异常投标识别方法。

本公开的另一方面提供了一种计算机程序,计算机程序包括计算机可执行指令,指令在被执行时用于实现如上的训练异常投标识别模型训练的方法和/或异常投标识别方法。

本公开实施例提供的异常投标识别模型训练方法、异常投标识别方法及装置,以投标主体关联信息为基础,对历史投标数据中的投标主体关联信息进行扩展,得到候选异常投标特征,然后基于各候选异常投标特征与异常投标之间的相关性,来自动筛选出能表征当前投标数据是否存在异常投标的异常投标特征,相比于基于专家经验构建的异常投标特征而言维度更多也更加全面,有助于提升异常投标识别模型的预测精度。

本公开实施例提供的异常投标识别模型训练方法、异常投标识别方法及装置,实现了对异常投标的智能化检测,提升对于异常投标的检测效率。有助于快速、有效识别在招标投标过程中的异常投标行为,以便及时进行风险提示,保证招标过程的顺利进行。

附图说明

通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:

图1示意性示出了根据本公开实施例的异常投标识别模型训练方法、异常投标识别方法及装置的应用场景;

图2示意性示出了根据本公开实施例的可以应用异常投标识别方法、异常投标识别装置的示例性系统架构;

图3示意性示出了根据本公开实施例的训练异常投标识别模型的方法的流程图;

图4示意性示出了根据本公开实施例的对投标主体关联信息集合进行扩展的示意图;

图5示意性示出了根据本公开实施例的异常投标特征向量的示意图;

图6示意性示出了根据本公开实施例的数据流图;

图7示意性示出了根据本公开实施例的训练异常投标识别模型的方法的逻辑图;

图8示意性示出了根据本公开实施例的异常投标识别方法的流程图;

图9示意性示出了根据本公开实施例的异常投标识别装置的方框图;

图10示意性示出了根据本公开实施例的异常投标识别系统的方框图;以及

图11示意性示出了根据本公开实施例的电子设备的方框图。

具体实施方式

以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

为了便于理解本公开实施例的技术方案,首先对招标和投标过程进行示例性说明。

招投标是一种国际惯例,是应用技术、经济的方法和市场经济的竞争机制的作用,有组织开展的一种择优成交的方式。招标人在组织投标人的资格审查时,可以采用的流程是发布资格预审公告或招标文件,明确对投标人的资格要求,投标人根据要求准备相应的资质材料,如营业执照、资格证书等,招标人再对投标人提交的资料进行符合性审查。目前,招标人在组织投标人的资格审查时还存在一些问题。例如,投标人之间采用不正当手段,对招标投标事项进行串通,通过限制竞争,排挤其他投标人,使某个利益相关者中标,从而谋取利益,扰乱市场秩序,这种行为被称为围标串标行为。

在当前的招投标领域,尤其是政府采购招标领域,存在大量的围标串标的违法违规行为,这些围标串标行为破坏了公开公平公正的招投标文件,导致国有资产流失严重。

但是,招标过程中应标的企业较多,目前通过人为阅读和比较,效率低下且准确率不高,难以准确地对围标串标行为进行识别。

相关技术中招投标系统不能对招投标过程中的围标串标行为进行高效、准确的识别,因此,亟需一种可以对围标串标行为进行高效、准确识别的方法。目前,借助机器学习来构建异常投标识别模型,以分析供应商围标串标的技术领域完全空白。

本公开实施例提供的异常投标识别模型训练方法、异常投标识别方法及装置,该训练方法包括异常投标特征确定过程和模型训练过程。在异常投标特征确定过程中,首先,从历史投标数据中提取投标主体关联信息集合,然后,对投标主体关联信息集合进行扩展,得到候选异常投标特征集合,接着,基于候选异常投标特征集合中候选异常投标特征与异常投标之间的相关性,从候选异常投标特征中确定异常投标特征。在完成异常投标特征确定过程之后进入模型训练过程,基于异常投标特征对异常投标识别模型进行训练。

本公开实施例基于历史招标数据、历史投标数据、工商信息数据等的人工智能机器学习算法输出的结果对发现与预警供应商围标串标行为有着显著地帮助。

图1示意性示出了根据本公开实施例的异常投标识别模型训练方法、异常投标识别方法及装置的应用场景。

如图1所示,招标人可以发出标书,标书中可以包括但不限于以下至少一种:招标邀请函、投标人须知、招标项目的技术要求及附件、投标书格式、投标保证文件、合同条件、技术标准和规范、投标企业资格文件和合同格式等。标书可以有效规范投标文件的格式和内容等,以便招标人对投标人进行审核等。针对一个标书,可以由一个或多个投标人进行投标,如分别提供各自的投标文件,如图1中投标文件1、……、投标文件n等,n是大于1的正整数。

投标文件是由投标方针对标书制作的文件,以向招标人展示提供的产品、服务、报价、资质等信息。例如,投标文件包括但不限于以下至少一种:投标总报价表、投标明细报价表、投标企业简介、企业资质证明文件、投标人资质表、项目配备人员基本情况表、项目配备人员资质表和人员资质证明文件等。本申请从这些投标数据中提取投标主体关联信息,并基于工商信息等对其进行扩展,以便从扩展信息中确定异常投标特征,提升异常投标特征与异常投标结果之间的相关性。

图2示意性示出了根据本公开实施例的可以应用异常投标识别方法、异常投标识别装置的示例性系统架构。需要注意的是,图2所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。需要说明的是,本公开实施例提供的异常投标识别模型训练方法、异常投标识别方法及装置可用于人工智能领域在异常投标识别相关方面,也可用于除人工智能领域之外的多种领域,如异常投标识别领域,本公开实施例提供的异常投标识别模型训练方法、异常投标识别方法及装置的应用领域不做限定。

如图2所示,根据该实施例的系统架构200可以包括终端设备201、202、203,网络204和服务器205。网络204可以包括多个网关、路由器、集线器、网线等,用以在终端设备201、202、203和服务器205之间提供通信链路的介质。网络204可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备201、202、203通过网络204与其他终端设备和服务器205进行交互,以接收或发送信息等,如发送模型训练指令、历史投标数据标识、投标数据等。终端设备201、202、203可以安装有各种通讯客户端应用,例如,网页浏览器应用、银行类应用、电商类应用、搜索类应用、办公类应用、即时通信工具、邮箱客户端、社交平台软件等应用(仅为示例)。

终端设备201、202、203包括但不限于智能手机、台式电脑、增强现实设备、平板电脑、膝上型便携计算机等等可以支持上网、网页交互等功能的电子设备。终端设备上可以下载有异常投标识别模型,以便进行离线识别。

服务器205可以接收模型训练请求、异常投标识别请求、模型下载请求等,并对请求进行处理。例如,服务器205可以为后台管理服务器、服务器集群等。后台管理服务器可以对接收到的服务请求、信息请求等进行分析处理,并将处理结果(如模型训练结果、异常投标识别结果、工商信息、训练模型得到的模型参数等)反馈给终端设备。

需要说明的是,本公开实施例所提供的训练异常投标识别模型的方法可以由服务器205执行,异常投标识别方法可以由终端设备201、202、203或服务器205执行。相应地,本公开实施例所提供的异常投标识别装置可以设置于终端设备201、202、203或服务器205中。应该理解,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

图3示意性示出了根据本公开实施例的训练异常投标识别模型的方法的流程图。

如图3所示,该训练异常投标识别模型的方法可以包括操作S302~操作S308。

在操作S302中,从历史投标数据中提取投标主体关联信息集合。

在本实施例中,历史投标数据可以是从业务系统中获取的数据,也可以是从专用训练数据集中获取的历史投标数据。投标主体关联信息包括但不限于:投标企业名称、投标企业地址、投标企业负责人姓名、投标企业股东姓名、投标企业联系方式等。

在一个实施例中,从历史投标数据中提取投标主体关联信息集合可以包括如下操作:通过批量调度程序调用脚本或者查询语句从具有历史投标数据的数据集合中获取历史投标数据,并且给历史投标数据分配索引信息,以便基于索引信息确定历史投标数据。

例如,获取全量历史招投标、工商信息等数据。企业关联信息包括:企业名称、企业曾用名、企业地址、法人代表、注册地址行政编号、企业联系电话等、企业实际控制人信息、企业对外投资信息、企业高管信息、企业股东信息等。

在操作S304中,对投标主体关联信息集合进行扩展,得到候选异常投标特征集合。

在本实施例中,由于历史投标数据中包括的投标主体关联信息并不全面,仅基于历史投标数据确定的异常投标特征并不完善,可能无法较好地表征当前投标数据是否为异常投标数据。通过对投标主体关联信息进行扩展,如对投标主体关联信息进行分割、合并或扩充等操作,有效提升了可选异常投标特征的维度,有助于提升构造的异常投标特征的适用性。

在一个实施例中,对投标主体关联信息集合进行扩展,得到候选异常投标特征集合可以包括如下操作。首先,从包括投标主体注册信息的数据集合中获取与投标主体相匹配的扩展信息。然后,对投标主体关联信息和与投标主体关联信息相匹配的扩展信息执行:拆分、组合和关联中至少一种,得到候选异常投标特征集合。

例如,关于特征组合:如组合日期、时间两个特征,构建是否为上班时间(工作日的工作时间为1,其他为0)特征,特征组合的目的通常是为了获得更具有表达力、信息量的新特征。

关于特征拆分:如将业务上复杂的特征拆分开,比如将登陆特征,拆分为多个维度的登陆次数统计特征,进行特征拆分的好处包括:一方面,从多个维度表达信息,另一方面,多个拆分的特征可以进行更多的组合。

关于外部关联特征:例如通过时间信息关联到天气信息,这种做法是很有意义的。首先天气数据不是原始数据集的,因此这样想当于丰富了原始数据,通常来讲会得到一个比仅仅使用原始数据更好的结果,不仅仅是天气,很多信息都可以这样关联(比如在一个Kaggle上的房屋预测问题上,可以通过年份关联到当时的一些地方政策、国际大事等等,都是有影响的,比如金融危机)。在本实施例中,主要是通过工商注册信息对投标主体关联信息进行扩展。具体地,可以通过调用工商信息平台提供的接口来获取与投标主体关联信息相匹配的扩展信息。

图4示意性示出了根据本公开实施例的对投标主体关联信息集合进行扩展的示意图。

如图4所示,可以基于工商注册信息集合的信息对投标主体关联信息集合进行扩展。扩展后的投标主体关联信息集合中不但包括投标主体关联信息集合的信息和工商注册信息集合的信息,还可以包括拆分和组合后得到的信息。例如,企业地址和企业注册地址中都包括地址,拆分后,可以将地址(关联地址)作为一个候选的异常投标特征。又例如,企业曾用名可以和拆分得到的高管信息进行组合,得到企业曾用名高管信息(便于收集曾用名企业的高管信息)。这样有效提升了异常投标特征的适用范围。

在操作S306中,基于候选异常投标特征集合中候选异常投标特征与异常投标之间的相关性,从候选异常投标特征中确定异常投标特征。

数据挖掘和机器学习是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取其中隐含的且人们事先不知道的但又潜在有用的信息和知识的过程。其中,数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识是可接受、可理解、可运用的;并不要求发现的知识是普适的,仅支持特定的发现问题。

由于投标文件多种多样、参与投标的企业多种多样,很难在无指导下仅通过机器学习来确定异常投标特征。而基于专家经验构建的异常投标特征能覆盖的场景有限,导致适用广度无法满足需求。本公开实施例中通过计算特征与目标的相关性,从扩展后的投标主体关联信息集合中确定异常投标特征,有效提升了异常投标特征的适用范围和准确度。

在一个实施例中,基于候选异常投标特征集合中候选异常投标特征与异常投标之间的相关性,从候选异常投标特征中确定异常投标特征可以包括如下操作。

首先,基于候选异常投标特征与异常投标之间的协方差和标准差的商确定候选异常投标特征与异常投标之间的相关性,和/或,基于候选异常投标特征的信息熵增益确定候选异常投标特征与异常投标之间的相关性。然后,将满足相关性要求的候选异常投标特征作为异常投标特征。其中,相关性要求包括但不限于相关性大于或等于预设相关性阈值。

例如,特征与目标之间的相关性:可以通过皮尔逊积矩相关系数(Pearsonproduct-moment correlation coefficient,简称PPMCC)、信息熵增益等来判断,思路是如果一个特征与目标的变化是高度一致的,那么它对于预测目标就是具有很大指导意义的。

皮尔逊积矩相关系数是用于度量两个变量X和Y之间的相关,值介于-1和1之间,定义为两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商。

需要说明的是,在确定异常投标特征的过程中,需要考虑特征自身的取值分布。例如可以通过方差过滤法,比如性别特征,1000个数据,其中999个数据是针对男性,其中1个数据是针对女性,这种特征由于自身过于偏斜,因此是无法对结果起到足够的帮助。

在一个实施例中,异常投标特征包括以下至少一种:投标主体具有重复电话、投标主体的电话数量、投标主体具有重复邮箱、投标主体具有重复传真、投标主体的注册地址相似度满足注册地址相似度条件、投标主体的地址相似度满足地址相似度条件、投标主体的地址个数、投标主体的法人重复、投标主体的曾用名、投标主体的重复股东满足重复股东条件、投标主体的重复高管满足重复高管条件、投标主体的重复控制人满足重复控制人条件。其中,注册地址相似度条件可以是大于一个预设的相似度阈值等。

在操作S308中,基于异常投标特征对异常投标识别模型进行训练。

在本实施例中,训练异常投标识别模型的过程可以采用有监督的训练方式。在数据挖掘和机器学习中可以使用有监督式学习(Supervised learning)。可以从训练数据中学到或建立一个模型(函数/learning model),并依此该模型推测新的实例(instance)。训练数据是由输入物件(如向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。监督式学习者的任务是在观察完一些训练范例(输入和预期输出)后,去预测这个函数针对任何可能出现的输入的输出值。

在一个实施例中,历史投标数据包括标签信息,标签信息标识当前投标数据的异常投标识别结果信息。

相应地,上述方法还包括:将标签信息作为训练异常投标识别模型的监督信息。

作为一种有监督的挖掘模型,数据分类通过数据挖掘的训练集中样本的分类观察标记,寻找和扩展各个数据标记的分布规律,然后将这种规律泛化到后续的大规模数据集当中。本公开实施例提供的异常投标识别模型可以应用于风险用户识别等。

在一个实施例中,基于异常投标特征对异常投标识别模型进行训练可以包括如下操作:将与异常投标特征对应的特征向量输入异常投标识别模型,通过调整异常投标识别模型的模型参数使得异常投标识别模型输出的识别结果,趋近于标签信息。

此外,为了便于机器识别异常投标特征,可以对异常投标特征进行向量化处理。

图5示意性示出了根据本公开实施例的异常投标特征向量的示意图。

如图5所示,异常投标特征对应于自变量,其作为异常投标识别模型的输入变量。类别标签对应于应变量,其对应于异常投标识别模型的输出变量。向量化是对特征提取结果的再加工,目的是增强特征的表示能力,防止模型过于复杂和学习困难,比如对连续的特征值进行离散化,标签(label)值映射成枚举值,用数字或字符进行标识。这一阶段将产生一个很重要的文件:label和枚举值对应关系,在预测阶段的同样会用到。标签可以是由人工添加的,也有是系统自动标注的。如给历史投标数据中的异常投标数据自动添加表征异常类别的标签。

例如,针对供应商围标串标,特征组合的结果数据有:重复电话的公司(有则可以用1表示,无则可以用0表示);公司电话数量;重复邮箱的公司(有则可以用1表示,无则可以用0表示);重复传真的公司(有则可以用1表示,无则可以用0表示);注册地址相似度80%的公司(达到80%则可以用1表示,未达到80%则可以用0表示);公司地址相似度80%的公司(达到80%则可以用1表示,未达到80%则可以用0表示);公司地址个数;法人重复的公司;公司曾用名;股东重复的公司;重复高管的公司;重复控制人的公司;两个参与投标企业的报价高度一致(如差距2%及以内则用1表示,否则用0表示)。

在完成模型训练后,可以对经训练的模型进行测试,以确定模型处理结果的准确率。

在一个实施例中,可以基于模型处理结果的准确率来从多个模型中选取合适的异常投标识别模型。

例如,基于异常投标特征对异常投标识别模型进行训练可以包括如下操作,首先,通过调用应用接口的方式调用具有不同模型结构的至少两个模型分别进行模型训练,然后,从具有不同模型结构的至少两个模型中选取测试准确度最高的模型作为异常投标识别模型。

图6示意性示出了根据本公开实施例的数据流图。

如图6所示,首先,通过如操作S306所示的方式确定异常投标特征。由于供应商围标串标模型有类标,属于监督学习。目标变量是离散型(是否围标串标),属于分类模型。选择分类模型算法。包含:K-近邻算法;朴素贝叶斯算法;支持向量机;决策树四大类算法。训练集构造训练模型,测试集选择最优模型。如对比结果准确率,最终选择基于XGboost算法来预测供应商是否围标串标。

其中,供应商围标串标模型获取到的数据集以8:2比例拆分为训练集、测试集。例如,将数据分割成2部分。(1)训练集、(2)测试集。第一部分是较大的数据子集,用作训练集(如占原始数据的80%),第二部分通常是较小的子集,用作测试集(其余20%的数据)。训练集用于训练异常投标识别模型,然后将测试集输入经训练的模型(即作为新的、未见过的数据)上进行预测。根据模型在测试集上的表现来选择最佳模型,为了获得最佳模型,还可以进行超参数优化(神经网络的层数等)。

在测试阶段,可以根据回归模型关心的问题选择评价指标,评价指标如表1所示。

表1评价指标

在测试过程中,可以判断模型的“过拟合”和“欠拟合”。若是存在数据过度拟合的现象,则表明在模型训练过程中把噪声也当作了数据的一般特征,可以通过增大训练集的比例或是正则化的方法来解决过拟合的问题。若是存在数据拟合不到位的情况,则表明数据训练不到位,未能提取出数据的一般特征,要通过增加多项式维度、减少正则化参数等方法来解决欠拟合问题。此外,进行测试时还应考虑时间、空间复杂度,稳定性、迁移性等。

完成测试后,如果想进一步改善训练,可以重复训练和测试过程。

在一个实施例中,在从历史投标数据中提取投标主体关联信息集合之前,上述方法还可以包括如下操作:对历史投标数据进行缺失处理和/或异常处理,其中,进行异常处理的异常投标数据是基于统计结果确定的异常数据,或者,基于针对异常投标数据的上下文的分析来确定的。

例如,可以对数据进行各种检查,去掉缺失值、拆分数据、数值正常化/标准化。

关于缺失处理:可能是由于程序缺陷(bug)导致缺失。这种缺失通常是少数的,可以进行填充。

关于正常业务情况导致缺失:比如性别字段本身就是可以不填的,性别就存在缺失,且这种缺失可能是大量的,这里就要首先评估该字段的重要性以及缺失率,再考虑是填充,还是丢弃。

关于异常处理。其中,绝对异常:比如人的年龄200岁,这个数据放到什么场景下都是异常。统计异常:如某个用户一分钟内登陆了100次,虽然每一次登陆看着都是正常的,但是统计起来发现是异常的(可能是脚本在自动操作)。上下文异常:如冬天的北京,晚上温度为30摄氏度,虽然看数据是正常,但是跟当前的日期、时间关联,发现是异常。

图7示意性示出了根据本公开实施例的训练异常投标识别模型的方法的逻辑图。

如图7所示,在完成历史投标数据收集后,确定异常投标特征。其中,历史投标数据收集非常重要,收集到的数据的质量和数量直接决定预测模型是否能够建好。可以将收集的数据去重复、标准化、错误修正等等,保存成数据库文件或者csv格式文件,为下一步数据的加载做准备。数据集本质上是一个M×N矩阵,其中M代表列(特征),N代表行(样本),参考图5所示。列可以分解为X和Y,首先,X表征特征、自变量和输入变量。Y表征类别标签、因变量和输出变量。其中,M和N是大于1的正整数。

在数据预处理过程中,对数据进行各种检查,去掉缺失值、拆分数据、数值正常化/标准化。

在拆分数据集的过程中,可以按照预设比例,如8:2或7:3进行拆分,得到训练集和测试集。

在训练完成后输出模型文件(Model文件)。模型训练完之后,可以整理出四类文件,确保模型能够正确运行,如Model文件、标签(Lable)编码文件、元数据文件(算法,参数和结果)、变量文件(自变量名称列表、因变量名称列表)。

本公开实施例的训练异常投标识别模型的方法,可以有效提升模型训练效果,提升经训练的模型的预测准确度。

本公开的另一个方面提供了一种异常投标识别方法。

图8示意性示出了根据本公开实施例的异常投标识别方法的流程图。

如图8所示,该异常投标识别方法包括操作S802~操作S804。

在操作S802,获取输入投标数据。输入投标数据是当前待预测的投标数据,其属性可以参考历史投标数据,在此不再详述。

在操作S804,利用如上的方法训练的异常投标识别模型处理输入投标数据,得到针对输入投标数据的识别结果。

异常投标识别模型在进行识别过程中使用的异常投标特征和进行模型训练过程中使用的异常投标特征相同,在此不再详述。

本公开的另一个方面提供了一种异常投标识别装置。

图9示意性示出了根据本公开实施例的异常投标识别装置的方框图。

如图9所示,该装置900包括:投标数据获取模块910和异常投标识别模块920。

投标数据获取模块910用于获取输入投标数据。

异常投标识别模块920用于利用如上的方法训练的异常投标识别模型处理输入投标数据,得到针对输入投标数据的识别结果。

本公开的另一个方面提供了一种异常投标识别系统。

图10示意性示出了根据本公开实施例的异常投标识别系统的方框图。

如图10所示,该异常投标识别系统可以包括模型训练系统和业务系统。其中,模型训练系统包括数据湖、数据加工节点以及机器学习平台。

其中,数据湖是各类数据的集合,用户可以对数据湖中的数据进行加工。数据湖可以是一个分布式的数据库(如Hadoop),使用该分布式数据库有利于提高数据的吞吐量,也提高了数据的可靠性。

数据加工节点提供了处理数据的软件工具和硬件设备。数据加工节点对数据的处理方式包括Hive sql脚本、星火(spark)程序,将数据湖中的数据使用批量调度程序,调用shell脚本或者hive sql或者spark将数据湖中的数据进行数据加工,并将加工好的数据存储在数据湖的自建目录中,传输到机器学习平台进行批量模型的训练。

机器学习平台负责对数据进行预处理、特征提取和模型训练等,提供了数据到模型到调用的全部流程软件和硬件设备。

业务系统可以产生待预测数据,并通过机器学习平台应用接口(API)实时调用预测模型,对待预测数据进行预测。此外,也可以通过批量调度的方式进行批量预测。业务数据库可以存储机器学习平台传输的预测数据,并且业务系统可以调用业务数据库中的预测数据。可以通过网络接口、web服务和网络传输设备等方式,将预测数据展现在用户终端或应用(APP)中。此外,业务数据库还可以将带有标记的新增数据传输到模型训练系统的数据湖中,供预测模型更新迭代使用。

需要说明的是,装置部分实施例中各模块/单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再一一赘述。

根据本公开的实施例的模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

例如,投标数据获取模块910和异常投标识别模块920中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,投标数据获取模块910和异常投标识别模块920中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,投标数据获取模块910和异常投标识别模块920中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

图11示意性示出了根据本公开实施例的电子设备的方框图。图11示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示,根据本公开实施例的电子设备1100包括处理器1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。处理器1101例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1103中,存储有电子设备1100操作所需的各种程序和数据。处理器1101、ROM 1102以及RAM 1103通过总线1104彼此通讯连接。处理器1101通过执行ROM 1102和/或RAM 1103中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,程序也可以存储在除ROM 1102和RAM 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例,电子设备1100还可以包括输入/输出(I/O)接口1105,输入/输出(I/O)接口1105也连接至总线1104。电子设备1100还可以包括连接至I/O接口1105的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。

根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1102和/或RAM 1103和/或ROM 1102和RAM1103以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行本公开实施例所提供的方法的程序代码,当计算机程序产品在电子设备上运行时,该程序代码用于使电子设备实现本公开实施例所提供的图像模型训练方法或异常投标识别方法。

在该计算机程序被处理器1101执行时,执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1109被下载和安装,和/或从可拆卸介质1111被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。

根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号