首页> 中国专利> 市场主体与政策的匹配方法、装置、计算设备及介质

市场主体与政策的匹配方法、装置、计算设备及介质

摘要

本申请提供一种市场主体与政策的匹配方法、装置、计算设备及介质。本申请通过基于待匹配政策的政策关键词对第一预设模板进行填充得到政策描述文本,基于待匹配主体的市场主体信息对第二预设模板进行填充得到主体信息文本,以便可以直接获取到待匹配政策对应的政策描述文本以及待匹配主体对应的主体信息文本,从而对政策描述文本和主体信息文本进行拼接,得到待处理文本,进而基于待处理文本,确定待匹配政策和待匹配主体的匹配程度,以实现市场主体与政策的智能匹配,从而可以帮助相关人员高效、快速地实现政策的查找。

著录项

  • 公开/公告号CN114969253A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 阿里云计算有限公司;

    申请/专利号CN202210552016.8

  • 发明设计人 韩宇;张跃伟;王浩;

    申请日2022-05-18

  • 分类号G06F16/33(2019.01);G06F16/35(2019.01);G06F40/216(2020.01);G06F40/30(2020.01);G06N3/04(2006.01);G06N3/08(2006.01);G06Q50/26(2012.01);

  • 代理机构北京博思佳知识产权代理有限公司 11415;

  • 代理人董晓盈

  • 地址 310024 浙江省杭州市西湖区转塘科技经济区块12号

  • 入库时间 2023-06-19 16:36:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2022105520168 申请日:20220518

    实质审查的生效

说明书

技术领域

本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种市场主体与政策的匹配方法、装置、计算设备及介质。

背景技术

近年来,为了优先扶持某些产业的发展,我国出台了相应的产业扶持政策,促使部分产业优先发展、快速发展,以期带动其他产业的共同发展,从而带动整个地区的经济发展。

相关技术中,政策文件数量巨大,且政策文本复杂,从而导致相关人员查找政策的效率十分低下。因此,亟需一种市场主体与政策的匹配方法,来实现市场主体与政策的智能匹配,以帮助相关人员高效、快速地实现政策的查找。

发明内容

有鉴于此,本说明书一个或多个实施例提供一种市场主体与政策的匹配方法、装置、计算设备及介质。

为实现上述目的,本说明书一个或多个实施例提供技术方案如下:

根据本说明书一个或多个实施例的第一方面,提出了一种市场主体与政策的匹配方法,该方法包括:

获取待匹配政策对应的政策描述文本以及待匹配主体对应的主体信息文本,政策描述文本基于政策关键词对第一预设模板进行填充得到,政策关键词基于待匹配政策进行关键词提取得到,主体信息文本基于待匹配主体的市场主体信息对第二预设模板进行填充得到;

对政策描述文本和主体信息文本进行拼接,得到待处理文本;

基于待处理文本,确定待匹配政策和待匹配主体的匹配程度。

在本说明书的一个实施例中,基于待处理文本,确定待匹配政策和待匹配主体的匹配程度,包括:

将矩阵形式的待处理文本输入第一转换模块,通过第一转换模块,基于矩阵形式的待处理文本,获取待处理文本对应的查询向量;

将查询向量输入第二转换模块,通过第二转换模块,基于查询向量,获取键值向量;

将键值向量输入第三转换模块,通过第三转换模块,基于键值向量,获取目标向量;

将目标向量输入分类器,通过分类器,基于目标向量,确定待处理文本的评分,评分用于指示待匹配政策和待匹配主体的匹配程度。

在本说明书的一个实施例中,对政策描述文本和主体信息文本进行拼接,得到待处理文本之后,该方法还包括:

从待处理文本中,删除预设类型的文本,得到清洗后的待处理文本。

在本说明书的一个实施例中,政策描述文本的获取过程包括:

通过关键词提取模型,基于待匹配政策的政策原文,获取待匹配政策的政策关键词,政策关键词至少包括待匹配政策所属的行业和/或产业;

将政策关键词填充至第一预设模板中的对应位置处,得到政策描述文本。

在本说明书的一个实施例中,待匹配主体的不同类型的市场主体信息存储在不同的字段处;主体信息文本的获取过程包括:

从对应字段处,获取待匹配主体的不同类型的市场主体信息;

将获取到的不同类型的市场主体信息填充至第二预设模块中的对应位置处,得到主体信息文本。

在本说明书的一个实施例中,该方法还包括:

在获取到待匹配主体的市场主体信息的情况下,从市场主体信息中,删除预设类型的文本,得到清洗后的市场主体信息。

在本说明书的一个实施例中,该方法还包括:

在获取到政策描述文本的情况下,基于政策描述文本所包括的政策关键词所对应的等级,从对应等级的政策关键词中删除预设文本,得到清洗后的政策描述文本;

在获取到主体信息文本的情况下,从主体信息文本中,删除预设类型的文本,得到清洗后的主体信息文本。

在本说明书的一个实施例中,该方法还包括下述至少一项:

响应于接收到政策发布指令,获取待匹配政策对应的政策描述文本以及多个待匹配主体对应的主体信息文本;

响应于接收到主体注册指令,获取待匹配主体对应的主体信息文本以及多个待匹配政策对应的政策描述文本。

根据本说明书一个或多个实施例的第二方面,提出了一种主体与政策的匹配装置,该装置包括:

获取单元,用于获取待匹配政策对应的政策描述文本以及待匹配主体对应的主体信息文本,政策描述文本基于政策关键词对第一预设模板进行填充得到,政策关键词基于待匹配政策进行关键词提取得到,主体信息文本基于待匹配主体的市场主体信息对第二预设模板进行填充得到;

拼接单元,用于对政策描述文本和主体信息文本进行拼接,得到待处理文本;

确定单元,用于基于待处理文本,确定待匹配政策和待匹配主体的匹配程度。

在本说明书的一个实施例中,确定单元,在用于基于待处理文本,确定待匹配政策和待匹配主体的匹配程度时,用于:

将矩阵形式的待处理文本输入第一转换模块,通过第一转换模块,基于矩阵形式的待处理文本,获取待处理文本对应的查询向量;

将查询向量输入第二转换模块,通过第二转换模块,基于查询向量,获取键值向量;

将键值向量输入第三转换模块,通过第三转换模块,基于键值向量,获取目标向量;

将目标向量输入分类器,通过分类器,基于目标向量,确定待处理文本的评分,评分用于指示待匹配政策和待匹配主体的匹配程度。

在本说明书的一个实施例中,对政策描述文本和主体信息文本进行拼接,得到待处理文本之后,该装置还包括:

第一清洗单元,用于从待处理文本中,删除预设类型的文本,得到清洗后的待处理文本。

在本说明书的一个实施例中,政策描述文本的获取过程包括:

通过关键词提取模型,基于待匹配政策的政策原文,获取待匹配政策的政策关键词,政策关键词至少包括待匹配政策所属的行业和/或产业;

将政策关键词填充至第一预设模板中的对应位置处,得到政策描述文本。

在本说明书的一个实施例中,待匹配主体的不同类型的市场主体信息存储在不同的字段处;主体信息文本的获取过程包括:

从对应字段处,获取待匹配主体的不同类型的市场主体信息;

将获取到的不同类型的市场主体信息填充至第二预设模块中的对应位置处,得到主体信息文本。

在本说明书的一个实施例中,该装置还包括:

第二清洗单元,用于在获取到待匹配主体的市场主体信息的情况下,从市场主体信息中,删除预设类型的文本,得到清洗后的市场主体信息。

在本说明书的一个实施例中,该装置还包括:

第三清洗单元,用于在获取到政策描述文本的情况下,基于政策描述文本所包括的政策关键词所对应的等级,从对应等级的政策关键词中删除预设文本,得到清洗后的政策描述文本;

第三清洗单元,还用于在获取到主体信息文本的情况下,从主体信息文本中,删除预设类型的文本,得到清洗后的主体信息文本。

在本说明书的一个实施例中,获取单元用于下述至少一项:

响应于接收到政策发布指令,获取待匹配政策对应的政策描述文本以及多个待匹配主体对应的主体信息文本;

响应于接收到主体注册指令,获取待匹配主体对应的主体信息文本以及多个待匹配政策对应的政策描述文本。

根据本说明书一个或多个实施例的第三方面,提出了一种计算设备,该计算设备包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,处理器通过运行可执行指令以实现上述第一方面以及第一方面中任一实施例所提供的市场主体与政策的匹配方法所执行的操作。

根据本说明书一个或多个实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机指令,指令被处理器执行时实现上述第一方面以及第一方面中任一实施例所提供的市场主体与政策的匹配方法所执行的操作。

根据本说明书一个或多个实施例的第五方面,提出了一种计算机程序产品,包括计算机程序,程序被处理器执行时实现上述第一方面以及第一方面中任一实施例所提供的市场主体与政策的匹配方法所执行的操作。

本申请通过基于待匹配政策的政策关键词对第一预设模板进行填充得到政策描述文本,基于待匹配主体的市场主体信息对第二预设模板进行填充得到主体信息文本,以便可以直接获取到待匹配政策对应的政策描述文本以及待匹配主体对应的主体信息文本,从而对政策描述文本和主体信息文本进行拼接,得到待处理文本,进而基于待处理文本,确定待匹配政策和待匹配主体的匹配程度,以实现市场主体与政策的智能匹配,从而可以帮助相关人员高效、快速地实现政策的查找。

附图说明

图1是一示例性实施例提供的一种市场主体与政策的匹配方法的流程图。

图2是一示例性实施例提供的一种文本匹配模型的处理过程示意图。

图3是一示例性实施例示出的一种市场主体与政策的匹配过程的流程示意图。

图4是一示例性实施例提供的一种市场主体与政策的匹配装置的框图。

图5是一示例性实施例提供的一种计算设备的示意结构图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。

本申请提供了一种市场主体与政策的匹配方法,用于确定待匹配政策和待匹配主体的匹配程度,从而实现市场主体与政策的智能匹配,以向市场主体推送适合它的政策,实现政策的高效、快速查找。其中,市场主体可以为企业、个人、个体工商户、非企业组织等多种类型的市场主体,本申请对市场主体的具体类型不加以限定。

上述市场主体与政策的匹配方法可以由计算设备执行。其中,计算设备可以为服务器,如一台服务器、多台服务器、服务器集群、云计算平台等,本公开对计算设备的设备类型和设备数量不加以限定。

需要说明的是,本申请所提供的市场主体与政策的匹配方法,可以在有新政策发布的情况下,确定与该新发布的政策匹配的市场主体,从而向所确定出的市场主体推送该新发布的政策,以实现政策的智能推荐,从而可以大幅提升已发布政策的兑付效率。对于作为市场主体的企业,通过本申请所提供的市场主体与政策的匹配方法,可以从传统的“企业找政策”模式转变为“政策找企业”模式。

此外,本申请所提供的市场主体与政策的匹配方法,还可以在市场主体有政策推荐需求的情况下,确定与该市场主体匹配的政策,从而将所确定出的政策推送给该市场主体,以实现适用于该市场主体的政策的智能推荐,无需相关技术人员人工查询政策,从而可以提高市场主体与政策的匹配效率。

上述为两种有关本申请的应用场景的示例性介绍,在更多可能的实现方式中,本申请所提供的市场主体与政策的匹配方法还可以应用在其他多种场景中,本申请对具体的应用场景不加以限定。

在介绍了本申请的应用场景之后,下面对本申请的具体实现过程进行介绍。

参见图1,图1是一示例性实施例提供的一种市场主体与政策的匹配方法的流程图,该方法包括:

步骤101、获取待匹配政策对应的政策描述文本以及待匹配主体对应的主体信息文本,政策描述文本基于政策关键词对第一预设模板进行填充得到,政策关键词基于待匹配政策进行关键词提取得到,主体信息文本基于待匹配主体的市场主体信息对第二预设模板进行填充得到。

可选地,可以基于待匹配政策的政策原文进行关键词提取,以获取待匹配政策的政策关键词。其中,政策原文至少包括政策标题、政策项目描述以及受理条件之类的内容,政策关键词至少包括待匹配政策所属的行业和/或产业,也即是,待匹配政策所使用的行业实体和/或产业实体。此外,政策原文和政策关键词还可以包括其他类型的内容,本申请对政策原文和政策关键词所包括的具体内容不加以限定。

需要说明的是,按照国家划分标准,行业可以包括4级行业体系、20个行业大类、1500余个行业小类,产业可以包括4级产业体系、23个产业大类、2500余个产业小类。

其中,市场主体信息可以企业注册信息,可选地,市场主体信息还可以为其他类型的信息。以市场主体信息为企业注册信息为例,也即是,市场主体信息可以为企业在向相关部门进行登记注册时所提供的信息,市场主体信息可以包括企业名称、经营范围、所属行业和/或产业、企业类型、成立日期、注册资本、企业资质、科研能力、社保缴纳情况、人员信息、企业荣誉、负向信用等类型的信息,可选地,市场主体信息还可以包括其他类型的信息,本申请对市场主体信息所包括的具体内容不加以限定。

步骤102、对政策描述文本和主体信息文本进行拼接,得到待处理文本。

步骤103、基于待处理文本,确定待匹配政策和待匹配主体的匹配程度。

本申请通过基于待匹配政策的政策关键词对第一预设模板进行填充得到政策描述文本,基于待匹配主体的市场主体信息对第二预设模板进行填充得到主体信息文本,以便可以直接获取到待匹配政策对应的政策描述文本以及待匹配主体对应的主体信息文本,从而对政策描述文本和主体信息文本进行拼接,得到待处理文本,进而基于待处理文本,确定待匹配政策和待匹配主体的匹配程度,以实现市场主体与政策的智能匹配,从而可以帮助相关人员高效、快速地实现政策的查找。

上述为对本申请的基本实现过程的介绍,下面对本申请的多个可选实现方式进行介绍。

在一些实施例中,本申请可以在步骤101之前,预先基于待匹配政策进行关键词提取,以获取待匹配政策的政策关键词,从而基于所获取到的政策关键词来对第一预设模板进行填充,以获取政策描述文本。

在一种可能的实现方式中,该政策描述文本的获取过程可以包括如下步骤:

步骤100-1-1、通过关键词提取模型,基于待匹配政策的政策原文,获取待匹配政策的政策关键词。

可选地,在获取待匹配政策的政策关键词时,可以将待匹配政策的政策原文输入关键词提取模型,通过关键词提取模型,输出待匹配政策的政策关键词。

需要说明的是,关键词提取模型可以为基于语义的统计语言模型,或者,关键词提取模型可以使用词频-逆文本频率指数(Term Frequency–Inverse Document Frequency,TF-IDF)算法、词语逆频率方式计算加权(Term Frequency Inverse Word Frequency,TF-IWF)文档关键词自动提取算法、基于分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、基于语义的中文文本关键词提取(Semantic Based KeywordExtraction Of Chinese Text,SKE)算法、基于朴素贝叶斯模型的中文关键词提取算法,等等,本申请对关键词提取模型的具体类型不加以限定。

通过上述过程,可以从冗长的政策原文中获取到精简的政策关键词,从而可以降低后续基于政策关键词获取政策描述文本的难度。

需要说明的是,上述过程是以直接基于政策原文,来进行政策关键词的提取为例来进行说明的,在另一些实施例中,还可以先对政策原文进行清洗,从而基于清洗后的政策原文来进行政策关键词的提取。

在一种可能的实现方式中,可以从政策原文中,删除预设类型的文本,得到清洗后的政策原文。

可选地,可以预先将某些无用文本设置为预设类型的文本,从而可以基于所设置的预设类型的文本,在政策原文中进行无用文本的删除,以实现对市场主体信息的清洗。

一般情况下,政策原文中可能包括一些解释性的文本,这类文本一般以括号的形式出现在需要解释的内容之后,括号里的这部分解释性的文本对市场主体与政策的匹配过程的作用不大,因而,可以将括号内的文本视为无用文本,从而可以将括号内的文本设置为预设类型的文本,从而可以从政策原文中删除括号以及括号内的文本,实现对政策原文的清洗。

可选地,可以以正则表达式的方式来实现政策原文的清洗,例如,在设置了预设类型的文本后,可以基于所设置的预设类型的文本生成相应的正则表达式,以便计算设备可以基于所生成的正则表达式,来进行多余文本的删除,以实现政策原文的清洗。

通过上述过程,可以实现对政策原文的精简,从而可以降低计算设备基于政策原文获取政策关键词时的处理压力,提高计算设备的处理速度。而且,可以避免这些无用信息对政策关键词的提取过程造成影响,提高政策关键词提取过程的准确性。

步骤100-1-2、将政策关键词填充至第一预设模板中的对应位置处,得到政策描述文本。

其中,第一预设模板可以为使用文本提示(Prompt)方法预先生成的模板,一种类型的政策关键词可以对应于一个第一预设模板,不同类型的政策关键词可以对应于不同的第一预设模板。

例如,在政策关键词为待匹配政策所属的行业的情况下,第一预设模板可以为该政策适用于×××行业,后续在获取到作为政策关键词的待匹配政策所属的行业的情况下,即可将获取到的待匹配政策所属的行业填充至×××的位置,从而即可得到一个政策描述文本。

又例如,在政策关键词为待匹配政策所属的产业的情况下,第一预设模板可以为该政策适用于×××产业,后续在获取到作为政策关键词的待匹配政策所属的产业的情况下,即可将获取到的待匹配政策所属的产业填充至×××的位置,从而即可得到一个政策描述文本。

上述过程可以基于每个政策关键词获取到一个政策描述文本,以得到多个政策描述文本,从而可以将这多个政策描述文本拼接在一起,以形成一个完整的政策描述文本。

例如,拼接得到的政策描述文本可以如下:

扶持政策详情:

项目名称:2020年度四上企业(工业部分)培育奖励;

行业:制造业;

关键词:工业;

……

上述过程通过文本Prompt方法预先生成第一预设模板,从而基于所生成的第一预设模板来进行政策描述文本的生成,使得政策描述文本的生成过程更为高效。此外,在新增了一种类型的政策关键词的情况下,仅需新增一个对应的第一预设模板即可,而无需对关键词提取模型的结构进行改动,也无需对后续用于确定市场主体与政策的匹配程度的文本匹配模型的结构进行改动。而且,对于同一任务下的不同场景,特征体系可能有区别,但都可以通过增加Prompt模板的方式来实现政策描述文本的获取,而无需改动模型侧结构。另外,还可以将其他相关任务数据也采用文本Prompt的方法进行表示,实现多任务学习和知识迁移。

上述过程仅为获取政策描述文本的过程,下面介绍获取主体信息文本的过程。

在一些实施例中,可以在步骤101之前,预先基于待匹配主体的市场主体信息,对第二预设模板进行填充,以获取主体信息文本。

可选地,待匹配主体的不同类型的市场主体信息可以是存储在不同的字段处的,在一种可能的实现方式中,待匹配主体的市场主体信息可以以表格的形式存储,不同类型的市场主体信息存储在表格的不同字段处,例如,该表格可以以不同类型的市场主体信息对应的表头,来对不同类型的市场主体信息进行管理,也即是,不同类型的市场主体信息存储在相应表头对应的位置处。

因而,该主体信息文本的获取过程可以包括如下步骤:

步骤100-2-1、从对应字段处,获取待匹配主体的不同类型的市场主体信息。

以市场主体信息包括企业名称、经营范围、所属行业和/或产业、企业类型、成立日期、注册资本、企业资质、科研能力、社保缴纳情况、人员信息、企业荣誉、负向信用等多种类型的信息为例,可以将不同类型的市场主体信息分别存储至表格的不同字段处,例如,可以将企业名称存储至表格中企业名称对应的字段处,将经营范围存储至表格中经营范围对应的字段处,将所属行业存储至表格中所属行业对应的字段处,将所属产业存储至表格中所属产业对应的字段处,以此类推,即可实现上述多种类型的市场主体信息的存储。因而,在步骤1002-1中,即可直接从不同字段处获取到相应的市场主体信息。

步骤100-2-2、将获取到的不同类型的市场主体信息填充至第二预设模块中的对应位置处,得到主体信息文本。

其中,第二预设模板也可以为使用文本Prompt方法预先生成的模板,一种类型的市场主体信息可以对应于一个第二预设模板,不同类型的市场主体信息可以对应于不同的第二预设模板。

例如,在市场主体信息为企业名称的情况下,第二预设模板可以为该企业名称为×××,后续在获取到作为市场主体信息的企业名称的情况下,即可将获取到的企业名称填充至×××的位置,从而即可得到一个主体信息文本。

又例如,在市场主体信息为经营范围的情况下,第二预设模板可以为该企业的经营范围为×××,后续在获取到作为市场主体信息的经营范围的情况下,即可将获取到的经营范围填充至×××的位置,从而即可得到一个主体信息文本。

上述过程可以基于每种类型的市场主体信息获取到一个主体信息文本,以得到多个主体信息文本,从而可以将这多个主体信息文本拼接在一起,以形成一个完整的主体信息文本。

例如,拼接得到的主体信息文本可以如下:

企业详情:

行业(1级):批发和零售业;

成立日期:2019年1月15日;

注册资本:500万;

经营范围:建筑材料制造;

经营范围对应行业(1级):制造业,建筑业;

……

通过上述过程,即可获取到完整且精简的政策描述文本和主体信息文本,从而使得后续基于政策描述文本和主体信息文本获取到的待处理文本也是完整且精简的,从而可以减少后续进行市场主体和政策的匹配时的计算压力,并提高后续市场主体和政策的匹配准确性。

上述过程通过文本Prompt方法预先生成第二预设模板,从而基于所生成的第二预设模板来进行主体信息文本的生成,使得主体信息文本的生成过程更为高效。此外,在新增了一种类型的市场主体信息的情况下,仅需新增一个对应的第二预设模板即可,而无需对后续用于确定市场主体与政策的匹配程度的文本匹配模型的结构进行改动。而且,对于同一任务下的不同场景,特征体系可能有区别,但都可以通过增加Prompt模板的方式来实现主体信息文本的获取,而无需改动模型侧结构。另外,还可以将其他相关任务数据也采用文本Prompt的方法进行表示,实现多任务学习和知识迁移。

需要说明的是,上述过程是以获取到市场主体信息后,直接基于所获取到的市场主体信息,来进行主体信息文本的生成为例来进行说明的,在另一些实施例中,在获取到市场主体信息后,还可以对市场主体信息进行清洗,从而基于清洗后的市场主体信息来进行主体信息文本的生成。

在一种可能的实现方式中,在获取到待匹配主体的市场主体信息的情况下,可以从市场主体信息中,删除预设类型的文本,得到清洗后的市场主体信息。

可选地,可以预先将某些无用文本设置为预设类型的文本,从而在获取到市场主体信息的情况下,可以从所获取到的市场主体信息中,删除预设类型的文本,也即是无用文本,以实现对市场主体信息的清洗。

一般情况下,市场主体信息中可能包括一些解释性的文本,这类文本一般以括号的形式出现在需要解释的内容之后,括号里的这部分解释性的文本对市场主体与政策的匹配过程的作用不大,因而,可以将括号内的文本视为无用文本,从而可以将括号内的文本设置为预设类型的文本,从而在获取到市场主体信息的情况下,即可从所获取到的市场主体信息中,删除括号以及括号内的文本,实现对市场主体信息的清洗。

可选地,可以以正则表达式的方式来实现市场主体信息的清洗,例如,在设置了预设类型的文本后,可以基于所设置的预设类型的文本生成相应的正则表达式,以便计算设备可以基于所生成的正则表达式,来进行多余文本的删除,以实现市场主体信息的清洗。

以对作为市场主体信息的经营范围信息进行清洗的过程为例,可以通过正则表达式去除经营范围中的多余文本,实现对市场主体的经营范围信息的标准化操作。

通过上述过程,可以实现对市场主体信息的进一步精简,从而可以进一步降低计算设备的处理压力,提高计算设备的处理速度。

可选地,在实现对经营范围信息的标准化操作后,还可以结合经营范围到行业的映射,对作为市场主体信息的市场主体所属行业进行扩展,并将扩展得到的所属行业信息与直接从所属行业字段处获取到的所属行业信息进行去重合并,从而可以在降低文本长度的同时,提高最终获取到的所属行业信息的准确性。

在一些实施例中,在获取到政策描述文本和/或主体信息文本的情况下,还可以对所获取到的政策描述文本和/或主体信息文本进行清洗。

在一种可能的实现方式中,在获取到政策描述文本的情况下,基于政策描述文本所包括的政策关键词所对应的等级,从对应等级的政策关键词中删除预设文本,得到清洗后的政策描述文本。

需要说明的是,前述内容已经介绍过,政策关键词至少包括待匹配政策所属的行业和/或产业,而行业可以被划分为多级行业,产业也可以被划分为多级产业,而不同级别的行业和/或产业划分对市场主体和政策的匹配过程的贡献程度也是不同的。例如,一级产业是制作业,二级产业是汽车制造业,三级产业是汽车零件制造,而四级产业可能就是制造的具体是哪些汽车零件,而所发布的政策基本都是针对大的行业或产业的,因此,可以根据行业/产业不同粒度(1-4级),分别进行截断,粒度级别高的行业/产业划分长度短且准确,可以全部保留或大部分保留,例如,可以保留一级产业和二级产业,而粒度级别低的行业/产业划分长度长且表达不够准确,可以仅保留其中的少部分文本,例如,可以仅保留三级产业和四级产业中的少部分文本。

在另一种可能的实现方式中,在获取到主体信息文本的情况下,从主体信息文本中,删除预设类型的文本,得到清洗后的主体信息文本。

需要说明的是,清洗主体信息文本的过程可以参见上述清洗市场主体信息的过程,此处不再赘述。

通过上述过程,可以实现对政策描述文本和/或主体信息文本的进一步清洗,从而在保证政策描述文本和/或主体信息文本的完整性和准确性的情况下,最大限度地清除政策描述文本和/或主体信息文本中的冗余文本,从而减少后续处理过程的处理压力,提高处理速度。

需要说明的是,在通过上述过程获取到政策描述文本和主体信息文本后,即可通过步骤102,来对政策描述文本和主体信息文本进行拼接,得到待处理文本。

在一些实施例中,在获取到待处理文本后,可以从待处理文本中,删除预设类型的文本,得到清洗后的待处理文本。

需要说明的是,清洗待处理文本的过程可以参见上述清洗市场主体信息的过程,此处不再赘述。

在一些实施例中,在获取到待处理文本后,即可基于获取到的待处理文本来进行市场主体与政策的匹配,可选地,若在获取到待处理文本后,对待处理文本进行了清洗,则可以基于清洗后的待处理文本来进行市场主体与政策的匹配,但无论是哪种待处理文本,均可以用于进行市场主体与政策的匹配。

在一种可能的实现方式中,可以通过基于加性注意力架构的文本匹配模型,来实现待匹配主体与待匹配政策的匹配程度的确实。例如,可以将待处理文本输入基于加性注意力架构的文本匹配模型,从而通过文本匹配模型,来确定待匹配政策和待匹配主体的匹配程度。

其中,基于加性注意力架构的文本匹配模型可以为Fastformer模型,该文本匹配模型可以包括第一转换模块、第二转换模块、第三转换模块和分类器。基于此,对于步骤103,在基于待处理文本,通过基于加性注意力架构的文本匹配模型,确定待匹配政策和待匹配主体的匹配程度时,可以包括如下步骤:

步骤1031、将矩阵形式的待处理文本输入第一转换模块,通过第一转换模块,基于矩阵形式的待处理文本,获取待处理文本对应的查询向量。

其中,第一转换模块可以为使用线性时间复杂度的多头加性自注意力机制的神经网络模块,第一转换模块可以包括多个采用Softmax函数作为激活函数的线性变换层。因而,在通过第一转换模块获取待处理文本对应的查询向量时,可以通过第一转换模块所包括的线性变换层,对矩阵形式的待处理文本进行线性变换,以得到矩阵形式的待处理文本所包括的多个维度的向量,进而对多个维度的向量进行加权求和,以得到待处理文本对应的查询向量。

通过上述过程,可以将矩阵形式的待处理文本中多个维度的向量加权合并为一个全局的查询向量,后续基于该查询向量进行处理即可,而无需对矩阵形式的待处理文本进行处理。

可选地,可以通过Dropout层对第一转换模块所包括的神经元进行Dropout处理,以丢弃其中的一部分神经元,进而基于剩余神经元对应的向量来进行加权求和,以得到查询向量。

通过设置Dropout层,可以避免文本匹配模型出现过拟合的问题,从而可以保证文本匹配模型的处理结果的准确性。

步骤1032、将查询向量输入第二转换模块,通过第二转换模块,基于查询向量,获取键值向量。

在一种可能的实现方式中,可以通过第二转换模块,对查询向量与预设的多个第一参数值(也即是Attention Key)进行按位相乘计算,得到多个中间向量,进而通过softmax函数对计算得到的多个中间向量进行加权求和,得到键值向量。

其中,第二转换模块可以为前向神经网络结构的模块。

可选地,可以通过Dropout层对第二转换模块所包括的神经元进行Dropout处理,以丢弃其中的一部分神经元,进而基于剩余神经元对应的向量来进行加权求和,以得到键值向量。

通过设置Dropout层,可以避免文本匹配模型出现过拟合的问题,从而可以保证文本匹配模型的处理结果的准确性。

步骤1033、将键值向量输入第三转换模块,通过第三转换模块,基于键值向量,获取目标向量。

在一种可能的实现方式中,可以通过第三转换模块,对键值向量与预设的多个第二参数值(也即是Attention Value)进行按位相乘计算,得到目标向量。

步骤1034、将目标向量输入分类器,通过分类器,基于目标向量,确定待处理文本的评分,评分用于指示待匹配政策和待匹配主体的匹配程度。

其中,分类器可以为Sigmoid分类器,可选地,还可以为其他类型的分类器,本申请对分类器的具体类型不加以限定。

需要说明的是,评分越高,表明待匹配政策和待匹配主体的匹配程度越高。

参见图2,图2是一示例性实施例提供的一种文本匹配模型的处理过程示意图,如图2所示,可以将矩阵形式的待处理文本输入文本匹配模型,通过文本匹配模型对各个维度的向量分别进行位置编码,从而将编码后的结果输入使用线性时间复杂度的多头加性自注意力机制的第一转换模块,通过第一转换模块和Dropout层,对多个维度的向量进行加权求和,得到一个全局的查询向量,从而将查询向量输入作为第二转换模块的前向神经网络,通过第二转换模块和Dropout层,将查询向量与预设的多个第一参数值进行按位相乘计算,得到多个中间向量,进而多个中间向量进行加权求和,得到一个全局的键值向量,从而通过第三转换模块,对键值向量与预设的多个第二参数值进行按位相乘计算,得到目标向量,进而将目标向量输入Sigmoid分类器,以输出待处理文本的评分。

本申请通过基于加性注意力架构的文本匹配模型,可以基于输入其中的待处理文本对全局上下文进行建模,并使用线性变换学习全局上下文感知的注意力,以形成最终输出,通过这种方式,该文本匹配模型可以以线性复杂度实现高效的上下文建模。另外,通过以基于加性注意力架构的Fastformer模型来替换传统的Transformer模型,从而可以在保证长文本匹配的准确性的情况下,将计算复杂度从O(N

上述为有关本申请的实现过程的介绍,需要说明的是,上述过程所提供的市场主体与政策的匹配方法,可以应用于多种场景下市场主体与政策的智能匹配过程,下面介绍两种示例性的场景下触发本申请的过程的方式。

在一种可能场景中,响应于接收到政策发布指令,获取待匹配政策对应的政策描述文本以及多个待匹配主体对应的主体信息文本,进而通过本申请所提供的市场主体与政策的匹配方法,对政策描述文本和每个主体信息文本分别进行处理,以得到多个评分,从而基于获取到的多个评分,确定满足目标条件的待匹配主体,从而将待匹配政策推送给满足目标条件的待匹配主体。

在另一种可能场景中,响应于接收到主体注册指令,获取待匹配主体对应的主体信息文本以及多个待匹配政策对应的政策描述文本,进而通过本申请所提供的市场主体与政策的匹配方法,对主体信息文本和每个政策描述文本分别进行处理,以得到多个评分,从而基于获取到的多个评分,确定满足目标条件的待匹配政策,从而向待匹配主体推送满足目标条件的待匹配政策。

其中,目标条件可以为评分大于设定阈值,或者,目标条件可以为评分按照从大到小的顺序排序后位于设定排序位置之前。

可选地,设定阈值可以为任意取值,设定排序位置可以为任意位置,本申请对此不加以限定。

上述各个实施例所提供的市场主体与政策的匹配过程的流程可以参见图3,图3是一示例性实施例示出的一种市场主体与政策的匹配过程的流程示意图,如图3所示,可以预先对市场主体信息和已发布政策的政策原文进行挖掘,以分别获取到不同类型的市场主体信息以及已发布政策的政策关键词,以基于不同类型的市场主体信息生成主体信息文本,基于已获取到的政策关键词生成政策描述文本,实现主体信息文本和政策描述文本的生成,从而对所生成的文本进行清洗,以去掉冗余信息,有效降低文本长度,进而基于经过文本清洗的主体信息文本和政策描述文本,确定政策与市场主体之间的匹配程度,从而基于所确定出的匹配程度进行政策推荐。

需要说明的是,图3所示仅为对本申请所提供的市场主体与政策的匹配方法的流程性介绍,具体实现过程可以参见上述各个实施例,此处不再赘述。

与前述方法的实施例相对应,本说明书还提供了装置及其所应用的计算设备的实施例。

参见图4,图4是一示例性实施例提供的一种市场主体与政策的匹配装置的框图,该装置包括:

获取单元401,用于获取待匹配政策对应的政策描述文本以及待匹配主体对应的主体信息文本,政策描述文本基于政策关键词对第一预设模板进行填充得到,政策关键词基于待匹配政策进行关键词提取得到,主体信息文本基于待匹配主体的市场主体信息对第二预设模板进行填充得到;

拼接单元402,用于对政策描述文本和主体信息文本进行拼接,得到待处理文本;

确定单元403,用于基于待处理文本,确定待匹配政策和待匹配主体的匹配程度。

在本说明书的一个实施例中,确定单元403,在用于基于待处理文本,确定待匹配政策和待匹配主体的匹配程度时,用于:

将矩阵形式的待处理文本输入第一转换模块,通过第一转换模块,基于矩阵形式的待处理文本,获取待处理文本对应的查询向量;

将查询向量输入第二转换模块,通过第二转换模块,基于查询向量,获取键值向量;

将键值向量输入第三转换模块,通过第三转换模块,基于键值向量,获取目标向量;

将目标向量输入分类器,通过分类器,基于目标向量,确定待处理文本的评分,评分用于指示待匹配政策和待匹配主体的匹配程度。

在本说明书的一个实施例中,对政策描述文本和主体信息文本进行拼接,得到待处理文本之后,该装置还包括:

第一清洗单元,用于从待处理文本中,删除预设类型的文本,得到清洗后的待处理文本。

在本说明书的一个实施例中,政策描述文本的获取过程包括:

通过关键词提取模型,基于待匹配政策的政策原文,获取待匹配政策的政策关键词,政策关键词至少包括待匹配政策所属的行业和/或产业;

将政策关键词填充至第一预设模板中的对应位置处,得到政策描述文本。

在本说明书的一个实施例中,待匹配主体的不同类型的市场主体信息存储在不同的字段处;主体信息文本的获取过程包括:

从对应字段处,获取待匹配主体的不同类型的市场主体信息;

将获取到的不同类型的市场主体信息填充至第二预设模块中的对应位置处,得到主体信息文本。

在本说明书的一个实施例中,该装置还包括:

第二清洗单元,用于在获取到待匹配主体的市场主体信息的情况下,从市场主体信息中,删除预设类型的文本,得到清洗后的市场主体信息。

在本说明书的一个实施例中,该装置还包括:

第三清洗单元,用于在获取到政策描述文本的情况下,基于政策描述文本所包括的政策关键词所对应的等级,从对应等级的政策关键词中删除预设文本,得到清洗后的政策描述文本;

第三清洗单元,还用于在获取到主体信息文本的情况下,从主体信息文本中,删除预设类型的文本,得到清洗后的主体信息文本。

在本说明书的一个实施例中,获取单元401用于下述至少一项:

响应于接收到政策发布指令,获取待匹配政策对应的政策描述文本以及多个待匹配主体对应的主体信息文本;

响应于接收到主体注册指令,获取待匹配主体对应的主体信息文本以及多个待匹配政策对应的政策描述文本。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本申请还提供了一种计算设备,参见图5,图5是一示例性实施例提供的一种计算设备的示意结构图。请参考图5,在硬件层面,该设备包括处理器502、内部总线504、网络接口506、内存508以及非易失性存储器510,当然还可能包括实现其他功能所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现,比如由处理器502从非易失性存储器510中读取对应的计算机程序到内存508中然后运行。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

本申请还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请任一实施例所提供的市场主体与政策的匹配方法。

上述实施例阐明的装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中,计算机包括一个或多个处理器(Central ProcessingUnit,CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read-Only Memory,ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase-change Random AccessMemory,PRAM)、静态随机存取存储器(Static Random-Access Memory,SRAM)、动态随机存取存储器(Dynamic Random Access Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CompactDisc Read Only Memory,CD-ROM)、数字多功能光盘(Digital Video Disc,DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(Transitory Media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号