首页> 中国专利> 基于交易数据的企业用户画像的标签确定方法和装置

基于交易数据的企业用户画像的标签确定方法和装置

摘要

本发明提供了一种基于交易数据的企业用户画像的标签确定方法和装置,该方法包括:获取历史交易数据;对历史交易数据进行分词;对分词得到的数据进行词性标注,统计词性为名词的数据以得到第一数据集合;对分词得到的数据进行命名实体识别,以得到第二数据集合;根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第三数据集合;采用关键词抽取以及高频词抽取的方式从第三数据集合确定基于交易数据的企业用户画像的标签。通过该方法,可以得到根据历史交易数据确定的企业用户画像的标签,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

著录项

  • 公开/公告号CN112528632A

    专利类型发明专利

  • 公开/公告日2021-03-19

    原文格式PDF

  • 申请/专利权人 用友网络科技股份有限公司;

    申请/专利号CN202011416409.3

  • 发明设计人 谢春甫;

    申请日2020-12-07

  • 分类号G06F40/216(20200101);G06F40/289(20200101);G06F40/295(20200101);G06K9/62(20060101);G06Q10/08(20120101);G06Q40/04(20120101);

  • 代理机构11343 北京友联知识产权代理事务所(普通合伙);

  • 代理人尚志峰;王淑梅

  • 地址 100094 北京市海淀区北清路68号

  • 入库时间 2023-06-19 10:19:37

说明书

技术领域

本发明涉及信息处理技术领域,具体而言,涉及一种基于交易数据的企业用户画像的标签确定方法、装置、电子设备和可读存储介质。

背景技术

相关技术方案中,用于描述企业画像的维度主要包括企业基本属性维度、企业经营状况维度、企业风险信息维度三个维度。

本领域的技术人员发现,现有企业画像所体现的维度不全面,在供应商进行产品采购时,无法知悉企业商品供货能力。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此,本发明的第一个方面在于,提供了一种基于交易数据的企业用户画像的标签确定方法。

本发明的第二个方面在于,提供了一种基于交易数据的企业用户画像的标签确定装置。

本发明的第三个方面在于,提供了一种电子设备。

本发明的第四个方面在于,提供了一种可读存储介质。

有鉴于此,根据本发明的第一个方面,本发明提供了一种基于交易数据的企业用户画像的标签确定方法,包括:获取历史交易数据;对历史交易数据进行分词;对分词得到的数据进行词性标注,统计词性为名词的数据以得到第一数据集合;对分词得到的数据进行命名实体识别,以得到第二数据集合;根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第三数据集合;采用关键词抽取以及高频词抽取的方式从第三数据集合确定基于交易数据的企业用户画像的标签。

本发明的技术方案提出了一种基于交易数据的企业用户画像的标签确定方法,通过该方法,可以得到根据历史交易数据确定的企业用户画像的标签,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

具体地,商品本身具有名词属性,基于该特点,可以通过对历史交易数据进行分词,并对分词得到的数据进行词性标注,统计词性为名词的数据以得到第一数据集合,通过对分词得到的数据进行命名实体识别,以得到第二数据集合,其中,命名实体识别可以理解为,通过使用之前存储的商品名称与分词得到的数据进行比对,筛选出与之前存储的商品名称一样的数据,并根据该数据构建第二数据集合。

此外,历史交易数据本身具有时间属性,因此,通过第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定的第三数据集合能够体现出该企业在之前的一段时间的商品的供货情况。

值得指出的是,通常情况下,第三数据集合中的数据可能会比较多,若同时进行显示,则会出现标签过多,无法体现出该企业的主要售卖商品这一情况,为了减少上述情况的出现,采用关键词抽取以及高频词抽取的方式从第三数据集合进行抽取数据,利用关键词抽取以及高频词抽取的方式,将企业的历史交易数据中热门的商品筛选出来,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

在上述任一技术方案中,根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第三数据集合的步骤之前,还包括:接收对历史交易数据的输入操作,得到第四数据集合;根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值以及第四数据集合确定相似度;根据相似度、采用最小二乘法确定第一数据集合对应的权重值和第二数据集合对应的权重值。

在该技术方案中,通过接收历史交易数据的输入操作,以便采用人工的方式对历史交易数据进行标注,进而形成第四数据集合,其中,第四数据集合可以理解为业务标签,通过预先构建第四数据集合,可以在确定第一数据集合和第二数据集合之后,根据相似度来确定第一数据集合对应的权重值和第二数据集合对应的权重值。

在此过程中,由于第一数据集合对应的权重值和第二数据集合对应的权重值并非是随意设定的,而是根据历史交易数据进行相似度比对确定的,因此,提高了第一数据集合对应的权重值和第二数据集合对应的权重值取值的合理性,提高了基于历史交易数据确定的企业用户画像的标签的可信度。

在上述任一技术方案中,根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第三数据集合的步骤,具体包括:根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第五数据集合;确定历史交易数据中的时间数据;根据时间数据与设定时间数据的比较结果确定第五数据集合的时间系数;将第五数据集合与第五数据集合的时间系数的乘积作为第三数据集合。

在该技术方案中,考虑到企业在每个时期所售卖的主打商品不同,若不在时间维度上对商品进行区分,则会出现企业的历史主打商品成为标签,而实际生产中,该商品已经停产的情况,为了避免上述情况的出现,本申请的技术方案获取历史交易数据中的时间数据,并将该时间数据与设定时间数据进行比对,得到时间系数,并根据该时间系数对由第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第五数据集合进行时间权重的添加。

在上述技术方案中,基于历史交易数据确定的企业用户画像的标签能够体现出企业历史主营商品,减少了因时间因素对基于历史交易数据确定的企业用户画像的标签所产生的影响。

在上述任一技术方案中,根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第三数据集合的步骤,还包括:采用训练词向量的方法,对第三数据集合中的数据进行数据挖掘,得到相似度系数;根据相似度系数对第三数据集合进行修正。

在该技术方案中,考虑到第三数据集合只能体现出一部分商品的交易情况,无法体现出一类商品的交易情况,为了减少上述情况的出现,将采用训练词向量的方法,对第三数据集合中的数据进行数据挖掘,得到相似度系数,通过相似度系数对第三数据集合进行修正,以扩大第三数据集合所包含的数据,以便基于历史交易数据确定的企业用户画像的标签能够体现一类商品的交易情况,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

在上述任一技术方案中,基于交易数据的企业用户画像的标签包括第一类标签和第二类标签;采用关键词抽取以及高频词抽取的方式从第三数据集合确定基于交易数据的企业用户画像的标签的步骤,具体包括:采用关键词抽取的方式从第三数据集合确定第六数据集合;采用高频词抽取的方式从第三数据集合确定第七数据集合;将第六数据集合和第七数据集合的交集中的数据作为第一类标签,将第六数据集合和第七数据集合的并集中的数据作为第二类标签。

在该技术方案中,第一类标签是第六数据集合和第七数据集合的交集中的数据,即通过上述两种方法来确定的,相对于第二类标签,其包含的数据较少,因此,可以表征企业的主营商品,而第二类标签包含的数据多,故可以表征企业的所有商品,通过输出上面一类或两类商品,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

根据本发明的第二个方面,本发明提供了一种基于交易数据的企业用户画像的标签确定装置,包括:获取单元,用于获取历史交易数据;划分单元,用于对历史交易数据进行分词;识别单元,用于对分词得到的数据进行词性标注,统计词性为名词的数据以得到第一数据集合;以及对分词得到的数据进行命名实体识别,以得到第二数据集合;确定单元,用于根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第三数据集合;以及采用关键词抽取以及高频词抽取的方式从第三数据集合确定基于交易数据的企业用户画像的标签。

本申请的技术方案提出了一种基于交易数据的企业用户画像的标签确定装置,其包括获取单元、识别单元和确定单元。

具体地,通过该装置,可以得到根据历史交易数据确定的企业用户画像的标签,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

具体地,商品本身具有名词属性,基于该特点,可以通过对历史交易数据进行分词,并对分词得到的数据进行词性标注,统计词性为名词的数据以得到第一数据集合,通过对分词得到的数据进行命名实体识别,以得到第二数据集合,其中,命名实体识别可以理解为,通过使用之前存储的商品名称与分词得到的数据进行比对,筛选出与之前存储的商品名称一样的数据,并根据该数据构建第二数据集合。

此外,历史交易数据本身具有时间属性,因此,通过第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定的第三数据集合能够体现出该企业在之前的一段时间的商品的供货情况。

值得指出的是,通常情况下,第三数据集合中的数据可能会比较多,若同时进行显示,则会出现标签过多,无法体现出该企业的主要售卖商品这一情况,为了减少上述情况的出现,采用关键词抽取以及高频词抽取的方式从第三数据集合进行抽取数据,利用关键词抽取以及高频词抽取的方式,将企业的历史交易数据中热门的商品筛选出来,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

另外,本发明提供的上述技术方案中的基于交易数据的企业用户画像的标签确定装置还可以具有如下附加技术特征:

在上述任一技术方案中,确定单元还用于:接收对历史交易数据的输入操作,得到第四数据集合;根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值以及第四数据集合确定相似度;根据相似度、采用最小二乘法确定第一数据集合对应的权重值和第二数据集合对应的权重值。

在该技术方案中,通过接收历史交易数据的输入操作,以便采用人工的方式对历史交易数据进行标注,进而形成第四数据集合,其中,第四数据集合可以理解为业务标签,通过预先构建第四数据集合,可以在确定第一数据集合和第二数据集合之后,根据相似度来确定第一数据集合对应的权重值和第二数据集合对应的权重值。

在此过程中,由于第一数据集合对应的权重值和第二数据集合对应的权重值并非是随意设定的,而是根据历史交易数据进行相似度比对确定的,因此,提高了第一数据集合对应的权重值和第二数据集合对应的权重值取值的合理性,提高了基于历史交易数据确定的企业用户画像的标签的可信度。

在上述任一技术方案中,确定单元具体用于:根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第五数据集合;确定历史交易数据中的时间数据;根据时间数据与设定时间数据的比较结果确定第五数据集合的时间系数;将第五数据集合与第五数据集合的时间系数的乘积作为第三数据集合。

在该技术方案中,考虑到企业在每个时期所售卖的主打商品不同,若不在时间维度上对商品进行区分,则会出现企业的历史主打商品成为标签,而实际生产中,该商品已经停产的情况,为了避免上述情况的出现,本申请的技术方案获取历史交易数据中的时间数据,并将该时间数据与设定时间数据进行比对,得到时间系数,并根据该时间系数对由第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第五数据集合进行时间权重的添加。

在上述技术方案中,基于历史交易数据确定的企业用户画像的标签能够体现出企业历史主营商品,减少了因时间因素对基于历史交易数据确定的企业用户画像的标签所产生的影响。

在上述任一技术方案中,确定单元还用于:采用训练词向量的方法,对第三数据集合中的数据进行数据挖掘,得到相似度系数;根据相似度系数对第三数据集合进行修正。

在该技术方案中,考虑到第三数据集合只能体现出一部分商品的交易情况,无法体现出一类商品的交易情况,为了减少上述情况的出现,将采用训练词向量的方法,对第三数据集合中的数据进行数据挖掘,得到相似度系数,通过相似度系数对第三数据集合进行修正,以扩大第三数据集合所包含的数据,以便基于历史交易数据确定的企业用户画像的标签能够体现一类商品的交易情况,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

在上述任一技术方案中,基于交易数据的企业用户画像的标签包括第一类标签和第二类标签;确定单元具体用于:采用关键词抽取的方式从第三数据集合确定第六数据集合;采用高频词抽取的方式从第三数据集合确定第七数据集合;将第六数据集合和第七数据集合的交集中的数据作为第一类标签,将第六数据集合和第七数据集合的并集中的数据作为第二类标签。

在该技术方案中,第一类标签是第六数据集合和第七数据集合的交集中的数据,即通过上述两种方法来确定的,相对于第二类标签,其包含的数据较少,因此,可以表征企业的主营商品,而第二类标签包含的数据多,故可以表征企业的所有商品,通过输出上面一类或两类商品,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

根据本发明的第三个方面,本发明提供了一种电子设备,包括:存储器,存储器上存储有计算机程序;控制器,控制器执行计算机程序实现如第一方面中任一项的基于交易数据的企业用户画像的标签确定方法的步骤,具有第一方面中任一实施例提供的基于交易数据的企业用户画像的标签确定方法的全部有益技术效果,因此,本发明的实施例提供的电子设备具有第一方面任一实施例提供的基于交易数据的企业用户画像的标签确定方法的全部有益效果,在此不一一列举。

根据本发明的第四个方面,本发明提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现:如第一方面中任一项的基于交易数据的企业用户画像的标签确定方法的步骤。具有第一方面中任一实施例提供的基于交易数据的企业用户画像的标签确定方法的全部有益技术效果,因此,本发明的实施例提供的可读存储介质具有第一方面任一实施例提供的基于交易数据的企业用户画像的标签确定方法的全部有益效果,在此不一一列举。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1示出了根据本发明一个实施例的基于交易数据的企业用户画像的标签确定方法的流程示意图;

图2示出了根据本发明一个实施例的确定第一数据集合对应的权重值和第二数据集合对应的权重值的流程示意图;

图3示出了根据本发明一个实施例的确定第三数据集合的流程示意图;

图4示出了根据本发明一个实施例的对第三数据集合进行修正的流程示意图;

图5示出了根据本发明一个实施例的采用关键词抽取以及高频词抽取的方式从第三数据集合确定基于交易数据的企业用户画像的标签的流程示意图;

图6示出了根据本发明一个实施例的基于交易数据的企业用户画像的标签确定装置的示意框图;

图7示出了根据本发明一个实施例的基于交易数据的企业用户画像的标签的示意框图;

图8示出了根据本发明一个实施例的确定标签比重的函数的示意框图;

图9示出了根据本发明一个实施例的电子设备的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述方面、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一

根据本发明的第一个方面,如图1所示,本发明提供了一种基于交易数据的企业用户画像的标签确定方法,具体包括:

步骤102,获取历史交易数据;

步骤104,对历史交易数据进行分词;

步骤106,对分词得到的数据进行词性标注,统计词性为名词的数据以得到第一数据集合;对分词得到的数据进行命名实体识别,以得到第二数据集合;

步骤108,根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第三数据集合;

步骤110,采用关键词抽取以及高频词抽取的方式从第三数据集合确定基于交易数据的企业用户画像的标签。

本发明的实施例提出了一种基于交易数据的企业用户画像的标签确定方法,通过该方法,可以得到根据历史交易数据确定的企业用户画像的标签,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

具体地,商品本身具有名词属性,基于该特点,可以通过对历史交易数据进行分词,并对分词得到的数据进行词性标注,统计词性为名词的数据以得到第一数据集合,通过对分词得到的数据进行命名实体识别,以得到第二数据集合,其中,命名实体识别可以理解为,通过使用之前存储的商品名称与分词得到的数据进行比对,筛选出与之前存储的商品名称一样的数据,并根据该数据构建第二数据集合。

此外,历史交易数据本身具有时间属性,因此,通过第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定的第三数据集合能够体现出该企业在之前的一段时间的商品的供货情况。

值得指出的是,通常情况下,第三数据集合中的数据可能会比较多,若同时进行显示,则会出现标签过多,无法体现出该企业的主要售卖商品这一情况,为了减少上述情况的出现,采用关键词抽取以及高频词抽取的方式从第三数据集合进行抽取数据,利用关键词抽取以及高频词抽取的方式,将企业的历史交易数据中热门的商品筛选出来,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

在上述任一实施例中,如图2所示,根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第三数据集合的步骤之前,还包括:

步骤202,接收对历史交易数据的输入操作,得到第四数据集合;

步骤204,根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值以及第四数据集合确定相似度;

步骤206,根据相似度、采用最小二乘法确定第一数据集合对应的权重值和第二数据集合对应的权重值。

在该实施例中,通过接收历史交易数据的输入操作,以便采用人工的方式对历史交易数据进行标注,进而形成第四数据集合,其中,第四数据集合可以理解为业务标签,通过预先构建第四数据集合,可以在确定第一数据集合和第二数据集合之后,根据相似度来确定第一数据集合对应的权重值和第二数据集合对应的权重值。

在此过程中,由于第一数据集合对应的权重值和第二数据集合对应的权重值并非是随意设定的,而是根据历史交易数据进行相似度比对确定的,因此,提高了第一数据集合对应的权重值和第二数据集合对应的权重值取值的合理性,提高了基于历史交易数据确定的企业用户画像的标签的可信度。

在上述任一实施例中,如图3所示,根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第三数据集合的步骤,具体包括:

步骤302,根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第五数据集合;

步骤304,确定历史交易数据中的时间数据;

步骤306,根据时间数据与设定时间数据的比较结果确定第五数据集合的时间系数;

步骤308,将第五数据集合与第五数据集合的时间系数的乘积作为第三数据集合。

在该实施例中,考虑到企业在每个时期所售卖的主打商品不同,若不在时间维度上对商品进行区分,则会出现企业的历史主打商品成为标签,而实际生产中,该商品已经停产的情况,为了避免上述情况的出现,本申请的实施例获取历史交易数据中的时间数据,并将该时间数据与设定时间数据进行比对,得到时间系数,并根据该时间系数对由第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第五数据集合进行时间权重的添加。

在上述实施例中,基于历史交易数据确定的企业用户画像的标签能够体现出企业历史主营商品,减少了因时间因素对基于历史交易数据确定的企业用户画像的标签所产生的影响。

在上述任一实施例中,如图4所示,根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第三数据集合的步骤,还包括:

步骤402,采用训练词向量的方法,对第三数据集合中的数据进行数据挖掘,得到相似度系数;

步骤404,根据相似度系数对第三数据集合进行修正。

在该实施例中,考虑到第三数据集合只能体现出一部分商品的交易情况,无法体现出一类商品的交易情况,为了减少上述情况的出现,将采用训练词向量的方法,对第三数据集合中的数据进行数据挖掘,得到相似度系数,通过相似度系数对第三数据集合进行修正,以扩大第三数据集合所包含的数据,以便基于历史交易数据确定的企业用户画像的标签能够体现一类商品的交易情况,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

在上述任一实施例中,基于交易数据的企业用户画像的标签包括第一类标签和第二类标签;如图5所示,采用关键词抽取以及高频词抽取的方式从第三数据集合确定基于交易数据的企业用户画像的标签的步骤,具体包括:

步骤502,采用关键词抽取的方式从第三数据集合确定第六数据集合;

步骤504,采用高频词抽取的方式从第三数据集合确定第七数据集合;

步骤506,将第六数据集合和第七数据集合的交集中的数据作为第一类标签,将第六数据集合和第七数据集合的并集中的数据作为第二类标签。

在该实施例中,第一类标签是第六数据集合和第七数据集合的交集中的数据,即通过上述两种方法来确定的,相对于第二类标签,其包含的数据较少,因此,可以表征企业的主营商品,而第二类标签包含的数据多,故可以表征企业的所有商品,通过输出上面一类或两类商品,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

根据本发明的第二个方面,如图6所示,本发明提供了一种基于交易数据的企业用户画像的标签确定装置600,包括:获取单元602,用于获取历史交易数据;划分单元604,用于对历史交易数据进行分词;识别单元606,用于对分词得到的数据进行词性标注,统计词性为名词的数据以得到第一数据集合;以及对分词得到的数据进行命名实体识别,以得到第二数据集合;确定单元608,用于根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第三数据集合;以及采用关键词抽取以及高频词抽取的方式从第三数据集合确定基于交易数据的企业用户画像的标签。

本申请的实施例提出了一种基于交易数据的企业用户画像的标签确定装置600,其包括获取单元602、识别单元606和确定单元608。

具体地,通过该装置,可以得到根据历史交易数据确定的企业用户画像的标签,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

具体地,商品本身具有名词属性,基于该特点,可以通过对历史交易数据进行分词,并对分词得到的数据进行词性标注,统计词性为名词的数据以得到第一数据集合,通过对分词得到的数据进行命名实体识别,以得到第二数据集合,其中,命名实体识别可以理解为,通过使用之前存储的商品名称与分词得到的数据进行比对,筛选出与之前存储的商品名称一样的数据,并根据该数据构建第二数据集合。

此外,历史交易数据本身具有时间属性,因此,通过第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定的第三数据集合能够体现出该企业在之前的一段时间的商品的供货情况。

值得指出的是,通常情况下,第三数据集合中的数据可能会比较多,若同时进行显示,则会出现标签过多,无法体现出该企业的主要售卖商品这一情况,为了减少上述情况的出现,采用关键词抽取以及高频词抽取的方式从第三数据集合进行抽取数据,利用关键词抽取以及高频词抽取的方式,将企业的历史交易数据中热门的商品筛选出来,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

另外,本发明提供的上述实施例中的基于交易数据的企业用户画像的标签确定装置600还可以具有如下附加技术特征:

在上述任一实施例中,确定单元608还用于:接收对历史交易数据的输入操作,得到第四数据集合;根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值以及第四数据集合确定相似度;根据相似度、采用最小二乘法确定第一数据集合对应的权重值和第二数据集合对应的权重值。

在该实施例中,通过接收历史交易数据的输入操作,以便采用人工的方式对历史交易数据进行标注,进而形成第四数据集合,其中,第四数据集合可以理解为业务标签,通过预先构建第四数据集合,可以在确定第一数据集合和第二数据集合之后,根据相似度来确定第一数据集合对应的权重值和第二数据集合对应的权重值。

在此过程中,由于第一数据集合对应的权重值和第二数据集合对应的权重值并非是随意设定的,而是根据历史交易数据进行相似度比对确定的,因此,提高了第一数据集合对应的权重值和第二数据集合对应的权重值取值的合理性,提高了基于历史交易数据确定的企业用户画像的标签的可信度。

在上述任一实施例中,确定单元608具体用于:根据第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第五数据集合;确定历史交易数据中的时间数据;根据时间数据与设定时间数据的比较结果确定第五数据集合的时间系数;将第五数据集合与第五数据集合的时间系数的乘积作为第三数据集合。

在该实施例中,考虑到企业在每个时期所售卖的主打商品不同,若不在时间维度上对商品进行区分,则会出现企业的历史主打商品成为标签,而实际生产中,该商品已经停产的情况,为了避免上述情况的出现,本申请的实施例获取历史交易数据中的时间数据,并将该时间数据与设定时间数据进行比对,得到时间系数,并根据该时间系数对由第一数据集合、第一数据集合对应的权重值、第二数据集合、第二数据集合对应的权重值确定第五数据集合进行时间权重的添加。

在上述实施例中,基于历史交易数据确定的企业用户画像的标签能够体现出企业历史主营商品,减少了因时间因素对基于历史交易数据确定的企业用户画像的标签所产生的影响。

在上述任一实施例中,确定单元608还用于:采用训练词向量的方法,对第三数据集合中的数据进行数据挖掘,得到相似度系数;根据相似度系数对第三数据集合进行修正。

在该实施例中,考虑到第三数据集合只能体现出一部分商品的交易情况,无法体现出一类商品的交易情况,为了减少上述情况的出现,将采用训练词向量的方法,对第三数据集合中的数据进行数据挖掘,得到相似度系数,通过相似度系数对第三数据集合进行修正,以扩大第三数据集合所包含的数据,以便基于历史交易数据确定的企业用户画像的标签能够体现一类商品的交易情况,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

在上述任一实施例中,基于交易数据的企业用户画像的标签包括第一类标签和第二类标签;确定单元608具体用于:采用关键词抽取的方式从第三数据集合确定第六数据集合;采用高频词抽取的方式从第三数据集合确定第七数据集合;将第六数据集合和第七数据集合的交集中的数据作为第一类标签,将第六数据集合和第七数据集合的并集中的数据作为第二类标签。

在该实施例中,第一类标签是第六数据集合和第七数据集合的交集中的数据,即通过上述两种方法来确定的,相对于第二类标签,其包含的数据较少,因此,可以表征企业的主营商品,而第二类标签包含的数据多,故可以表征企业的所有商品,通过输出上面一类或两类商品,以便在产品采购时,可以根据该标签知悉企业的供货能力,进而便于确定最佳的采购策略。

在本发明的一个实施例中,如图7所示,基于交易数据的企业用户画像的标签确定方法包括:

(1)将交易历史数据进行分词、词性标注和命名实体识别。经过分词环节分出的所有词的词性进行筛选,例如将J41H-25DN50截止阀这个交易实体名称,经过分词如下所示:

[('J41H','eng'),('-','x'),('25','m'),(”,'x'),('DN50','eng'),('截止阀','n')],认为这个列表只有名词才能代表交易的主体实体,我们将词性为名词(n)的筛选出来形成集合A,即本申请中的第一数据集合。经过命名实体识别出的实体形成集合B,即本申请中的第二数据集合,集合A的权重设置为w1,即本申请中的第一数据集合的权重值,集合B的权重设置为w2,即本申请中的第二数据集合的权重值,如果在集合A和集合B都出现的情况,认为该实体具有更大的准确度,得到的数据集合F,其中,F=w1×A+w2×B,即为第五数据集合。

计算权重w1和w2的方法如下:

(a)业务人员将交易数据进行手动打标签,形成业务标签H,即本申请中的第四数据集合。

(b)计算标签相似度的方法采用Jaccard相似度的变形,将带有权重的标签系数带入Jaccard相似度公式。如下所示:

(c)根据最小二乘法得出参数w1和w2。

(2)由于供应商在不同时间维度内可能侧重于不同的产品种类,距离当前时间更近,认为标签代表当前主流产品的比重更大,距离当前时间越远,认为标签代表当前主流产品的比重越小,因此在标签的维度中加上时间的影响因素,设置如下标签比重,即本申请中的时间系数。

具体地,标签比重通过如下函数来设定:

图8示出了其具体的示意图,如图8所示,t表示时间,在其中一个实施例中,时间t即本申请中设定时间数据,可以选取1。

(3)对于在平台交易次数、种类较少的商家,产生较少的数据,但是实际情况供应商在相关品类具有很好的供货能力,为了更好的商机推荐,采取训练词向量的方法,挖掘语义知识,扩充标签,每个标签都有一个与原标签的相似度S,根据相似度由高递减,选取一定数量的相关标签。

(4)上述步骤,我们得到经过清洗、带有准确率、时间属性、扩充的权重标签F,如下所示:

F=(w1×A+w2×B)×k(t)×S;

采取关键词抽取以及高频词抽取的方式形成最终的基于交易数据的企业用户画像的标签。

(a)关于关键词抽取:传统提取关键词的方法是组织领域专家进行人工标注,虽然准确率高,但效率低、成本高,完全无法适应当下海量数据的处理需求。基于词图模型的textRank关键词抽取算法,不需要事先对多篇文档进行学习训练,非常适合基于历史数据的用户画像。textRank算法是无向无权图,如下所示:

其中,In(V

针对业务系统分析,我们得出的标签是带有权重的,而无权重的标签无法满足我们的需求,因此在原算法加上两个标签相关联系权重F,该系数由相互关联的标签权重相乘表示,表示当两个标签更重要时,他们之间若存在联系,则代表他们的相关权重更大,如下所示:

F

整体标签的重要性如下所示:

In(V

(b)高频词抽取:在上述算法中,侧重了基于共现的关键词抽取,而交易的高频词是更能直观上体现交易的重要程度,因此统计词频,h

(5)考虑上述总体信息,将关键词抽取和高频词抽取进行计算:

(a)当取二者交集部分,考虑则代表企业精准标签,即本申请中的第一类标签。

(b)当取二者并集部分,则代表企业交易底层标签,即本申请中的第二类标签。

通过上述流程,形成了两个维度的标签,可以运用在在不同的场景,并且每个标签都带有权重值,对于商机推荐、搜索等任务起到助力的作用。

具体地,经过测试,建立id为703号的公司的交易用户画像:

(一)近一年交易数据按照时间显示:

D型三角带D5588、防静电三角带100条、交易3V5V 9J15J 25J三角带10条、SPZJ/XPZJ三角带、郑州SPBJ三角带、SPCJ/XPCJ三角带XXX、V型带B483--B15000、6级精度高精度磨齿齿轮、交易E308-16不锈钢焊条2.5/3.2、TS-308A102 E308-16电焊条、Z408铸铁焊条成交150公斤、供给XX公司国标HS221铜铁焊条、1.5mm标准钢丝、10#钢丝(沧州)、供给潍坊XX钢丝切丸201材质、镍基焊条、需求不锈钢轴用弹性挡圈GB894C型(现货7日)、轴用弹性挡圈65猛GB894C型(成交、货款)、不锈钢轴用挡圈304弹性挡圈轴承卡簧轴用C型、304不锈钢轴用挡圈GB894M26-M70现货、M8镀黑锌轴用挡圈20000件、M8(0.01元)10000件(湖南)、供货HDXB高压石棉板(河北沧州)耐高温,耐磨损。

(二)上述各个参数如下所示:

w1=0.64、w2=0.36、d=0.85;

(三)企业交易标签:

第一维度画像:三角带(0.89)、焊条(0.87)、挡圈(0.75)、钢丝(0.74)、齿轮(0.72);

第二维度画像:三角带(0.89)、焊条(0.87)、挡圈(0.75)、钢丝(0.74)、齿轮(0.72)、石棉板(0.64)、焊丝(0.55)、橡胶三角带(0.53)、钢条(0.52)、牙轮(0.49)。

在该实施例中,具有以下有益效果:

(1)建立了从底层交易数据到形成企业用户画像标签的完整体系。

(2)经过分词和命名实体识别的训练、组合,从底层标签抽取出带有准确度的标签。

(3)将时间维度嵌入标签的抽取过程。

(4)改进textrank算法,将关键词抽取的变成有权重属性,符合客观过程。

(5)将关键词和高频词进行组合,抽取出高低两个维度的画像,用在不同场景建立基于历史交易数据的供应商的用户画像对寻源最佳采购决策、提供最佳商机提供有力的支持。

根据本发明的第三个方面,如图9所示,本发明提供了一种电子设备900,包括:存储器902,存储器902上存储有计算机程序;控制器904,控制器904执行计算机程序实现如第一方面中任一项的基于交易数据的企业用户画像的标签确定方法的步骤,具有第一方面中任一实施例提供的基于交易数据的企业用户画像的标签确定方法的全部有益技术效果,因此,本发明的实施例提供的电子设备900具有第一方面任一实施例提供的基于交易数据的企业用户画像的标签确定方法的全部有益效果,在此不一一列举。

根据本发明的第四个方面,本发明提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现:如第一方面中任一项的基于交易数据的企业用户画像的标签确定方法的步骤。具有第一方面中任一实施例提供的基于交易数据的企业用户画像的标签确定方法的全部有益技术效果,因此,本发明的实施例提供的可读存储介质具有第一方面任一实施例提供的基于交易数据的企业用户画像的标签确定方法的全部有益效果,在此不一一列举。

在本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本发明中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号