首页> 中国专利> 一种面向跨境电商的出口工厂分类方法及装置

一种面向跨境电商的出口工厂分类方法及装置

摘要

本申请提供一种面向跨境电商的出口工厂分类方法及装置,其中方法包括:获取出口工厂的参数特征;计算任意两个出口工厂之间的相似度;建立出口工厂相似度矩阵;根据出口工厂相似度矩阵,确定目标出口工厂;目标出口工厂的数量指示海量出口工厂的分类数量,目标出口工厂指示各个类别的出口工厂对应的类群的中心点;将出口工厂聚类到目标类群中;其中,出口工厂与目标类群的中心点的距离值小于出口工厂与目标类群以外的其他类群的中心点的距离值。本申请通过对于出口工厂相似度矩阵的分析计算,来确定目标出口工厂,也就是说,本申请对于出口工厂的分类数量为计算值,而非传统聚类方法中的设定值,相比之下准确性更高,聚类效果更优。

著录项

  • 公开/公告号CN113240353A

    专利类型发明专利

  • 公开/公告日2021-08-10

    原文格式PDF

  • 申请/专利权人 南京擎天全税通信息科技有限公司;

    申请/专利号CN202110781471.0

  • 发明设计人 辛颖梅;朱青;张柳松;周剑辉;

    申请日2021-07-12

  • 分类号G06Q10/06(20120101);G06K9/62(20060101);

  • 代理机构11363 北京弘权知识产权代理有限公司;

  • 代理人逯长明;许伟群

  • 地址 211800 江苏省南京市江北新区经济开发区天浦口26号

  • 入库时间 2023-06-19 12:10:19

说明书

技术领域

本申请涉及跨境电商技术领域,具体涉及一种面向跨境电商的出口工厂分类方法及装置。

背景技术

跨境电商,指分属不同关境的交易主体,通过电商平台达成交易、进行电子支付结算,并通过跨境电商物流及异地仓储送达商品,从而完成交易的一种国际商业活动。跨境电商的卖方通常不承担生产任务,而是依靠供应商所提供的产品进行商业活动,其中,供应商由于需要具有出口性质也可以被称为出口工厂。跨境电商的卖方在通过电商平台进行商业活动的过程中,为了获得较好的销售量,通常需要对出口工厂进行分类比较,择优选厂。

在选厂之前,通常是事先不知道将海量出口工厂分成哪些类别,一般根据海量出口工厂的一个或多个特征进行类别划分。在选厂过程中,首先需要根据出口工厂的一个或多个特征对海量出口工厂进行类别划分,将具有相似特征的出口工厂划分为一个类别,然后在不同类别的出口工厂中选择目标工厂。目前常采用k-means聚类方法对出口工厂进行类别划分:建立样本集,该样本集中包含多个特征值,每个特征值指示任意两个出口工厂之间的距离;在样本集中选择k个特征值作为聚类中心,每个聚类中心对应一个类别;计算每个特征值到每个聚类中心的距离;如果一个特征值到一个聚类中心的距离小于该特征值到该聚类中心以外的聚类中心的距离,则将该特征值划分到该聚类中心对应的类别中;重复前述步骤,并通过虚拟类心平移的方式计算每个聚类中心;计算标准测度函数,直至达到最大迭代次数,输出聚类结果,得到目标数目类别的出口工厂。

然而,上述类别划分方法中,一方面,最终聚类结果与设置的k值相关,而k值需要提前设置;另一方面,需要人为设置迭代次数,而迭代次数的设置具有客观性,一定程度上给聚类结果带来了误差。因此,目前亟需一种准确率较高的出口工厂分类方法,以支持跨境电商的选厂工作。

发明内容

本申请提供一种面向跨境电商的出口工厂分类方法及装置,以解决现有类别划分方法误差较大的问题。

本申请的第一方面,提供一种面向跨境电商的出口工厂分类方法,包括:

获取出口工厂的参数特征,所述参数特征包括定量参数、定性参数和半定量参数,所述定量参数包括月出口增长率,所述定性参数包括出口关区、目的国所在洲、成交方式、币值和运输方式,所述半定量参数包括HS编码的前两位数字;

根据以下公式计算任意两个出口工厂之间的相似度:

其中,

建立出口工厂相似度矩阵,所述出口工厂相似度矩阵中包含

根据所述出口工厂相似度矩阵,确定目标出口工厂;所述目标出口工厂的数量指示海量出口工厂的分类数量,所述目标出口工厂指示各个类别的出口工厂对应的类群的中心点;

将出口工厂聚类到目标类群中;其中,出口工厂与所述目标类群的中心点的距离值小于所述出口工厂与所述目标类群以外的其他类群的中心点的距离值。

可选的,根据所述出口工厂相似度矩阵,确定目标出口工厂的步骤包括:

步骤201,将所述出口工厂相似度矩阵以列为单位进行划分,获取

步骤202,计算各个所述数据集合中

步骤203,选择和值最小的数据集合对应的出口工厂作为第一潜在中心点;

步骤204,删除所述和值最小的数据集合中

步骤205,判断所述第一更新出口工厂相似度矩阵中,是否满足

步骤206,如果是,则对第一更新出口工厂相似度矩阵重新执行获取和值的操作,选择和值最小的数据集合对应的出口工厂作为第二潜在中心点;

步骤207,计算所述第一潜在中心点和所述第二潜在中心点之间的目标距离;

步骤208,判断所述目标距离是否小于预设距离阈值;

步骤209,如果是,则删除所述第一更新出口工厂相似度矩阵中,和值最小的数据 集合中

步骤2010,如果否,则将所述第一潜在中心点替换为所述第二潜在中心点,返回执行步骤204操作,将所述第一潜在中心点作为目标出口工厂。

可选的,在选择和值最小的数据集合对应的出口工厂作为第一潜在中心点之后的步骤,还包括:

选取所述第一潜在中心点以及第一数据集合中

可选的,在获取出口工厂的参数特征的步骤之前还包括:

获取各个出口工厂的出口报关单;

从所述出口报关单中获取所述参数特征。

本申请的第二方面,提供一种面向跨境电商的出口工厂分类装置,包括:

参数特征获取模块,用于获取出口工厂的参数特征,所述参数特征包括定量参数、定性参数和半定量参数,所述定量参数包括月出口增长率,所述定性参数包括出口关区、目的国所在洲、成交方式、币值和运输方式,所述半定量参数包括HS编码的前两位数字;

相似度计算模块,用于根据以下公式计算任意两个出口工厂之间的相似度:

其中,

相似度矩阵建立模块,用于建立出口工厂相似度矩阵,所述出口工厂相似度矩阵 中包含

目标出口工厂确定模块,用于根据所述出口工厂相似度矩阵,确定目标出口工厂;所述目标出口工厂的数量指示海量出口工厂的分类数量,所述目标出口工厂指示各个类别的出口工厂对应的类群的中心点;

聚类模块,用于将出口工厂聚类到目标类群中;其中,出口工厂与所述目标类群的中心点的距离值小于所述出口工厂与所述目标类群以外的其他类群的中心点的距离值。

可选的,所述目标出口工厂确定模块包括:

第二获取单元,用于将所述出口工厂相似度矩阵以列为单位进行划分,获取

第二计算单元,用于计算各个所述数据集合中

第一选取单元,用于选择和值最小的数据集合对应的出口工厂作为第一潜在中心点;

第一更新单元,用于删除所述和值最小的数据集合中

第一判断单元,用于判断所述第一更新出口工厂相似度矩阵中,是否满足

第二选取单元,用于在所述第一判断单元确定第一更新出口工厂相似度矩阵中, 满足

第三计算单元,用于计算所述第一潜在中心点和所述第二潜在中心点之间的目标距离;

第二判断单元,用于判断所述目标距离是否小于预设距离阈值;

第二更新单元,用于在所述第二判断单元确定所述目标距离小于预设距离阈值的 情况下,删除所述第一更新出口工厂相似度矩阵中,和值最小的数据集合中

替换单元,用于在所述第二判断单元确定所述目标距离不小于预设距离阈值的情况下,将所述第一潜在中心点替换为所述第二潜在中心点,返回执行第一更新单元操作,将所述第一潜在中心点作为目标出口工厂。

可选的,还包括:

第三选取单元,用于在所述第一选取单元选择和值最小的数据集合对应的出口工 厂作为第一潜在中心点之后,选取所述第一潜在中心点以及第一数据集合中

可选的,还包括:

第三获取单元,用于在第一获取单元获取出口工厂的参数特征之前,获取各个出口工厂的出口报关单;

第四获取单元,用于从所述出口报关单中获取所述参数特征。

由以上技术方案可知,本申请提供一种面向跨境电商的出口工厂分类方法及装置,所述方法包括:获取出口工厂的参数特征;计算任意两个出口工厂之间的相似度;建立出口工厂相似度矩阵;根据所述出口工厂相似度矩阵,确定目标出口工厂;所述目标出口工厂的数量指示海量出口工厂的分类数量,所述目标出口工厂指示各个类别的出口工厂对应的类群的中心点;将出口工厂聚类到目标类群中;其中,出口工厂与所述目标类群的中心点的距离值小于所述出口工厂与所述目标类群以外的其他类群的中心点的距离值。本申请通过对于出口工厂相似度矩阵的分析计算,来确定目标出口工厂,也就是说,本申请对于出口工厂的分类数量为计算值,而非传统聚类方法中的设定值,相比之下准确性更高,聚类效果更优。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种面向跨境电商的出口工厂分类方法的工作流程图;

图2为本申请实施例提供的一种面向跨境电商的出口工厂分类方法中,确定目标出口工厂的工作流程图;

图3为本申请实施例提供的一种面向跨境电商的出口工厂分类装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

如背景技术中所述的在选厂之前,通常是事先不知道将海量出口工厂分成哪些类别,一般根据海量出口工厂的一个或多个特征进行类别划分。在选厂过程中,首先需要根据出口工厂的一个或多个特征对海量出口工厂进行类别划分,将具有相似特征的出口工厂划分为一个类别,然后在不同类别的出口工厂中选择目标工厂。目前常采用k-means聚类方法对出口工厂进行类别划分:建立样本集,该样本集中包含多个特征值,每个特征值指示任意两个出口工厂之间的距离;在样本集中选择k个特征值作为聚类中心,每个聚类中心对应一个类别;计算每个特征值到每个聚类中心的距离;如果一个特征值到一个聚类中心的距离小于该特征值到该聚类中心以外的聚类中心的距离,则将该特征值划分到该聚类中心对应的类别中;重复前述步骤,并通过虚拟类心平移的方式计算每个聚类中心;计算标准测度函数,直至达到最大迭代次数,输出聚类结果,得到目标数目类别的出口工厂。然而,上述类别划分方法中,一方面,最终聚类结果与设置的k值相关,而k值需要提前设置;另一方面,需要人为设置迭代次数,而迭代次数的设置具有客观性,一定程度上给聚类结果带来了误差。

因此,为了解决上述问题,本申请实施例部分提供了一种面向跨境电商的出口工厂分类方法,图1所示为本申请实施例提供的一种面向跨境电商的出口工厂分类方法的工作流程图。如图1所示,所述分类方法包括以下步骤:

步骤101,获取出口工厂的参数特征,所述参数特征包括定量参数、定性参数和半定量参数,所述定量参数包括月出口增长率,所述定性参数包括出口关区、目的国所在洲、成交方式、币值和运输方式,所述半定量参数包括HS编码的前两位数字。

由于出口工厂除了承担提供产品的任务以外,通常还需要承担与产品相关的物流、海外仓储等任务。因此跨境电商的卖方在择优选厂的过程中,除了考虑出口工厂能否生产目标产品以外,通常还需要考虑多方面的因素,例如,出口工厂所提供的产品能否出口到目标国家,或者在目标国家的销量如何,等等。这些因素关系到选厂是否准确,因此,在对出口工厂进行分类之前,需要确定合适的与出口工厂的产品相关的因素,即参数特征。

本申请实施例中,选择以出口报关单作为参数特征的数据源,具体原因如下:

(1)出口报关行为代表着当前出口工厂的真实出口行为,而出口报关单作为海关出具的相关单据,其权威性可以得到相应的保证。

(2)出口报关单中涉及的信息相对较为全面,不仅涉及当前出口产品的具体产品信息,例如:产品名称、FOB(Free On Board,离岸价)出口价格、产品规格型号的描述信息等。同时包括当前出口产品对应的供应商单位信息和出口国别信息,这些信息更加方便跨境电商中小企业进行分类挑选。

由此可知,在获取出口工厂的参数特征的步骤之前还包括以下步骤:获取各个出口工厂的出口报关单;从所述出口报关单中获取所述参数特征。

对于一个出口工厂来说,存在的参数特征主要有三种,分别为定量参数、定性参数和半定量参数。对于定量参数而言,例如:年出口额、月出口额、出口增长率、出口金额方差、年出口金额极差等,这些定量参数都是根据单位时间的工厂出口量进行加工计算所得,从聚类效果而言,需要聚类选择的定量参数尽可能独立,避免相互影响的参数导致最终结果由于属性权重的原因而导致偏差,所以需要根据这一类定量参数的特点选择其中一个作为最终的聚类参数,由于所有参数都来源于出口工厂的单位时间出口金额,同时本申请实施例又不希望工厂规模对于聚类结果产生影响,所以最终选择月出口增长率z作为对于工厂出口量的描述参数。定性参数则是指工厂出口行为描述的参数,在这里也可以称之为出口环境参数,这里选择了以下5项作为环境参数,出口关区、目的国所在洲、成交方式、币值、运输方式,这些环境参数的特点是通过这5项参数可以基本描述当前出口工厂的常见出口贸易方式和对象。最后一种参数为半定量参数,这里用以描述出口工厂的主营商品归属,我们通过商品的HS编码的前两位作为当前主营商品的归属值,利用HS编码本身具备编码值差距越小,本身商品相似度越高的特点,所以在这里将依据于HS编码前两位确定的主营商品种类当作为半定量参数进行计算。

步骤102,根据以下公式计算任意两个出口工厂之间的相似度:

其中,

本申请实施例中,定量参数和半定量参数均为数值类型的参数,可以直接参与计算,而定性参数不是数值类型的参数,在计算任意两个出口工厂之间的相似度时,将不相同的定性参数之间的相似度全部定义为1,相同的定性参数之间的相似度全部定义为0,五个定性参数之间的相加的和进行归一化后的数值即为两个出口工厂在定性参数上的相似度。

该步骤中,采用以下公式进行归一化:

其中,

步骤103,建立出口工厂相似度矩阵,所述出口工厂相似度矩阵中包含个矩阵元素,其中,和分别是出口工厂相似度矩阵的行数和列数,矩阵元素指示所述出口工厂相似度矩阵中第个出口工厂和第个出口工厂之间的距离值,第个出口工厂和第个出口工厂之间的距离值与相似度成反比。

该步骤中,出口工厂相似度矩阵

该出口工厂相似度矩阵是本申请实施例提供的分类方法的基础数据,基于该出口工厂相似度矩阵进行一系列运算,最终实现对于出口工厂的准确分类。

步骤104,根据所述出口工厂相似度矩阵,确定目标出口工厂;所述目标出口工厂的数量指示海量出口工厂的分类数量,所述目标出口工厂指示各个类别的出口工厂对应的类群的中心点。

参考图2所示的工作流程图,根据所述出口工厂相似度矩阵,确定目标出口工厂包括以下步骤:

步骤201,将所述出口工厂相似度矩阵以列为单位进行划分,获取个数据集合。

步骤202,计算各个所述数据集合中

步骤203,选择和值最小的数据集合对应的出口工厂作为第一潜在中心点。

该步骤中,第一潜在中心点对应的

可选的,在步骤203之后还包括步骤2011:选取所述第一潜在中心点以及第一数据 集合中

这里需要指出,第一类群并非只包含第一潜在中心点以及第一数据集合中

步骤204,删除所述和值最小的数据集合中

该步骤中,由于在步骤203中已经确定第一潜在中心点以及

步骤205,判断所述第一更新出口工厂相似度矩阵中,是否满足

该步骤中,由于步骤204删除了行或列上的矩阵元素,即第一更新出口工厂相似度 矩阵与原始出口工厂相似度矩阵相比矩阵元素的数量在缩小,由于每次计算时,均需要计 算数据集合中

步骤206,如果是,则对第一更新出口工厂相似度矩阵重新执行获取和值的操作,选择和值最小的数据集合对应的出口工厂作为第二潜在中心点。

步骤207,计算所述第一潜在中心点和所述第二潜在中心点之间的目标距离。

步骤208,判断所述目标距离是否小于预设距离阈值。

该步骤中,预设距离阈值

如果目标距离小于预设距离阈值,则说明第一潜在中心点和第二潜在中心点之间的距离足够小,也就是说,第一潜在中心点和第二潜在中心点对应的出口工厂同属于一个类群,则执行步骤209的操作;反之,则说明第一潜在中心点和第二潜在中心点之间的距离比较远,也就是说,第一潜在中心点和第二潜在中心点对应的出口工厂不同属于一个类群,即,第二潜在中心点对应的出口工厂可能为另一类群的中心点,则执行步骤2010的操作。

步骤209,如果是,则删除所述第一更新出口工厂相似度矩阵中,和值最小的数据 集合中

该步骤中,由于第一潜在中心点和第二潜在中心点对应的出口工厂同属于一个类 群,那么在更新出口工厂相似度矩阵时,只需删除与第二潜在中心点对应的出口工厂,即, 和值最小的数据集合中

步骤2010,如果否,则将所述第一潜在中心点替换为所述第二潜在中心点,返回执行步骤204操作,将所述第一潜在中心点作为目标出口工厂。

本申请实施例通过步骤201到步骤2010的操作,搜索出出口工厂相似度矩阵中,存在的目标出口工厂,将目标出口工厂的数量作为海量出口工厂的分类数量。

步骤105,将出口工厂聚类到目标类群中;其中,出口工厂与所述目标类群的中心点的距离值小于所述出口工厂与所述目标类群以外的其他类群的中心点的距离值。

由以上技术方案可知,本申请实施例提供一种面向跨境电商的出口工厂分类方法,包括:获取出口工厂的参数特征;计算任意两个出口工厂之间的相似度;建立出口工厂相似度矩阵;根据所述出口工厂相似度矩阵,确定目标出口工厂;所述目标出口工厂的数量指示海量出口工厂的分类数量,所述目标出口工厂指示各个类别的出口工厂对应的类群的中心点;将出口工厂聚类到目标类群中;其中,出口工厂与所述目标类群的中心点的距离值小于所述出口工厂与所述目标类群以外的其他类群的中心点的距离值。本申请通过对于出口工厂相似度矩阵的分析计算,来确定目标出口工厂,也就是说,本申请对于出口工厂的分类数量为计算值,而非传统聚类方法中的设定值,相比之下准确性更高,聚类效果更优。

以下通过一个具体案例说明采用本申请实施例提供的分类方法进行聚类的效果。

收集300家江苏出口工厂2016-2019年出口相关数据,进行聚类分析,结果如下:

表1 出口工厂聚类结果

表1为根据当前的300家江苏出口工厂4年的出口数据,根据本文提出的改进的聚类算法,最终形成了4个聚类结果。总体上来看,不论是z值和HS的标准差值还是g值的离散系数,类别3的数值波动相对其他3个类别来说都较小,而类别4则与之相反,在不同参数值上都存在着较大的波动。进一步分析发现,类别3的出口工厂主要产品组成为各类化工制品,HS编码的前两位主要集中于25-30、34-35。类别4的出口工厂主要产品组成为各类生产的原材料产品,HS编码的前两位主要集中于39-47、68-80、86-87。在进行选厂时,可根据各个类别的出口工厂的特性逐步缩小选择范围,最终选择到合适的出口工厂作为供应商。

参考图3所示的结构示意图,本申请实施例提供一种面向跨境电商的出口工厂分类装置,包括:

参数特征获取模块100,用于获取出口工厂的参数特征,所述参数特征包括定量参数、定性参数和半定量参数,所述定量参数包括月出口增长率,所述定性参数包括出口关区、目的国所在洲、成交方式、币值和运输方式,所述半定量参数包括HS编码的前两位数字;

相似度计算模块200,用于根据以下公式计算任意两个出口工厂之间的相似度:

其中,

相似度矩阵建立模块300,用于建立出口工厂相似度矩阵,所述出口工厂相似度矩 阵中包含

目标出口工厂确定模块400,用于根据所述出口工厂相似度矩阵,确定目标出口工厂;所述目标出口工厂的数量指示海量出口工厂的分类数量,所述目标出口工厂指示各个类别的出口工厂对应的类群的中心点;

聚类模块500,用于将出口工厂聚类到目标类群中;其中,出口工厂与所述目标类群的中心点的距离值小于所述出口工厂与所述目标类群以外的其他类群的中心点的距离值。

可选的,所述目标出口工厂确定模块包括:

第二获取单元,用于将所述出口工厂相似度矩阵以列为单位进行划分,获取

第二计算单元,用于计算各个所述数据集合中

第一选取单元,用于选择和值最小的数据集合对应的出口工厂作为第一潜在中心点。

第一更新单元,用于删除所述和值最小的数据集合中

第一判断单元,用于判断所述第一更新出口工厂相似度矩阵中,是否满足

第二选取单元,用于在所述第一判断单元确定第一更新出口工厂相似度矩阵中, 满足

第三计算单元,用于计算所述第一潜在中心点和所述第二潜在中心点之间的目标距离;

第二判断单元,用于判断所述目标距离是否小于预设距离阈值。

第二更新单元,用于在所述第二判断单元确定所述目标距离小于预设距离阈值的 情况下,删除所述第一更新出口工厂相似度矩阵中,和值最小的数据集合中

替换单元,用于在所述第二判断单元确定所述目标距离不小于预设距离阈值的情况下,将所述第一潜在中心点替换为所述第二潜在中心点,返回执行第一更新单元操作,将所述第一潜在中心点作为目标出口工厂。

可选的,还包括:

第三选取单元,用于在所述第一选取单元选择和值最小的数据集合对应的出口工 厂作为第一潜在中心点之后,选取所述第一潜在中心点以及第一数据集合中

可选的,还包括:

第三获取单元,用于在第一获取单元获取出口工厂的参数特征之前,获取各个出口工厂的出口报关单;

第四获取单元,用于从所述出口报关单中获取所述参数特征。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。

以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号