首页> 中国专利> 一种基于大数据技术的高精度物流企业客户画像方法

一种基于大数据技术的高精度物流企业客户画像方法

摘要

一种基于大数据技术的高精度物流企业客户画像方法,结合数据库的信息和多源异构爬虫的综合方式对用户数据进行收集,对原始数据进行预处理;根据收集到的用户数据发掘隐性特征,使用密度聚类算法对用户群分类,将分类的用户根据获取的隐性特征进行打分分类,再根据结果将用户分为三类用户;使用樽海鞘群算法优化的卷积神经网络对用户的包裹进行分类,同时采用激活函数以及根据网络过滤器的分值情况对网络进行修改,将包裹按三个维度进行分类,构建用户包裹的特征维度;根据用户的包裹和个人信息,完成用户数据标签化,生成高精度客户画像;从物流企业的角度出发,针对物流客户结合用户包裹进行画像,为物流企业提供更精准的客户画像。

著录项

  • 公开/公告号CN114881678A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 南京邮电大学;

    申请/专利号CN202210230157.8

  • 申请日2022-03-10

  • 分类号G06Q30/02(2012.01);G06Q10/08(2012.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构南京苏科专利代理有限责任公司 32102;

  • 代理人姚姣阳

  • 地址 210023 江苏省南京市栖霞区亚东新城区文苑路9号

  • 入库时间 2023-06-19 16:17:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06Q30/02 专利申请号:2022102301578 申请日:20220310

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明属于客户画像技术领域,具体涉及一种基于大数据技术的高精度物流企业客户画像方法。

背景技术

随着经济全球化和物流信息化的发展,我国物流企业逐步扩大了服务范围,从早期的仓储和运输业务转向综合服务,同时在企业用户也对物流园区产生了更多的需求,这无疑给物流企业的管理和服务带来了新的挑战。物流企业在掌握了大量的用户业务行为信息的前提下,在更好地服务用户的基础上,想要制定相应的精准营销,业务推荐和个性化服务方案,则需要构建用户画像,分析用户的业务特征和业务偏好,以优化对用户的管理,制定精准的营销手段和策略,主动为用户提供个性化服务。

企业构建客户画像对企业而言具有重大的意义,在掌握了大量的用户业务行为信息的前提下,在更好地服务用户的基础上,想要制定相应的精准营销,业务推荐和个性化服务方案,则需要对物流企业构建用户画像,分析用户的业务特征和业务偏好。构建客户画像不仅可以优化企业用户体验,还可以实现精准营销。通过每个用户的仓储品类、仓储量、加工量等数据进行分析和挖掘构建用户画像,用数据还原用户的真实需求,从而设计出更加符合用户需要的服务和产品,为用户提供更好的体验,进而提升物流企业的效率,创造更多的经济价值。而企业在日常的经营活动积累了大量的业务数据,这些数据的来源相对可靠,数据获取简便,数据更新及时,为构建用户画像模型提供了数据支撑。通过这些精准信息建立数据挖掘分析模型,建立完整的用户画像模型体系,能够更加有效全面地了解用户,并实现精细化、集约化和标准化营销。密度聚类算法能够识别任意形状的聚类簇,且对处理异常数据有较好的效果,而卷积神经网络和条件对抗生成网络分别在文本分类上可以更好地对用户的信息进行区分以及对用户的缺失信息进行更精准的填补,本发明结合以上技术以及相关的改进技术,从物流企业的角度出发,针对物流客户结合用户包裹进行画像,为物流企业提供更精准的客户画像。

发明内容

本发明所要解决的技术问题是克服现有技术的不足,提供一种基于大数据技术的高精度物流企业客户画像方法,通过大数据技术进行处理,抽取用户标签完成高精度的用户画像,通过收集用户数据,再对收集来的原始数据进行预处理,挖掘用户的隐性特征,通过多维度结合对用户群进行划分,以实现用户分类,使用改进的密度聚类算法对每一类用户的特征进行分析,总结出用户类型标签,选择数据标签后,生成用户的高精度画像优化企业用户体验的同时实现企业的精准营销。

本发明提供一种基于大数据技术的高精度物流企业客户画像方法,包括如下步骤,

步骤S1.对用户数据进行收集并处理,结合数据库已有的信息和多源异构爬虫的综合方式对用户数据进行收集,对原始数据进行预处理,通过自适应的条件生成对抗网络对将原始数据中的缺失的数据进行填补,对错误的数据以及重复的数据分别进行删除;

步骤S2.根据收集到的用户数据发掘隐性特征,使用密度聚类算法对用户群分类,将分类的用户根据获取的隐性特征进行打分分类,再根据得到的结果将用户分为高级用户、中级用户、一般用户;

步骤S3.使用樽海鞘群算法优化的卷积神经网络对用户的包裹进行分类,同时采用激活函数以及根据网络过滤器的分值情况对网络进行修改,将包裹按重量、易损程度、紧急程度三个维度进行分类,构建用户包裹的特征维度;

步骤S4.根据用户的包裹和用户个人信息,完成用户数据标签化,生成高精度客户画像。

作为本发明的进一步技术方案,密度聚类算法中引入了一个密度指标ω,指标为

其中M为数据集中的点数,K为期望的聚类数,α取值范围为0-1之间,ω为计算每个点的局部密度所用的临近点个数,同时引用一个阈值n

设置决策函数γ完成聚类:

其中,δ

进一步的,密度聚类算法的具体步骤为,

步骤S21.输入用户数据集S={x1,x2,…,xN},使用阈值nc,聚类数K,获取临近点ω;

步骤S22.将获取的临界点ω通过无核方式计算各样本点的局部密度p

步骤S23.通过决策函数γ计算各样本点的γ值;

步骤S24.计算选择各样本点的距离δ

步骤S25.利用各点降序排列的将各点γ值进行降序排列,选择前k个作为聚类中心;

步骤S26.计算非聚类中心点到各中心点的距离的取最小值,该值小于使用阈值则分配到同一簇中,否则就舍弃该点,对各点逐一进行处理,最后确定各点最终的归属,完成聚类。

进一步的,步骤S1中,自适应的条件生成对抗网络包括生成器、辅助分类器和鉴别器,生成器的损失函数为:

鉴别器损失函数为:

其中,m为数据缺失指标,当该数据缺失时m=0,否则m=1;α和β为0到1之间的系数,C(x)为辅助分类器的输出,(xR

进一步的,样本数据的缺失率采取了加权计算方法,增强前5个数据的权重,其计算方式为

其中,m为丢失标志,当数据丢失时m=0,否则m=1。

进一步的,通过损失函数自适应地调整学习率,在每个训练时期以若干个学习率独立执行训练,并且将得到最小训练损失的学习率作为每个时期学习率,学习率之间的关系为

η

其中,r

其中,η

进一步的,改进后的条件生成对抗网络,包括如下步骤,

步骤S11.首先对模型的参数进行初始化,计算样本数据n的丢失率并按升序排列;

步骤S12.选择前λn个数据(0<λ<1)作为预处理数据输入到生成网络中进行训练,得到样本数据;将生成的样本数据η

步骤S13.通过聚类算法将训练后的结果进行聚类,并得到数据的标签,通过该标签数据来训练的辅助分类器;

步骤S14.使用整个数据集继续对生成器和鉴别器进行训练,同时使用预先训练好的分类器来约束生成器,使其满足新的目标函数,使用随机梯度下降法对参数再次进行更新,直到鉴别器无法分出生成器与真实数据的差别;

步骤S15.完成训练,获取改进的条件对抗网。

进一步的,海鞘群算法引入了新的计算因子,新的计算因子u为

p=λe

其中,p为指数概率值,λ为变异操作平均次数的倒数;

由此产生的最终方程G(u)为

由于控制参数c2和c3为均匀分布的随机数,所以通过将其中一个控制参数c3替换为

其中,c2为[0,1]之间的随机数,ub和lb分别为个体在该维度的上届和下界。

进一步的,领导者的更新方式为

追随者的更新方式为

其中,β为0-1之间的随机数,

进一步的,樽海鞘群算法改进后步骤如下,

步骤S31.初始化参数,樽海鞘个体的初始位置,最大迭代次数t

步骤S32.计算所有个体适应度值,并计算适应度的平均值,同时根据适应度进行个体排序,选取当前最优个体作为精英个体;

步骤S33.建立樽海鞘链,按照适应度值优劣,降序排序种群个体建立樽海鞘群链,前半部分个体为领导者,后半部分为跟随者,计算樽海鞘指数概率值;

步骤S34.更新精英个体位置,选取当前适应度最优个体为精英个体S(t);

步骤S35.更新领导者位置,随机选取领导个体

步骤S36.更新跟随者位置,随机选取种群个体

步骤S37.判定优化结束条件,若迭代次数已达到t

本发明的优点在于,通过物流企业目前已有的数据通过大数据技术进行处理,抽取用户标签完成高精度的用户画像,通过收集用户名、用户类型、用户发货批量、用户寄件收件时间等可以用来使用的用户数据,再对对收集来的原始数据进行预处理,挖掘用户的隐性特征,通过多维度结合对用户群进行划分,以实现用户分类,使用改进的密度聚类算法对每一类用户的特征进行分析,总结出用户类型标签,选择数据标签后,生成用户的高精度画像优化企业用户体验的同时实现企业的精准营销。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

请参阅图1,本实施例提供本发明一种基于大数据技术的高精度物流企业客户画像方法,包括以下步骤:

步骤1:对用户数据进行收集并处理。结合企业数据库已有的信息和多源异构爬虫的综合方式对用户数据进行收集,同时对原始数据进行预处理,通过自适应的条件生成对抗网络对将原始数据中的缺失的数据进行填补,对错误的数据以及重复的数据分别进行合理的删除操作,转变为可用数据,提升建模的精度。

步骤2:根据收集到的用户数据发掘其中的寄件频率、收件频率以及平均消费额等隐性特征,使用改进的密度聚类算法对用户群分类,将分类的用户根据得到的隐性特征进行打分分类,再根据得到的结果将用户分为高级用户、中级用户、一般用户。

步骤3:使用改进的樽海鞘群算法优化的改进卷积神经网络对用户的包裹进行分类,同时采用新的激活函数以及根据网络过滤器的分值情况对网络进行合理的修改,使网络能够更好地对用户的包裹进行分类。将包裹按重量、易损程度、紧急程度三个维度进行分类,构建用户包裹的特征维度。

步骤4:结合用户的包裹和用户个人信息,完成用户数据标签化,生成高精度客户画像。据用户特征可以构建用户特征维度,通过多个维度对用户群进行划分,以实现用户分类,选择数据标签后,生成的画像可以通过可视化的形式进行展示。

传统的密度聚类算法中,需要人工定义一个截断距离d

其中M为数据集中的点数,K为期望的聚类数,α取值范围为0-1之间,用来对指标进行微调,ω表示计算每个点的局部密度所用的临近点个数,同时引用一个阈值n

因此,局部密度p

其中

同时设置了新的决策函数γ完成高精度和强鲁棒性的聚类:

其中δ

改进后的密度聚类算法步骤如下:

1)输入用户数据集S={x1,x2,…,xN},使用阈值nc,聚类数K。由式(2-1)得到临近点ω;

3)将计算得到的临界点通过新的新的无核方式(2-2)计算各样本点的局部密度p

4)根据式(2-3)计算选择各样本点的距离δ

5)通过新的决策函数γ(2-4)计算各样本点的γ值;

6)利用各点降序排列的将各点γ值进行降序排列,选择前k个作为聚类中心;

7)计算非聚类中心点到各中心点的距离的取最小值,该值小于使用阈值则分配到同一簇中,否则就舍弃该点,对各点逐一进行处理,最后确定各点最终的归属,完成聚类。

这种自适应的条件生成对抗网络利用不完整数据中隐含的类别信息进一步提高生成对抗网络的质量,设计了一个辅助分类器和鉴别器,以帮助生成器产生更加接近于真实数据的结果,同时保留了数据原本的类别信息,在算法原有的损失函数中引入了新的控制项,生成器的损失函数为:

鉴别器损失函数为:

其中m是数据缺失指标,当该数据缺失时m=0,否则m=1;α和β为0到1之间的系数,C(x)表示辅助分类器的输出,(x

4.根据权利要求3所述的改进条件生成对抗网络,其特征还在于:

样本数据的缺失率采取了新的加权计算方法,在固定的缺失率下,数据集中每个样本的缺失也是不同的,为了方便后续快递用户数据标签的计算,增强前5个数据的权重,其计算方式如下:

其中m为丢失标志,当数据丢失时m=0,否则m=1。

通过损失函数来自适应地调整学习率,在每个训练时期以多个学习率独立执行训练,并且将得到最小训练损失的学习率用作每个时期学习率,学习率之间的关系可表示如下:

η

其中r

其中η

改进后的条件生成对抗网络步骤如下:

(1)首先对模型的参数进行初始化,计算样本数据n的丢失率(4-1)并按升序排列。

(2)选择前λn个数据(0<λ<1)作为预处理数据输入到生成网络中按照式子(3-1)进行训练,得到样本数据;将生成的样本数据n

(3)通过聚类算法将训练后的结果进行聚类,并得到数据的标签,通过该标签数据来训练的辅助分类器。

(4)使用整个数据集继续对生成器和鉴别器进行训练,同时使用预先训练好的分类器来约束生成器,使其满足新的目标函数(3-2),使用随机梯度下降法对参数再次进行更新,直到鉴别器无法分出生成器与真实数据的差别。

(5)完成训练,得到改进的条件对抗网络。

这种改进的樽海鞘群算法引入了新的计算因子来实现领导者位置更新,增强全局搜索能力,新的计算因子u如下:

p=λe

其中p是指数概率值,λ是变异操作平均次数的倒数。

由此产生的最终方程G(u)为:

此外,由于控制参数c2和c3为均匀分布的随机数,这些参数使得优化收敛时间较长,所以通过将其中一个控制参数c3替换为下式来对樽海鞘群算法进行改进:

其中c2为[0,1]之间的随机数,和分别为个体在该维度的上届和下界。通过得到的最终方程和c2的计算方程来替代原方程中的另一个参数,减少参数的个数,使搜索更有针对性,并显着减少所需的时间,同时提高准确性和精确度。

领导者的更新方式为:

其中

追随者的更新方式为:

其中β是0-1之间的随机数,

改进后的算法步骤如下:

(1)初始化参数,樽海鞘个体的初始位置,最大迭代次数t

(2)计算所有个体适应度值,并计算适应度的平均值,同时根据适应度进行个体排序,选取当前最优个体作为精英个体;

(3)建立樽海鞘链,按照适应度值优劣,降序排序种群个体建立樽海鞘群链,前半部分个体为领导者,后半部分为跟随者,计算樽海鞘指数概率值

(4)更新精英个体位置,选取当前适应度最优个体为精英个体S(t);

(5)更新领导者位置,随机选取领导个体

(6)更新跟随者位置,随机选取种群个体

(7)判定优化结束条件,若迭代次数已达到t

使用改进的樽海鞘群算法优化的卷积神经网络对客户的包裹进行更精准的分类,提高分类效果,在卷积神经网络中引入了调整层,使网络的权值在训练结束以后在输入数据时依然可以进行自适应的变换,提升网络的分类能力和鲁棒性,加入调整层后对权值的调整形式为:

其中α是用于调整加法的系数,

其中z

提出了新的激励函数,改善目前已有的激活函数出现的模型收敛速度慢等问题,提出的激活函数f(x)如下:

将提出的激活函数与已经有S函数进行结合,避免由于客户数据特征的稀疏性引起的数据信息不足,组合函数如下:

新函数构建的卷积神经网络中,卷积层后面使用S函数,全连接层采用新设计的f(x)作为激活函数的网络结构。

新增了根据池化层生成的特征对卷积过滤器进行性能评估,进行在线修剪网络结构的方法,对低分滤波器中的单词进行修剪,防止网络结构过度增长导致学习收敛速度与能力下降。修剪评价指标定义如下:

其中i表示全连接层的指标,m为输出层的神经元数,w

对低分滤波器中的单词进行删减,同时对周围的神经元权值进行更新,使网络的模型更加精准,修剪后的神经元参数更新如下:

其中v为距神经元s欧氏距离最小的神经元;k

对卷积神经网络初始权值和偏置向量的调整步骤如下:

(1)初始化参数:初始化参数,樽海鞘个体的初始位置,最大迭代次数t

(2)计算所有个体适应度值,并计算适应度的平均值,同时根据适应度进行个体排序,选取当前最优个体作为精英个体;

(3)建立樽海鞘链,按照适应度值优劣,降序排序种群个体建立樽海鞘群链,前半部分个体为领导者,后半部分为跟随者,计算樽海鞘指数概率值;

(4)更新精英个体位置,选取当前适应度最优个体为精英个体S(t);

(5)更新领导者位置,随机选取领导个体

(6)检查新位置的可行性,评估新位置,更新记忆;

(7)判断当前的循环迭代次数是否满足条件,若不满足,返回至步骤(2),否则,迭代终止,输出当前最优解ω、b。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号