公开/公告号CN116681461A
专利类型发明专利
公开/公告日2023-09-01
原文格式PDF
申请/专利权人 广州中康数字科技有限公司;
申请/专利号CN202310642951.8
申请日2023-06-01
分类号G06Q30/0202(2023.01);G06F16/215(2019.01);G06F18/213(2023.01);G06F18/24(2023.01);G06F18/10(2023.01);
代理机构广州德伟专利代理事务所(普通合伙) 44436;
代理人黄浩威
地址 510000 广东省广州市南沙区黄阁镇望江二街5号1111房(仅限办公)
入库时间 2024-01-17 01:27:33
法律状态公告日
法律状态信息
法律状态
2023-09-19
实质审查的生效 IPC(主分类):G06Q30/0202 专利申请号:2023106429518 申请日:20230601
实质审查的生效
2023-09-01
公开
发明专利申请公布
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于线下药品零售市场分层分级放大方法。
背景技术
当前,线下药品零售对于行业未来的预测,通常采用自上而下的预测方案,先通过一些第三方市场分析和统计报告来确定整体数据,再从业务角度对市场进行层层细分,然后通过PEST分析模型从政治、经济、文化、人口、技术、自然等各个方面寻找未来影响行业的主要因素,以及最重要的因素对未来行业增速的影响,从而确认行业未来的成长空间。现有的方案能一定程度上满足商业应用,但存在着诸多不足:
1、数据颗粒度太粗,往往只是某个维度的总体数据。
2、滞后严重,数据来源滞后。
3、健壮性较差,容易受抽样不确定影响。
4、真实性不高,数据来源不稳定且受研究员主观影响较大。
5、适用场景不多,由于维度的限制,不支持更细维度或多维交叉研究。
6、专家决策较多,人脑输出比较较高。
发明内容
针对现有技术的不足,本发明旨在提供一种基于线下药品零售市场分层分级放大方法。
为了实现上述目的,本发明采用如下技术方案:
一种基于线下药品零售市场分层分级放大方法,具体过程为:
S1、建立总体:
S1.1、药店数据采集:从相关部门处采集药店数据源,以药店数据中的药店名称作为关键词采集药店的工商数据进行基础属性补充;
S1.2、数据清洗;
S1.3、建立药店数据库:药店数据清洗完成后,生成全国线下零售药店主数据库;该数据库有着标准的药店编码、多个标准化标签和抽样门店的映射关系;
S1.4、药店真实性、唯一性校验
S1.4.1、、药店准入:通过药品经营企业、定点零售药店、医保谈判药品配备机构、O2O直送店、合作连锁样本门店、地图药店POI中的一个或多个对药店准入进行校验;
S1.4.2、位置信息校验:通过地图POI接口校验药店真实性及补充地址位置信息;
S1.4.3、重复门店合并:建立重复门店映射,重复门店的相关标签会进行传递,工商信息取成立时间最晚的门店的工商信息,成立时间更新为重复门店里的最早的成立时间;
S1.5、特征工程:
1.5.1、特征转换:
对采集门店和抽样门店原始的特征变量进行转换处理以获取有用的信息,进行连续变量、离散变量、时间序列的转换;
1.5.2、特征选择
数据的特征变量可能过多或无效,通过特征选择以减少特征数量、实现特征降维,使模型泛化能力更强,减少过拟合,增强对特征和特征值之间的理解;
S1.6、建立预测
以单一算法分别建立数据特征与药店销售潜力的映射关系,使用AutomatedbyTPOT评估各单一算法的预测效果,最终融合多算法输出预测结果;
S1.7、模型参数优化:调整模型参数以优化预测结果;
S1.8、结果审核:评估多算法预测效果,输出最终预测结果;
最后预测出采集门店的销售潜力,药店分级完成市场总体定义;
S2、设计样本框:
按城市区域、药店类型、门店销售等级对药店进行划分:
(1)按城市区域划分:每个城市独立一个区域,在区域内进行分层,根据分层对药店进行划分;
(2)按药店类型划分:按照药店类型将药店划分为医院附近店、居民区店、商业街店和DTP药店;
(3)门店销售等级划分:销售额达100万/月以上划分为A+级,销售额达30万/月以上但未达到100万/月为A级,销售额在15万/月以上但未达30万/月划分为B级,销售额在5万/月以上但未达15万/月划分为C级,销售额<5万/月划分为D级;
其中,分别医院附近店、居民区店、商业街店中门店销售等级为A级、B级、C级、D级作为一个基础模块,得到十二个基础模块,DTP药店作为一个独立的基础模块,A+级的药店独立作为一个基础模块,因此将药店划分得到一共十四个模块;
S3、门店抽样
S3.1、抽样方法
S3.1.1、分层随机抽样:分层随机抽样,又称类型随机抽样,它是先将总体各单位按一定标准分成各种类型;然后根据各类型单位数与总体单位数的比例,确定从各类型中抽取样本单位的数量;最后,按照随机原则从各类型中抽取样本;
S3.1.2、便利性抽样:在分层随机抽样的基础上,当部分样本药店不能顺利采集到数据时,则采取便利性抽样进行补充,找到与之相似的的药店进行替代;
S3.2、样本收集
利用电脑系统进行,对全部样本药店从零售终端POS系统报数,获取对对消费者的销售数据;对2/3的样本药店,对接连锁ERP系统,采集每张小票的交易记录,准确度高;对1/3的样本药店,采集连锁提供的月度电子报表,通过交换数据和购买数据获取,从连锁POS系统报数,获取对消费者的销售数据;
S4、对于步骤S3收集到样本门店的信息进行标准化处理;
S5、数据清洗:
对于步骤S3收集到样本门店的信息进行装换清洗,处理脏数据,并映射到药店数据库;
S6、确定样本框:
S6.1、选取真实销售的门店,排除虚假销售的门店;
S6.2、选取连续两期的样本店
S6.3、成熟城市固定样本框
S6.3.1、选取指标:通过GSM模型,选取5个一级指标,12个二级指标,厘清影响城市成熟度的影响因素;
S6.3.2、确定指标权重:给多位业务专家发放权重调查问卷,使用AHP算法进行一致性判断,加权综合多位专家的打分,最终确认每个指标的权重;
S6.3.3、计算评分:标准化后每个城市各个指标的值,与指标权重加权求和,再0-1标准化计算每个城市的评分;
S6.4、城市分级管理:对城市分成A、B、C、D四个等级,用于对不同的城市采用不用的样本框处理机制;
其中,A级城市的数据样本丰富,抽样率充足,放大数据基本满足市场检验;B级城市的数据样本缺失某些基础模块,抽样率充足,放大数据基本满足市场检验;C级城市的数据样本缺失某些基础模块,抽样率一般,放大数据基本满足市场检验;D级城市的数据样本缺失某些基础模块,抽样率不足,放大数据市场挑战大;
对于A级城市,稳定样本框,每月只对流失门店,寻找替补店,数据在QC后完全放开;对于B级城市,稳定充足的样本框,每月只对流失门店,寻找替补店;对于C级城市,正常布点推进,样本保持新增,数据在QC后完全放开;对于D级城市,正常布点推进,样本保持新增,数据只建议输出品类大数;
S7、计算放大系数
所述放大系数是指每一个样本店代替同类型的市场门店数,对于每一个城市的每一层的框架,放大系数=定义总体门店数/抽样门店数;
S8、计算环比趋势
在城市-sku维度:
加权放大销售额=每一个门店中sku的样本*放大系数
环比放大销售额=上期放大规模*(当期加权放大销售额/上期加权放大销售额)
S9、输出底层结果,对波动过大的数据,进行异常趋势平滑;
S10、数据质量控制。
进一步地,步骤S1.2的具体过程为:
S1.2.1、机器清洗:
S1.2.1.1、标准化:对药店数据中的各个字段的简称或别称进行纠正,并进行去特殊字符、全角转半角、数字转换的操作,将数据的编码标准化;
S1.2.1.2、拆分:基于指定的输入法词库和已有的标准明确分词,根据bert-ner的算法生成词库,确定拆分顺序定义,使用正向最大查找法将药店数据拆成各个部分;
S1.2.1.3、TOKEN编码:对完成S1.2.1.2后的药店数据进行TOKEN标准化处理;
S1.2.1.4、匹配打分:基于分支定界算法,将药店数据和抽样门店进行匹配,根据业务认知,建立多个匹配规则过滤器,最后根据模糊规则和文本相似度进行打分,选出最优的匹配映射关系;
S1.2.2、人工复核:完成门店匹配正确抽检、比对连锁财报、比对上市公司并购公告。
进一步地,步骤S1.4.2中,所述地址位置信息包括门店经纬度、省市县街道信息以及门店所属区块。
进一步地,步骤S1.8中,评估的方式包括拟合结果统计学校验;与样本数据对比校验;与CMH放大销售数据、连锁公开数据、药品单产数据对比校验。
进一步地,步骤S3.2中,样本收集内容主要包括:门店名称、门店编号、医保/非医保店、直营/加盟、门店地址、商品编号、品名、厂家、规格、批准文号、条形码、单位、剂型、零售价格、销售量、销售额、库存量。
本发明的有益效果在于:本发明应用于零售市场研究,可以为药店产业提供业务战略咨询、产品研发立项、市场营销和终端市场监测服务。同时,也为消费者研究、综合研究以及零售行业研究等其它研究版块提供一定的数据支持。
具体实施方式
以下将对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供一种基于线下药品零售市场分层分级放大方法,具体过程为:
S1、建立总体:
S1.1、药店数据采集:从相关部门处采集药店数据源,以药店数据中的药店名称作为关键词采集药店的工商数据进行基础属性补充。
S1.2、数据清洗:
S1.2.1、机器清洗:
S1.2.1.1、标准化:对药店数据中的各个字段的简称或别称进行纠正,并进行去特殊字符、全角转半角、数字转换等操作,将数据的编码标准化。
S1.2.1.2、拆分:基于指定的输入法词库和已有的标准明确分词,根据bert-ner的算法生成词库,确定拆分顺序定义,使用正向最大查找法将药店数据拆成各个部分。
S1.2.1.3、TOKEN编码:对完成S1.2.1.2后的药店数据进行TOKEN标准化处理。
S1.2.1.4、匹配打分:基于分支定界算法,将药店数据和抽样门店进行匹配,根据业务认知,建立多个匹配规则过滤器,最后根据模糊规则和文本相似度进行打分,选出最优的匹配映射关系。
S1.2.2、人工复核:完成门店匹配正确抽检、比对连锁财报、比对上市公司并购公告等。
S1.3、建立药店数据库:药店数据清洗完成后,生成全国线下零售药店主数据库;该数据库有着标准的药店编码、多个标准化标签和抽样门店的映射关系。
S1.4、药店真实性、唯一性校验
S1.4.1、、药店准入:通过药品经营企业、定点零售药店、医保谈判药品配备机构、O2O直送店、合作连锁样本门店、地图药店POI中的一个或多个对药店准入进行校验;
S1.4.2、位置信息校验:通过地图POI接口校验药店真实性及补充地址位置信息,所述地址位置信息包括门店经纬度、省市县街道信息以及门店所属区块等。
S1.4.3、重复门店合并:建立重复门店映射,重复门店的相关标签(如医保门店、O2O门店等)会进行传递,工商信息取成立时间最晚的门店的工商信息,成立时间更新为重复门店里的最早的成立时间。
S1.5、特征工程
1.5.1、特征转换
对采集门店和抽样门店原始的特征变量进行转换处理以获取有用的信息,进行连续变量、离散变量、时间序列的转换。
1.5.2、特征选择
数据的特征变量可能过多或无效,通过特征选择以减少特征数量、实现特征降维,使模型泛化能力更强,减少过拟合,增强对特征和特征值之间的理解。
S1.6、建立预测
以单一算法分别建立数据特征与药店销售潜力的映射关系,使用AutomatedbyTPOT评估各单一算法的预测效果,最终融合(以加权法、Boosting、Bagging等融合)多算法输出预测结果。
S1.7、模型参数优化:调整模型参数以优化预测结果;
S1.8、结果审核:评估多算法预测效果,输出最终预测结果。
主要采用的方式包括:拟合结果统计学校验;与样本数据对比校验;与CMH放大销售数据、连锁公开数据、药品单产数据对比校验。
最后预测出采集门店的销售潜力,药店分级完成市场总体定义。
S2、设计样本框:药店虽然是出售药品的场所,但是由于药店的地理位置、主营品种、经营方式、性质、服务群体等的不同,药店之间存在着很大的差别。对药店进行类别、等级区分,便于后续研究分析药品零售市场表现,快速定位不同药品类型的主营药店类型,以及辅助客户高效挖掘目标门店。
本实施例中,按城市区域、药店类型、门店销售等级对药店进行划分:
(1)按城市区域划分:每个城市独立一个区域,在区域内进行分层,根据分层对药店进行划分;
(2)按药店类型划分:按照药店类型将药店划分为医院附近店、居民区店、商业街店和DTP药店;
(3)门店销售等级划分:销售额达100万/月以上划分为A+级,销售额达30万/月以上但未达到100万/月为A级,销售额在15万/月以上但未达30万/月划分为B级,销售额在5万/月以上但未达15万/月划分为C级,销售额<5万/月划分为D级。
其中,分别医院附近店、居民区店、商业街店中门店销售等级为A级、B级、C级、D级作为一个基础模块,得到十二个基础模块,DTP药店作为一个独立的基础模块,A+级的药店独立作为一个基础模块,因此将药店划分得到一共十四个模块。
需要说明的是,DTP药店因品类结构特殊,作为独立业态进行样本布点;A
S3、门店抽样
S3.1、抽样方法
S3.1.1、分层随机抽样:分层随机抽样,又称类型随机抽样,它是先将总体各单位按一定标准分成各种类型(或层);然后根据各类型单位数与总体单位数的比例,确定从各类型中抽取样本单位的数量;最后,按照随机原则从各类型中抽取样本。
在本实施例中,按照步骤S2划分得到的十四个基础模块进行分层随机抽样,保证每个基础模块内每一家药店都具有相同的被抽取概率,每一类样本代表一组药店类型。
S3.1.2、便利性抽样:在分层随机抽样的基础上,当部分样本药店不能顺利采集到数据时,则采取便利性抽样进行补充,找到与之相似的(如同一地段、同等类型、同等门店销售等级、具有同等代表性等)的药店进行替代。
S3.2、样本收集
利用电脑系统进行,对全部样本药店从零售终端POS系统报数,获取对对消费者的销售数据;对2/3的样本药店,对接连锁ERP系统,采集每张小票的交易记录,准确度高;对1/3的样本药店,采集连锁提供的月度电子报表,通过交换数据和购买数据获取,从连锁POS系统报数,获取对消费者的销售数据。
样本收集内容主要包括:门店名称、门店编号、医保/非医保店、直营/加盟、门店地址、商品编号、品名、厂家、规格、批准文号、条形码、单位、剂型、零售价格、销售量、销售额、库存量等。
S4、对于步骤S3收集到样本门店的信息进行标准化处理。
S5、数据清洗:
对于步骤S3收集到样本门店的信息进行装换清洗,处理脏数据,并映射到药店数据库。
S6、确定样本框:
S6.1、选取真实销售的门店,排除虚假销售的门店。
S6.2、选取连续两期的样本店
S6.3、成熟城市固定样本框
S6.3.1、选取指标:通过GSM模型,选取了5个一级指标,12个二级指标,厘清影响城市成熟度的影响因素。
S6.3.2、确定指标权重:给多位业务专家发放权重调查问卷,使用AHP算法进行一致性判断,加权综合多位专家的打分,最终确认每个指标的权重。
S6.3.3、计算评分:标准化后每个城市各个指标的值,与指标权重加权求和,再0-1标准化计算每个城市的评分。
S6.4、城市分级管理:对城市分成A、B、C、D四个等级,用于对不同的城市采用不用的样本框处理机制。
其中,A级城市的数据样本丰富,抽样率充足,放大数据基本满足市场检验;B级城市的数据样本缺失某些基础模块,抽样率充足,放大数据基本满足市场检验;C级城市的数据样本缺失某些基础模块,抽样率一般,放大数据基本满足市场检验;D级城市的数据样本缺失某些基础模块,抽样率不足,放大数据市场挑战大。
对于A级城市,稳定样本框,每月只对流失门店,寻找替补店,数据在QC后完全放开;对于B级城市,稳定充足的样本框,每月只对流失门店,寻找替补店;对于C级城市,正常布点推进,样本保持新增,数据在QC后完全放开;对于D级城市,正常布点推进,样本保持新增,数据只建议输出品类大数。
S7、计算放大系数
所述放大系数是指每一个样本店代替同类型的市场门店数,对于每一个城市的每一层的框架,放大系数=定义总体门店数/抽样门店数。
S8、计算环比趋势
在城市-sku维度:
加权放大销售额=每一个门店中sku的样本*放大系数
环比放大销售额=上期放大规模*(当期加权放大销售额/上期加权放大销售额)
S9、输出底层结果,对波动过大的数据,进行异常趋势平滑。最终输出市场的总体数据如表1所示。
表1
S10、数据质量控制:
数据质量是数据分析结论有效性和准确性的基础,也是最重要的前提和保障。数据质量控制是指对数据从获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警、调整等一系列管理活动。在各数据链条的生产过程及最终的交付成果均按严格规范的质量标准进行管理和控制,事前质量标准,事中监测、事后分析,构成数据质量管理的流程闭环,进一步提升数据质量,释放数据价值,确保最终输出的数据更真实贴合中国药品零售市场表现。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。
机译: 个人资料分数:基于计算机算法的平台,该平台基于多种因素为每个候选人生成并分配分数。其中包括:1.学校排名2.学业成绩(VCE证书)3.市场上的教育和需求类别(澳大利亚SOL)4.与行业相关的课程,证书和项目5.其他自愿性活动平台评分将是该课程的基准对候选人进行分级,从而将他们在就业市场中排名。更高的分数表明:学术成就,市场相关性和行业适应性。
机译: 一种制造复合材料的方法-基于氟化聚合物的分层市场,因此轴承金属
机译: 互联网(万维网,“ www”)基于客户/实体定义的标准,零售或以其他方式按规则的时间增量(带有推送通知)定制时间刮取/采购服务。适用于www上任何有形或无形的可购买或免费项目。包括对付费用户(即企业)的输出/市场需求数据和//报告。后端代码,网站功能,相同功能的应用程序(iOS,Android)以及相关浏览器附加服务的自动自定义标准网络抓取方法的方法的专利。