首页> 中国专利> 一种基于大数据的基站共站址识别方法

一种基于大数据的基站共站址识别方法

摘要

本发明公开了一种基于大数据的基站共站址识别方法,具体涉及基站共站址识别领域,包括以下步骤:S1、数据收集:收集多天无线测量报告MR数据和工参数据,主要使用的指标变量有:时间、基站SiteId、本小区CellId、本小区TA、本小区RSRP、本小区频点、邻区小区NCellId、邻小区频点、邻小区RSRP、用户所在的经度、用户所在的纬度、本小区经度、本小区纬度、是否共站标记。本发明通过无线环境测量报告MR中对异网频段信号所测得数据进行清洗,再采用机器学习的方法实现共站址站点的分类,成功克服了基于资管系统中不准确站点信息的影响,可以准确识别出基站是否为共享基站,为运营商共站共享的落地提供了有力支撑,是一种科学、有效和低成本的解决方法。

著录项

  • 公开/公告号CN112990382A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 桔帧科技(江苏)有限公司;

    申请/专利号CN202110509326.7

  • 发明设计人 寇红侠;

    申请日2021-05-11

  • 分类号G06K9/62(20060101);H04W24/10(20090101);

  • 代理机构31354 上海氦闪专利代理事务所(普通合伙);

  • 代理人李明;袁媛

  • 地址 210000 江苏省南京市建邺区邺城路19号双闸社区中心B座601室

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明涉及基站共站址识别技术领域,更具体地说,本发明涉及一种基于大数据的基站共站址识别方法。

背景技术

移动通信网络中的无线环境测量报告MR数据可以准确的反应网络的覆盖情况,为运营商了解无线网络的覆盖提供了很好的工具支撑。良好的网络覆盖,是运营商生存的根本保障。但随着移动通信网络的进一步演进,特别是4G逐步向5G网络过度,无线网络所采用的信号频段波长越来越短,导致其建站规模成倍增加。据不完全统计,全国现有4G站点规模达到400多万,5G站点规模将是4G站点的3倍以上,因此将直接导致运营商总投资成本进一步抬升。

共站共享是一项很好的优化成本策略,目前三大运营商中(中国移动、中国电信和中国联通)已经组建了铁塔集团,由铁塔集团进行基站建设,然后租赁给三大运营商,三大运营商然后根据使用情况进行付费。由于历史遗留问题,三大运营商拥有大量的自有站点,导致了运营商现自有站点与共享站点无法很好的区别分类,进一步影响了铁塔集团的站点费用的分摊,如现有站点的区分主要靠站点经纬度信息进行分类,但是由于现有运营商资管系统中站点基本信息与现场站点信息存在大量的不一致(主要是因为后期站点迁移后未能及时更新资管系统),导致现有站点分类不准确。

发明内容

为了克服现有技术的上述缺陷,本发明的实施例提供一种基于大数据的基站共站址识别方法,其是通过无线环境测量报告MR中对异网频段信号所测得数据进行清洗,再采用机器学习的方法实现共站址站点的分类,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于大数据的基站共站址识别方法,包括以下步骤:

S1、数据收集:收集多天无线测量报告MR数据和工参数据,主要使用的指标变量有:时间、基站SiteId、本小区CellId、本小区TA、本小区RSRP、本小区频点、邻区小区NCellId、邻小区频点、邻小区RSRP、用户所在的经度、用户所在的纬度、本小区经度、本小区纬度、是否共站标记;

S2、数据处理:对MR数据与工参数据进行处理得到新的数据,根据新的数据选择本小区RSRP值在一定范围的MR采样点,对处理后的数据根据基站SiteId统计每个基站的MR采样点数,保留MR采样点数量大于设定值的基站MR采样点;

S3、特征提取:按每基站SiteId维度,计算所有MR采样点的本小区和邻小区RSRP均值、方差、离散系数、本小区RSRP与本小区TA之间的相关系数、以及对不同的本小区TA计算本小区和邻小区RSRP均值、方差、离散系数、本小区RSRP与本小区TA之间的相关系数等,这些值则为每个基站的特征数据;是否共站标记则为每个基站的标签数据,两种数据形成新的数据;

S4、算法建模:对于上面提取特征后的数据按照一定的比例划分为训练集和测试集,使用分类算法(随机森林、GBDT、Xgboost)对训练集进行模型训练,对训练后模型对测试集进行验证;

S5、模型选择:分别使用随机森林、GBDT、Xgboost算法对训练数据进行模型训练,通过不断调整参数,每个算法获得最佳模型,再使用训练好的模型对测试集进行验证;

S6、模型应用:根据上面选择最终的模型后,保存模型,收集MR测量报告数据以及工参数据,对数据进行处理,使用保存的模型对基站进行分类,输出所有基站的识别结果。

进一步的,所述步骤S2包括以下子步骤:

S21、将MR数据与工参数据通过小区CellId进行匹配,得到每个小区所属基站以及小区的位置坐标(经度、纬度),对匹配后的记录删除位置坐标为空的数据;

S22、对步骤S21中处理后的数据根据用户所在位置坐标(经度、纬度)和小区位置坐标(经度、纬度)计算每个MR采样点到基站的距离,删除离基站较远的MR采样点和删除距离与TA不匹配的采样点,得到新的数据;

S23、对步骤S22中得到的数据选择本小区RSRP值在一定范围的MR采样点,对处理后的数据根据基站SiteId统计每个基站的MR采样点数,保留MR采样点数量大于设定值的基站MR采样点。

进一步的,所述步骤S4中随机森林的算法包括以下步骤:

S411、应用bootstrap方法从训练集中随机有放回地抽取K个新的自助样本集,并由此构建K棵分类树,每次未被抽到的样本组成了K个袋外数据;

S412、在每一棵数的每个节点处随机抽取m

S413、完整生成所有的决策树,无需剪枝;

S414、终端节点的所属类别由节点对应的众数类别决定;

S415、对于新的观测点,用所有的树对其进行分类,其类别由多数决定原则生成。

进一步的,所述步骤S4中GBDT的算法包括以下步骤:

S421、初始化所有样本在K个类别上的估计值,F

S422、循环下面的学习更新过程M次;

S423、对没有样本的函数估计值做Logistic变换,通过下面的变换公式可以把样本的估计值转换为该样本属于某一类别的概率是多少:

样本初始的时候每个类别的估计值都是0,属于类别的概率也是相等的,随着后面的不断更新,其估计值发生变化,概率也相应发生变化;

S424、遍历所有样本的每个类别的概率,在此步骤中注意遍历的是每个类别,而不是所有样本;

S425、求每个样本在第K类上的概率梯度,在上面中,有了许多个样本属于某个类别K的概率,以及他们是否真正属于类别K的概率,通过回归树的算法来求解,通过常见的建立代价函数,并求导的梯度下降法来学习,代价函数的对数似然函数形式为:

对代价函数求导,得到:

S426、沿着梯度方法学习到J个叶子节点的回归树,

我们输入所有样本

S427、求每个叶子节点的增益,每个结点的增益计算公式为:

S428、更新所有样本在第K类下的估计值,上一步中求得的增益是基于梯度计算得到的,可以利用这个增益更新样本的估计值:

第m次迭代中的第K类下,所有样本的估计值F可以通过上次迭代m-1中,这些样本的估计值+增益向量求得,这个增益向量需要把所有的J个叶子节点的增益值求和,然后和向量1相乘得到,如此,迭代学习M次之后,可以得到最终的所有样本在所有类别下的估计矩阵,基于这个估计值矩阵,可以实现多类分类。

进一步的,所述步骤S4中Xgboost的算法包括以下步骤:

S431、定义树的复杂度:首先把树拆分成结构部分q和叶子节点权重部分w,在这里w是一个向量,表示各叶子节点中的输出值;

引入正则化项Ω(f

S432、XGBoost中的Boosting Tree模型:和GBDT方法一样,XGBoost的提升模型也是采用残差,不同的是分裂结点选取的时候不一定是最小平方损失,其损失函数如下,较GBDT其根据树模型的复杂度加入了一项正则化项:

S433、对目标函数进行改写:在XGBoost中直接用泰勒展开式将损失函数展开成二项式函数(前提是损失函数一阶、二阶;连续可导),假设我们的叶节点区域为:

则我们的目标函数可以转换成:

此时我们对wj求导并令导数为0,可得:

S434、树结构的打分函数:上面的Obj值代表当指定一个树结构时,在目标上面最多减少多少,我们可以把它称为结构分数,可以认为这是一个类似与基尼指数一样更一般的对树结构进行打分的函数,对于求得Obj分数最小的树结构,我们可以枚举所有的可能性,然后对比结构分数来获得最优的树结构,然而这种方法计算消耗太大,更常用的是贪心法,每次尝试对已经存在的叶节点(最开始的叶节点是根节点)进行分割,然后获得分割后的增益为:

以Gain作为判断是否分割的条件,如果Gain < 0,则此叶节点不做分割,然而这样对于每次分割还是需要列出所有的分割方案。而实际中我们先将所有样本g

进一步的,所述步骤S5中验证的方式为计算每个模型的精确率、召回率、F

其中,TP为正类判定为正类的个数,FP为负类判断为正类的个数,FN为正类判定为负类的个数;

由召回率与准确率的定义可知,在一定程度上这两者中某个准确率的提高有概率会造成另一个准确率的下降,因此F

本发明的技术效果和优点:

与现有技术相比,本发明通过无线环境测量报告MR中对异网频段信号所测得数据进行清洗,再采用机器学习的方法实现共站址站点的分类。经验证,本方法成功克服了基于资管系统中不准确站点信息的影响,可以准确识别出基站是否为共享基站,为运营商共站共享的落地提供了有力支撑,是一种科学、有效和低成本的解决方法。

附图说明

图1为本发明的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如附图1所示的一种基于大数据的基站共站址识别方法,包括以下步骤:

S1、数据收集:收集多天无线测量报告MR数据和工参数据,主要使用的指标变量有:时间、基站SiteId、本小区CellId、本小区TA、本小区RSRP、本小区频点、邻区小区NCellId、邻小区频点、邻小区RSRP、用户所在的经度、用户所在的纬度、本小区经度、本小区纬度、是否共站标记;

S2、数据处理:对MR数据与工参数据进行处理得到新的数据,根据新的数据选择本小区RSRP值在一定范围的MR采样点,对处理后的数据根据基站SiteId统计每个基站的MR采样点数,保留MR采样点数量大于设定值的基站MR采样点;

步骤S2包括以下子步骤:

S21、将MR数据与工参数据通过小区CellId进行匹配,得到每个小区所属基站以及小区的位置坐标(经度、纬度),对匹配后的记录删除位置坐标为空的数据;

S22、对步骤S21中处理后的数据根据用户所在位置坐标(经度、纬度)和小区位置坐标(经度、纬度)计算每个MR采样点到基站的距离,删除离基站较远的MR采样点和删除距离与TA不匹配的采样点,得到新的数据;

S23、对步骤S22中得到的数据选择本小区RSRP值在一定范围的MR采样点,对处理后的数据根据基站SiteId统计每个基站的MR采样点数,保留MR采样点数量大于设定值的基站MR采样点;

S3、特征提取:按每基站SiteId维度,计算所有MR采样点的本小区和邻小区RSRP均值、方差、离散系数、本小区RSRP与本小区TA之间的相关系数、以及对不同的本小区TA计算本小区和邻小区RSRP均值、方差、离散系数、本小区RSRP与本小区TA之间的相关系数等,这些值则为每个基站的特征数据;是否共站标记则为每个基站的标签数据,两种数据形成新的数据;

S4、算法建模:对于上面提取特征后的数据按照一定的比例划分为训练集和测试集,使用分类算法(随机森林、GBDT、Xgboost)对训练集进行模型训练,对训练后模型对测试集进行验证;

随机森林的算法包括以下步骤:

S411、应用bootstrap方法从训练集中随机有放回地抽取K个新的自助样本集,并由此构建K棵分类树,每次未被抽到的样本组成了K个袋外数据;

S412、在每一棵数的每个节点处随机抽取m

S413、完整生成所有的决策树,无需剪枝;

S414、终端节点的所属类别由节点对应的众数类别决定;

S415、对于新的观测点,用所有的树对其进行分类,其类别由多数决定原则生成;

GBDT的算法包括以下步骤:

S421、初始化所有样本在K个类别上的估计值,F

S422、循环下面的学习更新过程M次;

S423、对没有样本的函数估计值做Logistic变换,通过下面的变换公式可以把样本的估计值转换为该样本属于某一类别的概率是多少:

样本初始的时候每个类别的估计值都是0,属于类别的概率也是相等的,随着后面的不断更新,其估计值发生变化,概率也相应发生变化;

S424、遍历所有样本的每个类别的概率,在此步骤中注意遍历的是每个类别,而不是所有样本;

S425、求每个样本在第K类上的概率梯度,在上面中,有了许多个样本属于某个类别K的概率,以及他们是否真正属于类别K的概率,通过回归树的算法来求解,通过常见的建立代价函数,并求导的梯度下降法来学习,代价函数的对数似然函数形式为:

对代价函数求导,得到:

S426、沿着梯度方法学习到J个叶子节点的回归树,

我们输入所有样本

S427、求每个叶子节点的增益,每个结点的增益计算公式为:

S428、更新所有样本在第K类下的估计值,上一步中求得的增益是基于梯度计算得到的,可以利用这个增益更新样本的估计值:

第m次迭代中的第K类下,所有样本的估计值F可以通过上次迭代m-1中,这些样本的估计值+增益向量求得,这个增益向量需要把所有的J个叶子节点的增益值求和,然后和向量1相乘得到,如此,迭代学习M次之后,可以得到最终的所有样本在所有类别下的估计矩阵,基于这个估计值矩阵,可以实现多类分类;

Xgboost的算法包括以下步骤:

S431、定义树的复杂度:首先把树拆分成结构部分q和叶子节点权重部分w,在这里w是一个向量,表示各叶子节点中的输出值;

引入正则化项Ω(f

S432、XGBoost中的Boosting Tree模型:和GBDT方法一样,XGBoost的提升模型也是采用残差,不同的是分裂结点选取的时候不一定是最小平方损失,其损失函数如下,较GBDT其根据树模型的复杂度加入了一项正则化项:

S433、对目标函数进行改写:在XGBoost中直接用泰勒展开式将损失函数展开成二项式函数(前提是损失函数一阶、二阶;连续可导),假设我们的叶节点区域为:

则我们的目标函数可以转换成:

此时我们对wj求导并令导数为0,可得:

S434、树结构的打分函数:上面的Obj值代表当指定一个树结构时,在目标上面最多减少多少,我们可以把它称为结构分数,可以认为这是一个类似与基尼指数一样更一般的对树结构进行打分的函数,对于求得Obj分数最小的树结构,我们可以枚举所有的可能性,然后对比结构分数来获得最优的树结构,然而这种方法计算消耗太大,更常用的是贪心法,每次尝试对已经存在的叶节点(最开始的叶节点是根节点)进行分割,然后获得分割后的增益为:

以Gain作为判断是否分割的条件,如果Gain < 0,则此叶节点不做分割,然而这样对于每次分割还是需要列出所有的分割方案。而实际中我们先将所有样本g

S5、模型选择:分别使用随机森林、GBDT、Xgboost算法对训练数据进行模型训练,通过不断调整参数,每个算法获得最佳模型,再使用训练好的模型对测试集进行验证;

步骤S5中验证的方式为计算每个模型的精确率、召回率、F1值,其计算公式如下:

其中,TP为正类判定为正类的个数,FP为负类判断为正类的个数,FN为正类判定为负类的个数;

由召回率与准确率的定义可知,在一定程度上这两者中某个准确率的提高有概率会造成另一个准确率的下降,因此F1值能比较综合的显示识别效果,根据三个模型在测试集上的F1值,比较他们大小,选择F1值最大的模型为最终模型,输出分类结果;

S6、模型应用:根据上面选择最终的模型后,保存模型,收集MR测量报告数据以及工参数据,对数据进行处理,使用保存的模型对基站进行分类,输出所有基站的识别结果。

最后应说明的几点是:首先,在本申请的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变,则相对位置关系可能发生改变;

其次:本发明公开实施例附图中,只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计,在不冲突情况下,本发明同一实施例及不同实施例可以相互组合;

最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号