首页> 中国专利> 一种移动通信网络流量的大数据分析方法

一种移动通信网络流量的大数据分析方法

摘要

一种移动通信网络流量的大数据分析方法,涉及移动网络和机器学习的技术领域,包括采集性能指标数值、缺省值填充、数据的抽取与聚合、高斯混合模型聚类、以及测试模型共五个步骤;其中,步骤1‑3是对数据的预处理,在完成了上述三个步骤后,再执行步骤4和5。本发明是根据时间多样性,在处理网络性能指标后,通过机器学习算法得出面向时空多样性的移动网络流量模型,然后用部分网络性能指标验证此模型,评估模型的泛化能力。本发明操作步骤简单、容易实现,具有较好的推广应用前景。

著录项

  • 公开/公告号CN112399458A

    专利类型发明专利

  • 公开/公告日2021-02-23

    原文格式PDF

  • 申请/专利权人 北京弘光浩宇科技有限公司;

    申请/专利号CN202011277931.8

  • 发明设计人 崔卫军;白雪纯;

    申请日2020-11-16

  • 分类号H04W24/06(20090101);G06K9/62(20060101);

  • 代理机构11357 北京同辉知识产权代理事务所(普通合伙);

  • 代理人廖娜

  • 地址 102208 北京市昌平区回龙观龙翔制版集团工业园二号院三号楼101室

  • 入库时间 2023-06-19 09:58:59

说明书

技术领域

本发明涉及移动网络和机器学习的技术领域,具体涉及一种基于聚类的移动网络中面向时间和空间的网络流量分析方法

背景技术

目前,使用移动网络的用户不断增加,这既是运营商的发展机遇,同时也给其带来挑战。为了提高用户的满意度,运营商需要对所提供的移动网络服务不断进行改进和优化。具体来说,首先需要对移动网络质量进行监测并生成相应的监测日志或数据,其次对移动网络质量进行全面有效的评估,最后根据移动网络质量的评估结果,有针对性地加强移动网络的优化建设。

目前,移动网络中,通常使用不同的性能指标来判断当前的网络质量状况,比如语音接通率VOLTE(Voice over Long-Term Evolution),VOLTE语音话务量,数据业务量,连接最大数RRC(Radio Resource Control),触发的RRC连接释放次数CSFB(Circuit SwitchedFallback),重定向到2G的RRC连接释放次数,重定向到 3G的RRC连接释放次数,下行弱覆盖比MR(Measurement Report), MR下行良好覆盖比,VOLTE语音下行丢包,VOLTE下行时延,上行PRB 平均利用率,下行PRB平均利用率,有效RRC连接最大数,ERAB拥塞率,VOLTE语音用户QCI等于1切换成功率,ERAB建立成功率,VOLTE 语音上行丢包率等等。

不同时间段的网络性能指标的值是不一样的,比如白天时间段的数据业务量比晚上高,节假日时段景区的数据业务量会变高。除了时间上的联系,在空间中,基站会部署在不同位置,每个基站从自身的覆盖范围中采集相应的网络性能指标。基站坐落于不同位置,采集到的网络性能指标也有不同的时空多样性。对这些具有时空多样性的网络性能指标,可以利用机器学习算法探索面向时空多样性的移动网络流量模型。

这些网络性能指标也与人们的生活息息相关,网络性能指标的使用可以在一定程度上反映人们的活动轨迹,移动流量的区域密集程度可以反映出城市的热点地区分布。基于这些信息可以分析出很多特征,对基站选址布局、城市区域规划、用户互联网画像等都有重要意义。

随着用户对通话质量的要求不断提升,移动互联网不断发展和完善,国内外各类对基站流量和网络性能指标的分析和建模的项目不断被发布。前人使用机器学习算法来研究移动网络流量,研究对象可以是业务兴趣、移动性等,也可从时间维度,空间维度以及两者的结合进行探索。基于空间维度分析流量特性,如改善毫米波蜂窝网络的下行链路传输中的性能,预测空间依赖性和基站流量带来的长期需求, 以用户为中心的分布式群集和UDN中的基站模式选择问题,基于时间和空间二维度分析流量特性,如利用LSTM模型学习基站流量的时间依赖性和空间相关性,并对未来一段时间做流量预测。

发明内容

本发明提供一种移动通信网络流量的大数据分析方法,它能够快速、且更准确地分析移动网络流量,并且能够用来分析面向时间和面向空间的移动网络流量。

为解决上述问题,本发明采用如下技术方案:

一种移动通信网络流量的大数据分析方法,包括以下步骤:

步骤1,采集性能指标数值:收集移动网络中的场景中的基站的网络性能指标的数据;对于基站记录的性能指标的数据,分别收集其各个网络性能指标的数据;

步骤2,数据的抽取与聚合:剔除各个基站中的网络性能指标的无用数据及干扰数据;

步骤3,对数据进行聚类:采用高斯混合模型进行拟合,并采用期望最大算法进行算法训练;

步骤4,对模型进行测试:选取网络性能指标样本集验证模型,对模型的超参数进行填筑并且对模型的能力进行评估。

进一步地,如果步骤1中性能指标数据缺失或者数值异常,还包括以下步骤:

步骤1.5,缺省值填充:若一个基站的性能指标数据存在缺失值,则计算该性能指标数据在所有基站中的均值,并将该均值作为为缺失值的替补值。

进一步地,所述步骤2中,无用数据为具有相同数值的网络性能指标的数据,干扰数据为超过正常值范围的数据。

进一步地,所述步骤3中,使用了高斯混合分布作参数模型,其公式为:

其中,该公式为所述步骤2后剔除后的性能指标的高斯分布的和;μ为数据均值,

进一步地,所述步骤3中,通过模型来计算数据的期望值,通过更新参数μ和

进一步地,通过两次迭代生成的参数值使得参数

进一步地,在所述步骤4中,采用轮廓系数对模型的能力进行评估,所述轮廓系数为:

其中,a是与其同类别中其他网络性能指标的平均距离,b是与其距离最近不同类别中网络性能指标的平均距离。

更进一步地,在所述步骤1中,选择12个网络性能指标,分别为ERAB拥塞率、RRC连接最大数、MR下行良好覆盖比例、重定向到3G的RRC连接释放次数、ERAB建立成功率、无线接通率、VOLTE 语音上行丢包率、CSFB触发的RRC连接释放次数、有效RRC连接最大数、VOLTE语音话务量ERL、重定向到2G的RRC连接释放次数和区县位置。本发明分析的网络性能指标以月为跨度,数据的时间跨度较长,网络性能指标有时间多样性,例如季节、周末、节假日、天气变化等。不同时间段的网络性能指标的值是不一样的,比如白天时间段的数据业务量比晚上高,节假日时段景区的数据业务量会变高。根据这些时间特性,分析在不同时间特性下的移动网络流量变化,通过机器学习算法得到面向时间多样性的移动网络流量模型。除了时间上的联系,在空间中,基站会部署在不同位置,每个基站从自身的覆盖范围中采集相应的网络性能指标。基站坐落于不同位置,采集到的网络性能指标也有不同的多样性。对这些具有时空多样性的网络性能指标,可以利用机器学习算法探索面向空间多样性的移动网络流量模型。

附图说明

图1是本发明的移动网络流量的大数据分析方法的操作步骤流程图。

图2是某时段移动网络中的面向时空多样性的移动网络流量聚类一的结果在地图中的示意图。

图3是某时段移动网络中的面向时空多样性的移动网络流量聚类二的结果在地图中的示意图。

图4是某时段移动网络中的面向时空多样性的移动网络流量聚类三的结果在地图中的示意图。

图5是某时段移动网络中的面向时空多样性的移动网络流量聚类四的结果在地图中的示意图。

图6是某时段移动网络中的面向时空多样性的移动网络流量聚类五的结果在地图中的示意图。

具体实施方式

下面用最佳的实施例对本发明做详细的说明。

如图1-6所示,结合本发明实施例,详细介绍基于聚类的面向时空多样性的移动网络流量分析方法的操作步骤流程:

本发明的移动网络流量的大数据分析方法在建模时,根据时间多样性,如季节、节假日、天气等时间,在处理网络性能指标后,通过机器学习算法得出面向时空多样性的移动网络流量模型,然后用部分网络性能指标验证此模型,并且拟采用部分流量数据测试模型,评估模型的泛化能力。对网络性能指标分析处理后,建立面向时空多样性的移动网络流量模型。

本发明的实施例是选取移动网络中的12个性能指标。虽然实际应用中的性能指标数量为数百个、甚至上千个,实施例中则选择使用 12个性能指标,其具体包括:ERAB拥塞率,RRC连接最大数,MR下行良好覆盖比例,重定向到3G的RRC连接释放次数,ERAB建立成功率,无线接通率,VOLTE语音上行丢包率,CSFB触发的RRC连接释放次数,有效RRC连接最大数,VOLTE语音话务量ERL,重定向到2G的 RRC连接释放次数,区县位置;同样也分别对应设置为序号是第1、 2、…、i、…、12个。

步骤1,采集性能指标数值:收集了移动网络中的场景中长时间的具有时空多样性的网络性能指标,包括多维度衡量网络性能的指标。

其中,采集性能指标数值集合X={x

步骤2,缺省值填充:本方法采用高斯混合模型(GMM模型)进行聚类,此方法使用了高斯混合分布作参数模型,分析时需要完全数据集,当有些情况下数据无法完整记录。

当存在数据缺失时,直接进行高斯混合模型(GMM模型)进行聚类得到的结果不尽如人意,此时需要用均值替代缺失数据,此时的均值是合理的替补值。具体方法为:若x

步骤3,数据的抽取与聚合:对于某些性能指标,若性能指标x

步骤4,对数据进行聚类,本方法采用高斯混合模型(GMM模型) 进行聚类,此方法使用了高斯混合分布作参数模型,可将其看做N个性能指标的高斯模型的混合效果,公式为:

本发明使用模型生成的数据来决定似然值,即通过模型来计算数据的期望值,通过更新参数μ和

步骤5,对模型进行测试。在训练模型后,选取网络性能指标样本集验证模型,可以对模型的能力进行评估。

验证具体过程如下:

引用轮廓系数(Silhouette Coefficient),对于单个网络性能指标样本,设a是与其同类别中其他网络性能指标样本的平均距离, b是与其距离最近不同类别中网络性能指标样本的平均距离,其轮廓系数为:

对于一个网络性能指标样本集合,其轮廓系数是所有样本轮廓系数的平均值。轮廓系数的取值范围是[-1,1],当聚类适当时,有较高的轮廓系数值,当许多点都有低或者负的值,说明分类过多或者过少。

轮廓系数为-1时表示聚类结果不好,为+1时表示簇内实例之间紧凑,为0时表示有簇重叠。

轮廓系数越大,表示簇内实例之间紧凑,簇间距离大。本实施了的轮廓系数计算如下:

1.[1]from sklearn import metrics

2.[2]metrics.silhouette_score(X,labels,metric='eulidean')

3.[OUT]0.6251835381863645

如上所示,此模型的轮廓系数约为0.625。

图2-6分别示出了2018年8月23日一天的各种聚类的情况。本项目的聚类主要是为了观察聚类集群变化,如工作日期间的景区,聚类点较分散,节假日的景区聚类点更密集。如果非要给每一种聚类分类,可以大约分为交通枢纽、风景区、居民区等。具体地,图2示出了风景区(聚类一)的聚类结果在地图中的表示,图3示出了交通枢纽(聚类二)的聚类结果在地图中的表示,图4-6分别示出了居民区 (聚类三至五)的聚类结果在地图中的表示,其中每一个点都表示每一个数据项,每个图片中的点意味着聚类后属于不同的集群。

本发明将时间和空间两个维度相结合,基于时间和空间二维多样性对网络性能指标聚类,从而得到面向时空多样性的移动网络流量模型,具有操作步骤简单、容易实现的优点,并且具有较好的推广应用前景。

本文中应用了具体个例对发明构思进行了详细阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离该发明构思的前提下,所做的任何显而易见的修改、等同替换或其他改进,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号