首页> 中国专利> 一种基于手机信令数据的游客行为偏好分析方法

一种基于手机信令数据的游客行为偏好分析方法

摘要

本发明涉及行为大数据分析技术领域,涉及一种基于手机信令数据的游客行为偏好分析方法。本发明将游客行为偏好相关模型分析的数据结果通过用户自定义配置的方式创建可视化数据分析报表予以展示,在旅游管理部门的决策过程中,自由组织、对比各类旅游行业数据,以自定义图形化的方式对游客基本特征、旅游出行偏好、游客游览偏好等旅游行为进行对比、监控、跟踪、分析、预测,自动生成决策计划。

著录项

  • 公开/公告号CN114862456A

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 中电万维信息技术有限责任公司;

    申请/专利号CN202210431636.6

  • 申请日2022-04-23

  • 分类号G06Q30/02(2012.01);G06Q50/14(2012.01);G06F16/25(2019.01);G06F16/215(2019.01);G06F16/28(2019.01);G06F16/2458(2019.01);H04W4/20(2018.01);

  • 代理机构兰州嘉诺知识产权代理事务所(普通合伙) 62202;

  • 代理人李冉冉

  • 地址 730000 甘肃省兰州市城关区张苏滩553号(电信第二枢纽B区4-7层)

  • 入库时间 2023-06-19 16:17:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-23

    实质审查的生效 IPC(主分类):G06Q30/02 专利申请号:2022104316366 申请日:20220423

    实质审查的生效

  • 2022-08-05

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及行为大数据分析技术领域,具体而言,涉及一种基于手机信令数据的游客行为偏好分析方法。

背景技术

国内大众持续增长的旅游需求让旅游目的地的游客数量保持高位运行,目前旅游目的地在旅游公共服务的基础设施上做了大量投入,但在激增的客流面前,依然不能满足需求。目前通过相关信息化系统可以及时监测游客流量等相关数据,但由于缺少数据积累和大数据分析能力,无法挖掘游客出行规律及行为习惯,而且鉴于运营商手机信令数据的近似全样本、全时,且附带空间信息,契合旅游行业数据分析的需要,因此有必要依托运营商信令数据对游客行为深入研究和分析,以信令数据为核心,为旅游管理、服务、营销提供详实的数据支撑,通过对境内外前来旅游目的地游览的游客行为进行分析,通过大数据挖掘游客出行规律、客源归属、客流走向预测等内容,为旅游市场管理规范化和游客出行引导智能化提供数据支撑。

发明内容

本发明提供一种基于手机信令数据的游客行为偏好分析方法,为旅游管理部门提供客源分布、景区实时人流量、游客流向、游客画像等多维度的精准分析及有效预测,使通过大数据,把握旅游行业运行态势,实现旅游主管部门对行业的科学、安全、智能化的管理,提升旅游目的地游客公共服务能力。

本发明解决现有技术不足提供如下技术方案:一种基于手机信令数据的游客行为偏好分析方法,包括如下步骤:

S1、将景区出入口基站设为出入口集,以用户进入景区为起始,离开景区为终止,以手机信令为基础分析游客在景区范围内的行为偏好;

S2、基于景区基站识别出景区内的手机信令数据,基于手机信令分析景区游客实时在园人数及其景区的游客分布;

S3、基于手机信令数据提取用户的行程链,结合行程链中的活动点及每个活动点的停留时间,构建出用户的游览轨迹,同时采用幂函数最大曲率方法计算景区惯常地阀值,用于标定用户的景区惯常地;

S4、区分场景化的重点区域,从有效行程中剔除用户非游览目的的重点区域,提取游客的偏好游览点;

S5、旅游行为结果输出。

所述步骤 S1包括如下步骤:

S11、以景区入口基站获取到的信令数据为待处理数据,输入到ETL工具DataX中进行数据清洗、转换处理;

S12、DataX获取到信令数据后,结合景区信息、基站信息,进行数据清洗与转换处理;

S13、建立游客出入信息库,记录游客进出景区信息,记录内容包括:景区编码、手机号码、进入景区时间、离开景区时间;

S14、S12的输出数据存储到游客出入信息中,针对同一手机号码只保留一条信息;

S15、以景区出口基站获取到的信令数据为待处理数据,按照上述流程,依据游客出入信息库中的手机号和进入景区时间戳,补齐离开景区时间戳的值。

所述步骤 S2包括如下步骤:

S21、识别出景区内的信令数据,建立景区基站关联库,记录信息包括:基站编码、所在景区编码、重点区域编码。获取到信令数据后,输入到ETL工具DataX中进行数据清洗、转换处理,筛除数据项有缺失及数据项格式不正确的信令数据;筛除和景区基站关联库中基站编码不匹配的数据;依据景区和基站的关联关系,信令中补充重点区域编码,得到所需的数据并存入kafka中进行后续处理;

S22、基于S21的数据,分析游客实时在园人数及游客分布,数据处理判断对象均为坐标,故以k,v键值对的形式存储,数据处理的数据流均为从kafka中获取,在Spark中处理,之后实时数据存入Redis,离线部分数据存入Mysql。

所述步骤 S3包括如下步骤:

S31、汇总用户不少于一年的信令数据,计算每个用户在一年内重点区域的停留次数和停留月数,所述停留次数以天为计算单位,一天停留多次记为一次,所述停留月数指用户在规定重点区域内有多少个月有过停留。

S32、针对所有用户统计每个停留次数下的重点区域数,并在每个停留次数下对所有用户求均值。

S33、针对分布数据采用幂函数进行曲线拟合,计算拟合后的曲线曲率,以曲率最大值所对应的停留次数C作为景区惯常地筛选阈值。

曲线拟合基函数为:y=a*x

幂函数曲率计算公式为:K=|y”|/[(1+(y ')

S34、通过计算得到的景区惯常地筛选阈值C,对1得到的数据进行筛选,得到游客对应的景区惯常地。

所述步骤 S4包括如下步骤:

S41、人工标注景区内各个重点区域的属性,可分为景点属性和非景点属性;

S42、S3获取到的游客行程后,剔除非景点属性的重点区域,形成有效的游客行程;

S43、针对游客有效行程中的重点区域,通过排序方法获取游客浏览点偏好;对重点区域的浏览次数进行降序排序,浏览次数相同时采用浏览时长降序排序,确定最终的重点区域排序,排序越靠前的重点区域越受游客欢迎。

所述步骤 S5包括如下步骤:

S51、针对S2、S3、S4的输出结果,设计计算模型,采用Spark计算引擎进行计算,信令数据及计算结果落盘HBase;

S52、针对景区实时人流量、游客流向等分析项,采用phoenix从HBase的计算结果中统计景区实时人流量、游客流向等输出数据;

S53、结合运营商CRM中游客的身份信息,分析客源地、游客画像等信息。

所述步骤 S3中用户行程信息中的隐私信息处理如下:

每个用户行程链中包含用户手机号码、活动点、活动时长等信息,

作为用户标识的手机号码涉及到用户隐私问题,需要进行加密处理;在生成用户行程链的过程中,采用HmacSHA256算法对手机号码进行不可逆的加密处理,并使用获取到的密文替换手机号码。

本发明的有益效果为:

基于网格技术的居民和游客识别已具备研究基础,客流原始数据中电信信令数据用户规模超过3.6亿,利用多年研究测试的抵达率计算规则进行扩充,相关算法同样适用其他移动运营商并实现数据融合。本发明将游客行为偏好相关模型分析的数据结果通过用户自定义配置的方式创建可视化数据分析报表予以展示,在旅游管理部门的决策过程中,自由组织、对比各类旅游行业数据,以自定义图形化的方式对游客基本特征、旅游出行偏好、游客游览偏好等旅游行为进行对比、监控、跟踪、分析、预测,自动生成决策计划。与传统的通过评分、评价获取游客偏好的方法相比,该方法可准确客观获取游客行为画像,进一步提升业务需求人员获取分析数据的效率,提高旅游管理部门行业管理效率和公共服务水平。

本发明基于大数据分析挖掘技术,以手机信令作为基础数据,结合数据分析方法来识别用户旅游行为。与现有技术相比,本发明围绕城市内景区的重点区域进行游客行为的分析方法,比传统的规则识别更加准确和科学,同时具备推广性。

附图说明

图1实时在园人数及游客分布数据处理流程图;

图2为数据整合层流程图;

图3为数据分析层流程图;

图4为数据应用展现层流程图;

图5为景区范围行为偏好数据使用示意图;

图6为景区基站关联库构建示意图。

具体实施方式

一种基于手机信令数据的游客行为偏好分析方法,包括如下步骤:

S1、将景区出入口基站设为出入口集,以用户进入景区为起始,离开景区为终止,以手机信令为基础分析游客在景区范围内的行为偏好;

S2、基于景区基站识别出景区内的手机信令数据,基于手机信令分析景区游客实时在园人数及其景区的游客分布;

S3、基于手机信令数据提取用户的行程链,结合行程链中的活动点及每个活动点的停留时间,构建出用户的游览轨迹,同时采用幂函数最大曲率方法计算景区惯常地阀值,用于标定用户的景区惯常地;

其中,用户行程信息中的隐私信息处理方法如下:

每个用户行程链中包含用户手机号码、活动点、活动时长等信息,

作为用户标识的手机号码涉及到用户隐私问题,需要进行特殊处理。在生成用户行程链的过程中,采用HmacSHA256算法对手机号码进行不可逆的加密处理,并使用获取到的密文替换手机号码,以防止通过手机号码造成的用户隐私泄露。用户行程链中的手机号码进行加密处理后,已无用户信息特征,所以活动点、活动时长等信息无需进行隐私处理,以便于后续流程的处理;

S4、区分场景化的重点区域,从有效行程中剔除用户非游览目的的重点区域,提取游客的偏好游览点;

S5、旅游行为结果输出。

S1使用的数据包括:运营商提供的信令数据和基站数据,从互联网获取到的景区数据(https://lbs.amap.com/api/webservice/guide/api/search/),以及需要手动维护的景区重点区域数据。

数据的详细内容如下表所示。

S1包括如下步骤:

S11、以景区入口基站获取到的信令数据为待处理数据,输入到ETL工具DataX中进行数据清洗、转换处理。

S12、DataX获取到信令数据后,结合景区信息、基站信息,进行数据清洗与转换处理,规则如下:

1) 对信令数据进行预处理,删除不合规数据、脱敏用户数据,具体规则如下:

2) 依据基站、景区位置对应关系,将景区编码补充到信令数据中。

采用散列函数对景区经纬度信息进行编码转化,形成具有唯一性的景区编码,即景区编码=md5(6位精度经度值&6位精度纬度值),如:md5(116.191636&39.984903)=33377e155b1bf0393677d9a5142f8fee。

3) “时间戳”作为“进入景区时间”进行输出。

4) 增加“离开景区时间”信息,值置为空。

S13、建立游客出入信息库,记录游客进出景区信息,记录内容包括:景区编码、手机号码、进入景区时间、离开景区时间。

S14、S12的输出数据存储到游客出入信息中,针对同一手机号码,数据入库规则如下:

1) 同一自然天内,只入库”进入景区时间戳”最小(早)值的记录;

S15、以景区出口基站获取到的信令数据为待处理数据,按照上述流程,依据游客出入信息库中的手机号和进入景区时间戳,补齐“离开景区时间戳”的值。

所述步骤 S2包括如下步骤:

S21、识别出景区内的信令数据,方法如下:

建立“景区基站关联库”,记录信息包括:基站编码、所在景区编码、重点区域编码。获取到信令数据后,输入到ETL工具DataX中进行数据清洗、转换处理,规则如下:

1)筛除数据项有缺失及数据项格式不正确的信令数据;

2)筛除和景区基站关联库中基站编码不匹配的数据;

3)依据景区和基站的关联关系,信令中补充重点区域编码;

4)得到所需的数据并存入kafka中进行后续处理。

S22,基于S21的数据,分析游客实时在园人数及游客分布,方法如下:

数据处理判断对象均为坐标,故以k,v键值对的形式存储。数据处理的数据流均为从kafka中获取,在Spark中处理,之后实时数据存入Redis,离线部分数据存入Mysql。

数据处理算法的关键点:

①定义变量:

游客所在重点区域变量tourist,k:手机号码,v重点区域编码

重点区域人数k,v变量place,k:重点区域编码,v:当前人数

景区实时人数k,v变量:scenic,k:景区编码,v:在园人数

②处理一条信令时,依据“基站编码”从S21的“景区基站关联库”中的获取游客当前所在的景区编码、重点区域编码。

③依据信令中的手机号码,从tourist<手机号码>中获取游客所在的前一个重点区域,并判断前一重点区域与当前重点区域是否相同。

④如果游客所在的前一个区域与当前重点区域不同,更新tourist<手机号码>中的重点区域为当前重点区域,并将place<前一重点区域编码>的人数减1,place<当前重点区域编码>的人数加1。

⑤如果前一重点区域与当前重点区域的所在的景区不同,将scenic<前一景区编码>的人数减1,scenic<当前景区编码>的人数加1。

所述步骤 S3包括如下步骤:

S31、汇总用户不少于一年的信令数据,计算每个用户在一年内重点区域的停留次数和停留月数,所述停留次数以天为计算单位,一天停留多次记为一次,所述停留月数指用户在规定重点区域内有多少个月有过停留。

S32、针对所有用户统计每个停留次数下的重点区域数,并在每个停留次数下对所有用户求均值。

S33、针对分布数据采用幂函数进行曲线拟合,计算拟合后的曲线曲率,以曲率最大值所对应的停留次数C作为景区惯常地筛选阈值。

曲线拟合基函数为:y=a*x

幂函数曲率计算公式为:K=|y”|/[(1+(y ')

旅游淡旺季的客流变化,会造成停留次统计数据变化幅度比较大,采用平均数分析、拐点分析等传统方法确定的阈值,失真度较大,而幂函数最大曲率法不受数据变化的影响,确定的阈值更精准,更具科学性。

S34、通过计算得到的景区惯常地筛选阈值C,对1得到的数据进行筛选,得到游客对应的景区惯常地。

所述步骤S4包括如下步骤:

S41、人工标注景区内各个重点区域的属性,可分为景点属性和非景点属性,如:卫生间、商铺为非景点属性。

S42、S3获取到的游客行程后,剔除非景点属性的重点区域,形成有效的游客行程。

S43、针对游客有效行程中的重点区域,通过排序方法获取游客浏览点偏好。

排序方法:对重点区域的浏览次数进行降序排序,浏览次数相同时采用浏览时长降序排序,确定最终的重点区域排序,排序越靠前的重点区域越受游客欢迎。

所述步骤 S5包括如下步骤:

S51、针对S2、S3、S4的输出结果,设计计算模型,采用Spark计算引擎进行计算,信令数据及计算结果落盘HBase。

S52、针对景区实时人流量、游客流向等分析项,采用phoenix从HBase的计算结果中统计景区实时人流量、游客流向等输出数据。

1)以景区为单位,输出景区的实时人流量,输出信息包括:输出时间、景区、在园游客数量。

2)以重点区域为单位,输出景区客流流向,输出信息包括:输出时间、景区信息、重点区域、游客数量。

S53、结合运营商CRM中游客的身份信息,分析客源地、游客画像等信息。

1)分别以天、月、年为计算单位,输出客源地信息,输出结果包括:输出时间、统计时段、景区、游客来源地、游客数量。

2)分别以天、月、年为计算单位,输出游客画像信息,输出结果包括:输出时间、统计时段、景区、游客性别占比、游客男女占比、游客年龄占比、游客职业占比、旅游偏好占比、驻留时长占比。

图中具体说明如下:图1中将数据从Kafka中取出后保存游客的数据,然后判断手机号码是否匹配、重点区域是否匹配、景区是否匹配、重点区域及景区是否已被记录。根据不同的判断结果对于权值和重点区域、景区进行不同的操作。

图2中以加密、授权的方式实现运营商信令数据采集、过滤及结果数据流出,同时将流出的海量异构数据以统一的数据标准基于Hadoop架构进行分布式存储。

图3中构建游客行为分析模型,包含外来人群类型细分模型、游客客源地分析模型、游客市内流向趋势分析模型、市内游客分布密度分析模型、不同客源地游客行为习惯分析模型、游客驻留时长分析模型等,针对上述各类模型,基于信令数据的近似全样本、全时段、空间信息的特有属性,对游客行为习惯与空间环境间的复杂关系进行关联、挖掘,针对特定场景、特定人群的空间活动特征进行数据分析,挖掘信令数据资源价值,并通过宏观数据与游客微观数据进行交互验证,从而得到更为精准的结果。

关键分析模型技术要点如下:

1、游客客源地分析模型:基于信令数据中的手机号码,参照运营商提供的“手机号段对应地区编码表”获取游客来源地,进一步进行客源地相关模型的分析。

2、游客市内流向趋势分析模型:基于游客有效行程中的重点区域信息,采用加权有向图算法,以重点区域为顶点,游客在重点区域间的流转次数为加权因子、流动方向为边,构建游客市内流向图。图中权重越大的有向边,代表游客流动趋势越大。

3、市内游客分布密度分析模型:定时统计所有重点区域在统计时刻的游客数量,基于重点区域的位置、游客数量,形成市内游客分布密度。

4、不同客源地游客行为习惯分析模型:以游客客源地为分组,汇总游客有效行程,基于有效行程中的重点区域的浏览次数统计、平均浏览时长统计、各重点区域浏览集中时间点,获取不同客源地游客最喜欢的景点,景点游玩时长,景点游玩时间等信息。

5、游客驻留时长分析模型:基于游客行程中第一个重点区域和最后重点区域的浏览时间点信息,计算游客在市内驻留的开始时间和结束时间,从而获取游客单次的市内驻留时长。计算不同时段内的驻留时长,累加该时段内的单次驻留时长即可。

图4中使上述相关模型分析的数据结果通过用户自定义配置的方式创建可视化数据分析报表予以展示,在旅游管理部门的决策过程中,自由组织、对比各类旅游行业数据,以自定义图形化的方式对游客的旅游行为进行对比、监控、跟踪、分析、预测,自动生成决策计划,进一步提升业务需求人员获取分析数据的效率,提高旅游管理部门行业管理效率和公共服务水平。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号