首页> 中国专利> 基于二维码洞察用户路径的方法及系统

基于二维码洞察用户路径的方法及系统

摘要

本发明涉及用户路径洞察技术领域,解决了无法精准的体现用户特征以及描述用户画像不够准确的技术问题,尤其涉及一种基于二维码洞察用户路径的方法,包括以下过程:获取用户上网记录数据;将上述获取的用户上网记录数据进行数据预处理,将经过预处理的用户上网记录数据输入用户访问兴趣度模型,其中用户访问兴趣度模型包括定义访问路径、定义子路径、定义兴趣度、定义兴趣度阈值以及定义兴趣路径。本发明能够通过洞察用户路径信息提高业务质量,满足用户个性化的需求,在海量数据中发现用户的信息,充分利用大数据技术挖掘用户的特征,找到用户的实际需求或潜在需求。

著录项

  • 公开/公告号CN114817711A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 杭州澍脉科技有限公司;

    申请/专利号CN202210394483.2

  • 发明设计人 锁进;

    申请日2022-04-14

  • 分类号G06F16/9535(2019.01);G06F16/955(2019.01);

  • 代理机构合肥汇融专利代理有限公司 34141;

  • 代理人王秀芳

  • 地址 310016 浙江省杭州市江干区钱塘新区白杨街道10号大街(东)300-11号3幢1304室

  • 入库时间 2023-06-19 16:12:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-16

    实质审查的生效 IPC(主分类):G06F16/9535 专利申请号:2022103944832 申请日:20220414

    实质审查的生效

说明书

技术领域

本发明涉及用户路径洞察技术领域,尤其涉及一种基于二维码洞察用户路径的方法及系统。

背景技术

随着移动互联网蓬勃发展,大部分的用户越来越不满足于传统的业务服务和大众化服务,用户对个性化服务要求越来越高,企业通过整合和分析用户路径信息,并结合用户路径信息挖掘用户特征,描述用户画像,帮助向用户有针对的营销比如,精准营销,根据产品的属性,匹配符合该产品的目标用户,从而占据竞争优势、提高收益。

而目前针对用户在Web所产生的用户浏览访问记录日志,在通过Web日志洞察用户路径信息中,并没有把访问路径作为序列来考虑,或者没有考虑访问的时间,导致识别出来的用户路径粒度太粗,在时间因素上的考虑也有欠缺,没有挖掘出用户真正的浏览路径,从而导致不能够精确地体现出用户特征,描述用户画像不够准确。

发明内容

针对现有技术的不足,本发明提供了一种基于二维码洞察用户路径的方法及系统,解决了无法精准的体现用户特征以及描述用户画像不够准确的技术问题,本发明能够通过洞察用户路径信息提高业务质量,满足用户个性化的需求,在海量数据中发现用户的信息,充分利用大数据技术挖掘用户的特征,找到用户的实际需求或潜在需求。

为解决上述技术问题,本发明提供了如下技术方案:一种基于二维码洞察用户路径的方法,包括以下过程:

获取用户上网记录数据,所述用户上网记录数据包括用户在Web所产生的用户浏览访问记录日志,其中用户浏览访问记录日志包括访问频度、访问时间以及访问兴趣;

将上述获取的用户上网记录数据进行数据预处理,所述数据预处理包括数据净化、用户会话识别以及事务路径提取;

将经过预处理的用户上网记录数据输入用户访问兴趣度模型,其中用户访问兴趣度模型包括定义访问路径、定义子路径、定义兴趣度、定义兴趣度阈值以及定义兴趣路径;

输出用户兴趣路径值,得出洞察用户路径信息。

进一步地,所述数据净化包括以下过程:

将Web日志转化为适合数据挖掘的可靠的精确的数据,Web日志记录包括用户IP地址、用户ID、用户请求访问的URL页面、请求方法、访问时间、传输协议、传输的字节数、错误代码相关属性;

删除Web日志中与数据挖掘不相关的冗余项,与数据挖掘相关的只有用户IP地址、用户请求访问的URL页面及访问时间,与数据挖掘不相关的冗余项则采用SQL语句进行清理。

进一步地,所述用户会话识别包括以下过程:

获取Web日志中有效的单次用户请求访问的URL页面及访问时间;

对用户有效的单次用户请求访问的URL页面及访问时间设定定义;

识别用户会话,如果用户连续的两页面时间的差值超过一定的界限则认为用户开始了一个新的会话。

进一步地,所述用户会话识别还包括以下过程:

对用户会话进行划分,将用户会话划分为具有一定语义的事务;

按一定时间排序内的所有访问事务构成事务会话集,其中事务会话集由多个用户访问行为组成,用户访问行为从Web日志数据中获取。

进一步地,所述从Web日志数据中获取用户访问行为包括以下过程:

对Web日志数据进行预处理,该处的预处理为上述的数据净化过程;

根据每一个访问者的IP地址划分Web日志,即在Web日志中寻找每一个访问者的访问记录集;

对每一个访问者的访问记录集,根据C进行分割,找到每一个访问者的每一次访问记录集,每一次访问集构成一个访问行为;

在访问事务中保留第一次出现的URL地址,如重复出现,其余的则被删除;

最终按时间排序的所有访问事务构成事务会话集。

进一步地,所述事务路径提取采用包括以下过程:

获取URL序列中当前访问页的引用页;

判断URL序列中当前访问页的引用页是否等于前一个访问页,如果URL序列中当前访问页的引用页等于前一个访问页,则将这两个访问页连接起来;

否则,将当前己连接起来的访问页作为一条MFP输出到哈希表中临时保存,同时从存放针对该会话已识别出的MFP的哈希表中找到包含该引用页的最近的一条MFP,并返回这条MFP从开始到出现引用页的那段路径,用于连接下一个访问页,重复上述过程,直至处理完URL序列中的最后一个访问页,最后,哈希表中的内容便是从该会话中识别出的MFP;

将一个用户的所有路径合并在一条记录中,最终在数据库显示中每个用户的信息包括:用户id、所有的事务路径、每个路径中每个访问页面对应的停留时间。

本发明还提供了一种用于执行上述洞察用户路径方法的装置,包括:

数据获取模块,所述数据获取模块用于取用户上网记录数据,所述用户上网记录数据包括用户在Web所产生的用户浏览访问记录日志,其中用户浏览访问记录日志包括访问频度、访问时间以及访问兴趣;

数据预处理模块,所述数据预处理模块用于将上述获取的用户上网记录数据进行数据预处理,所述数据预处理包括数据净化、用户会话识别以及事务路径提取;

输入模型模块,所述输入模型模块用于将经过预处理的用户上网记录数据输入用户访问兴趣度模型,其中用户访问兴趣度模型包括定义访问路径、定义子路径、定义兴趣度、定义兴趣度阈值以及定义兴趣路径;

输出模块,所述输出模块用于输出用户兴趣路径值,得出洞察用户路径信息。

本发明还提供了一种用于执行上述洞察用户路径方法以及装置的系统,包括:

用户端,所述用户端用于出示编码标签并授予权限;

识别设备,所述识别设备用于扫描用户端出示的编码标签并识别与其相对应的用户信息;

本地服务器,所述本地服务器用于根据编码标签获取用户上网记录数据,并根据上网记录数据洞察用户路径信息;

运营商服务器,所述运营商服务器用于通过预设传输协议向本地服务器发送用户上网记录数据。

进一步地,所述编码标签为二维码。

借由上述技术方案,本发明提供了一种基于二维码洞察用户路径的方法及系统,至少具备以下有益效果:

1、本发明通过对访问路径作为序列来考虑并结合用户访问的时间,同时对用户上网记录数据进行数据预处理,并通过运算分析挖掘出用户真正的浏览路径,解决了无法精准的体现用户特征以及描述用户画像不够准确的技术问题。

2、本发明能够通过洞察用户路径信息提高业务质量,满足用户个性化的需求,保持、提高用户忠诚度,在海量数据中发现用户的信息,充分利用大数据技术挖掘用户的特征,找到用户的实际需求或潜在需求,进而向用户推荐符合用户偏好的服务或业务,推动企业业务发展和进步,提高企业服务能力。

3、本发明能够通过洞察用户路径信息为分析用户信息和挖掘用户特征提供依据,为向用户精准营销和精准推荐提供数据支持,提高服务质量,增加用户忠诚度和信赖度,帮助业务人员了解用户行为分布情况,对海量用户的行为习惯形成宏观了解。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本发明实施例一中基于二维码洞察用户路径方法的流程图;

图2为本发明实施例一中基于二维码洞察用户路径方法的原理图;

图3为本发明实施例一中数据净化方法的流程图;

图4为本发明实施例一中用户会话识别方法的流程图;

图5为本发明实施例一中事务路径提取方法的流程图;

图6为本发明实施例一中洞察用户路径的装置的原理框图;

图7为本发明实施例一中洞察用户路径的系统的原理图;

图8为本发明实施例二中用户会话识别方法的流程图;

图9为本发明实施例二中获取用户访问行为方法的流程图。

图中:101、数据获取模块;102、数据预处理模块;103、输入模型模块;104、输出模块;100、用户端;200、识别设备;300、本地服务器;400、运营商服务器。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

实施例一

请参照图1-图7,示出了本发明实施例一的一种具体实施方式,具体内容如下:

一种基于二维码洞察用户路径的方法,包括以下过程:

S10、获取用户上网记录数据,用户上网记录数据包括用户在Web所产生的用户浏览访问记录日志,其中用户浏览访问记录日志包括访问频度、访问时间以及访问兴趣,每当用户访问Web站点时,所访问的页面、时间、用户ID等信息,在log日志中都有相应的记录,分析Web日志,捕捉用户日志中微妙联系,发现用户浏览站点的共同行为,挖掘出其中有用的信息;

S20、将上述获取的用户上网记录数据进行数据预处理,数据预处理包括数据净化、用户会话识别以及事务路径提取;

数据净化包括以下过程:

S211、将Web日志转化为适合数据挖掘的可靠的精确的数据,Web日志记录包括用户IP地址、用户ID、用户请求访问的URL页面、请求方法、访问时间、传输协议、传输的字节数、错误代码相关属性;

S212、删除Web日志中与数据挖掘不相关的冗余项,与数据挖掘相关的只有用户IP地址、用户请求访问的URL页面及访问时间,与数据挖掘不相关的冗余项则采用SQL语句进行清理;其中URL页面中除了用户关心的正文外,还包括图像、声音、视频等辅助信息,挖掘日志的目的是找出用户的共同访问模式,关于辅助信息的记录是无用的可以删除,通过检查URL的后缀来实现,后缀为gif、jpg、jpeg、map、css、js、cgi等无关请求的记录都自动删除;

从Web日志中我们想得到的是用户的行为和数据之间的关系,然而日志中包括大量与此无关的信息,为了减少处理的数据量,必须消除不相关数据,由此能够最大程度上减少数据处理量,提高对于数据挖掘的可靠性。

用户会话识别包括以下过程:

S221、获取Web日志中有效的单次用户请求访问的URL页面及访问时间;

S222、对用户有效的单次用户请求访问的URL页面及访问时间设定定义;定义公式如下:

US=

在式中:US为用户会话,userid为用户标识,PS为用户在一段时间内请求的Web页面集合,Pid为请求页面的标识符;

S223、识别用户会话,如果用户连续的两页面时间的差值超过一定的界限则认为用户开始了一个新的会话,具体表示为:

Time

其中Time

超时阈值设为30min,在用户会话过后,一条会话信息包括:会话id、用户id、用户访问的URL序列、每个URL相对应的引用页(Ref)及每个访问页面的停留时间,页面的停留时间从Web日志中计算得到,如:第i个页面的停留时间等于该用户访问第i+1个页面的时刻减去访问第i个页面的时刻。

事务路径提取采用包括以下过程:

S231、获取URL序列中当前访问页的引用页;

S232、判断URL序列中当前访问页的引用页是否等于前一个访问页,如果URL序列中当前访问页的引用页等于前一个访问页,则将这两个访问页连接起来;

否则,将当前己连接起来的访问页作为一条MFP输出到哈希表中临时保存,同时从存放针对该会话已识别出的MFP的哈希表中找到包含该引用页的最近的一条MFP,并返回这条MFP从开始到出现引用页的那段路径,用于连接下一个访问页,重复上述过程,直至处理完URL序列中的最后一个访问页,最后,哈希表中的内容便是从该会话中识别出的MFP;

S233、将一个用户的所有路径合并在一条记录中,最终在数据库显示中每个用户的信息包括:用户id、所有的事务路径(页面用编号代替)、每个路径中每个访问页面对应的停留时间(以“秒”为单位);

本实施例充分利用了日志记录中的引用页字段,可以不经过路径补全,直接在会话识别后进行,从而简化了数据预处理的过程且能有效地从用户会话中识别事务。

每个事务中最后一个页面就是用户感兴趣的内容页面,那么这条路径就是用户为了找到这个内容页面所进行的浏览行为,即事务路径是用户为了达到某个感兴趣的内容页面的一种浏览行为,能够准确的发现用户的兴趣和行为习惯。

S30、将经过预处理的用户上网记录数据输入用户访问兴趣度模型,其中用户访问兴趣度模型包括定义访问路径、定义子路径、定义兴趣度、定义兴趣度阈值以及定义兴趣路径;

其中,定义访问路径为:将用户访问某个页面的请求称为一个事件,因此Web日志文件中的每条记录可以看成是由某个用户的若干事件组成的,事件按发生时间的升序排列,称为访问路径。

设U是网站中所有URL的集合,Web日志文件中的一条访问路径S=<(URL

定义子路径为:如果路径S=<(URL

定义兴趣度为:用一个四元组(URL

兴趣度值(平均阅读时间)越大表示用户对该页面单位信息量阅读时间越长,则用户对该页面越感兴趣,相反,值越小表示当访问到该页时,用户平均阅读的时间短,则对此页面不感兴趣;

定义兴趣度阈值为:设定一个兴趣度阈值Sup

定义兴趣路径为:由兴趣页面组成的页面序列称为兴趣路径。

如果路径T是兴趣路径,那么T的每一个子路径S也是兴趣路径。

证明如果路径T是兴趣路径,根据兴趣路径的定义,其中包含的每个页面都是兴趣页面,则T的每一个子路径S也是兴趣路径。

S40、输出用户兴趣路径值,得出洞察用户路径信息。

如图2所示,本地服务器向运营商服务器发送获取用户上网记录数据指令,运营商服务器通过预设传输协议向本地服务器发送用户上网记录数据;本地服务器获得用户上网记录数据,将上述获取的用户上网记录数据预处理;将经过预处理的用户上网记录数据输入用户访问兴趣度模型;输出用户兴趣路径值,得出洞察用户路径信息。

本实施例还提供了一种用于执行上述洞察用户路径方法的装置,包括:

数据获取模块101,数据获取模块101用于取用户上网记录数据,用户上网记录数据包括用户在Web所产生的用户浏览访问记录日志,其中用户浏览访问记录日志包括访问频度、访问时间以及访问兴趣;

数据预处理模块102,数据预处理模块102用于将上述获取的用户上网记录数据进行数据预处理,数据预处理包括数据净化、用户会话识别以及事务路径提取;

输入模型模块103,输入模型模块103用于将经过预处理的用户上网记录数据输入用户访问兴趣度模型,其中用户访问兴趣度模型包括定义访问路径、定义子路径、定义兴趣度、定义兴趣度阈值以及定义兴趣路径;

输出模块104,输出模块104用于输出用户兴趣路径值,得出洞察用户路径信息。

本实施例还提供了一种用于执行上述洞察用户路径方法以及装置的系统,包括:

用户端100,用户端100用于出示编码标签并授予权限;

识别设备200,识别设备200用于扫描用户端100出示的编码标签并识别与其相对应的用户信息;

本地服务器300,本地服务器300用于根据编码标签获取用户上网记录数据,并根据上网记录数据洞察用户路径信息;

运营商服务器400,运营商服务器400用于通过预设传输协议向本地服务器300发送用户上网记录数据。

如图7所示,本实施例所提供的用于执行上述洞察用户路径方法以及装置的系统在使用时包括以下过程:

S1、用户出示编码标签;

S2、扫描用户出示的编码标签;

S3、用户授予设别设备读取个人信息权限;

S4、识别与用户相应的编码标签信息;

S5、发送用户编码标签信息至本地服务器;

S6、接收用户编码标签信息;

S7、根据用户编码标签信息获取用户上网记录数据;

S8、发送获取用户上网记录数据指令;

S9、接收本地服务器发出的获取数据指令;

S10、通过预设传输协议向本地服务器发送用户上网记录数据;

S11、根据获取的用户上网记录洞察用户路径信息。

通过本实施例能够对访问路径作为序列来考虑并结合用户访问的时间,同时对用户上网记录数据进行数据预处理,并通过运算分析挖掘出用户真正的浏览路径,解决了无法精准的体现用户特征以及描述用户画像不够准确的技术问题。

实施例二

请参照图8-图9,示出了本发明实施例二的用户会话识别的流程图以及获取用户访问行为方法的流程图,用户会话识别包括以下过程:

S224、对用户会话进行划分,将用户会话划分为具有一定语义的事务,选取一个浏览时间的最大阈值,一旦页面的浏览时间超过了这个阈值,则认为在该页面终止了访问,开始了一个新的事务;

S225、按一定时间排序内的所有访问事务构成事务会话集,其中事务会话集由多个用户访问行为组成,用户访问行为从Web日志数据中获取,每一个用户访问行为相当于用户对站点的一条访问路径序列,一段时间内群体用户访问行为构成对站点的访问路径集合,找到用户访问行为集,则可以对其进行分割聚类,从Web日志数据中获取用户访问行为的过程如下:

从Web日志数据中获取用户访问行为包括以下过程:

S2251、对Web日志数据进行预处理,该处的预处理为上述的数据净化过程;

S2252、根据每一个访问者的IP地址划分Web日志,即在Web日志中寻找每一个访问者的访问记录集;

S2253、对每一个访问者的访问记录集,根据C进行分割,找到每一个访问者的每一次访问记录集,每一次访问集构成一个访问行为;

S2254、在访问事务中保留第一次出现的URL地址,如重复出现,其余的则被删除;

S2255、最终按时间排序的所有访问事务构成事务会话集;

在本实施例中,会话是指同一个用户连续请求的页面,不同用户访问的页面属于不同的会话,如果同一用户访问的页面跨越时间较长可认为用户的访问不止一次,可使用时间戳timeout如果用户访问页面时间差超过了timeout,则认为用户开始了一个新的会话。

在此基础上对用户会话事务进行识别,用户会话对数据挖掘来讲,显得粗糙,仍不够精确,需把会话进一步分成具有一定语义的事务,采用最大前向引用路径来定义事务,对于每个用户会话,从开始页面为起点,每个最大前向引用路径为一个事务,最终按时间排序的所有访问事务构成事务会话集。

本实施例的用户会话识别用于实现前述多个方法实施例中相应的洞察用户路径方法、装置及系统,并具有相应的方法实施例的有益效果,在此不再赘述。

本发明能够通过洞察用户路径信息提高业务质量,满足用户个性化的需求,保持、提高用户忠诚度,在海量数据中发现用户的信息,充分利用大数据技术挖掘用户的特征,找到用户的实际需求或潜在需求,进而向用户推荐符合用户偏好的服务或业务,推动企业业务发展和进步,提高企业服务能力。

本发明能够通过洞察用户路径信息为分析用户信息和挖掘用户特征提供依据,为向用户精准营销和精准推荐提供数据支持,提高服务质量,增加用户忠诚度和信赖度,帮助业务人员了解用户行为分布情况,对海量用户的行为习惯形成宏观了解。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于以上各实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上实施方式对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号