首页> 中国专利> 一种针对网站日志的交互式分析方法

一种针对网站日志的交互式分析方法

摘要

针对网站日志的交互式分析方法,采用日志可视化数据处理系统的可视化分析系统,包括三大组件,数据预处理器、数据服务器和可视化界面组件模块,采用组件分离策略,即系统的每一个组件都能部署在一个单体机器或集群上;数据预处理器对数据进行过滤、清洗、提取,基于原始数据执行简单的数据挖掘操作;数据预处理器基于MapReduce范式进行编写,对来自日志服务器的数据进行加工处理;执行这一过程会将数据切分为以文档为单位的子数据集并将它们送往目标数据库中;在系统架构体系中,数据库起到的是一个中转站的作用,用于存储中间文件,即会话文件。

著录项

  • 公开/公告号CN104951529A

    专利类型发明专利

  • 公开/公告日2015-09-30

    原文格式PDF

  • 申请/专利权人 焦点科技股份有限公司;东南大学;

    申请/专利号CN201510333131.6

  • 申请日2015-06-16

  • 分类号G06F17/30(20060101);

  • 代理机构南京瑞弘专利商标事务所(普通合伙);

  • 代理人陈建和

  • 地址 210003 江苏省南京市高新技术产业开发区星火路软件大厦A座8-12F

  • 入库时间 2023-12-18 11:23:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-17

    授权

    授权

  • 2015-11-04

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150616

    实质审查的生效

  • 2015-09-30

    公开

    公开

说明书

一、技术领域

本发明属于计算机大规模数据分析技术领域,具体涉及一种针对网站日志的交互式 分析技术。

二、背景技术

互联网的飞速发展使得人们的学习与工作越来越依赖于网络,尤其在电子商务和 金融领域,传统的卖场交易模式很大程度上受到了在线交易的影响。像淘宝、京东这 类巨型电子商务网站、以及12306这类突发流量巨大的在线交易网站的出现,不仅 考验着传统的网站架构技术,还考验着商家能否及时有效的应对网站不同群体的需求 变化。对这些大型电商网站而言,访问量的增长使得日志系统每天都会产生大量的访 问记录,如何更加快速乃至实时的了解用户的访问行为模式和浏览偏好信息,如何帮 助企业改善目标群体的使用体验,成为越来越受到关注的课题。数据挖掘与交互式可 视化技术为这一课题提供了行之有效的解决思路。

对于大型电商网站而言,挖掘分析站点的日志数据能够获得网站目标群体的频繁 访问路径模式和浏览偏好等信息。因此通过设计基于Web日志数据的可视化分析系 统,有助于帮助网站管理人员以更加直观简易的方式从日志数据中获得网站的实际运 行动态,为网站的管理和优化提供数据支持。

目前针对大规模数据集的分析与可视化工作,近年来有许多学者展开了对此问题 的研究,Shneiderman首先提出了那条著名的数据分析守则“首先看概况,缩放和过 滤,然后按照需要寻找细节”。遵从这一准则,如果能有效展现数据的全局视图、通 过交互操作放缩数据集、以及利用合理的数据分析方法,那么数据分析将会变得更加 容易。但是,对于大规模数据集而言,很难友好的在单机环境下操作和可视化这些数 据。针对这一问题有很多的解决方案,例如Gephi是一个开源的数据可视化平台, 其使用了基于GPU的图形渲染方案,其能渲染百万级别的网络图,但其缺点是只能 在单机环境下运行。另一种解决方案是,无需展现数据的全局视图,而是通过数据分 析手段展现一个过滤后的子图。Andrienko等人提出并实现了一套工程化的工具包用 于支持大规模时移数据集的可视化探索和分析工作。

现有的日志可视化数据处理系统很多不足。主要有:

1)在数据处理能力方面,面对大规模数据集而言,传统的技术方案,很难友好 的在单机环境下操作和可视化这些数据,至少也需要高性能服务器的支持;2)在交 互式分析方面,传统技术方案往往只是给出统计图表,用户只能被动地接受统计出来 的硬生生的图表,在交互式分析上不是很友好。

三、发明内容

本发明目的是,提出一种针对网站日志的交互式分析方法,尤其是日志可视化数 据处理系统;解决现有的日志可视化数据处理系统的不足。面对大规模数据集而言, 能友好的在单机环境下操作和可视化这些数据;本发明借助于Hadoop集群,可以在 廉价服务器上实现对海量日志数据的处理,并且易于扩展。同时,本方案采用组件分 离的策略,能比较好的支持分布式环境。本发明方案中实现了几种综合几种通用的 交互操作,允许用户与可视化结果进行交互,实现用户过滤、刷新、和探索数据集的 目的。

本发明的技术方案是:针对网站日志的交互式分析方法,采用日志可视化数据处理 系统的可视化分析系统,包括三大组件,数据预处理器、数据服务器和可视化界面组件 模块,采用了组件分离策略,即系统的每一个组件都能部署在一个单体机器或集群上;

数据预处理器(如图2)对数据进行过滤、清洗、提取,基于原始数据执行简单的数 据挖掘操作;数据预处理器基于MapReduce范式进行编写,对来自日志服务器的数据 进行加工处理;数据预处理分为两部分,第一部分是直接从日志中获得的数据,经过 MapReduce处理后直接送入数据库;第二部分需要生成一会话为单位的临时文件,基于 这个临时文件得到其他数据并送入数据库;执行这一过程会将数据切分为以文档为单位 的子数据集并将它们送往目标数据库中;在系统架构体系中,数据库起到的是一个中转 站的作用,用于存储中间文件,即会话文件;

具体工作过程是:

(1)将日志文件从日志服务器中导出,然后上传到分布式文件系统HDFS中;

(2)编写MapReduce程序,实现对日志数据的预处理,以及相关指标的统计和数 据挖掘算法,并将处理得到的结果存入数据库;为提高速度,数据量比较大时先将结果 写入分布式文件系统,然后再导入到数据库中;

(3)数据服务器部分利用Java编写核心业务逻辑,将前端用户的操作解释为对数 据库中文档的数据检索、聚集和挖掘操作,数据服务器模块是通过REST接口向外提供 服务的;

(4)可视化界面通过RESTAPI调用不同的数据获取程序,将得到的数据送给合适 的图形控件来展示。传送到前端的数据集示例(主要以JSON格式):

可视化界面部分利用JavaScript和HTML来编写实现交互分析界面,并向数据服务 器端发送控制指令,然后接收数据(JSON格式)交给对应图形控件展示,整个交互可 视化分析过程如图4。

图2将日志文件从日志服务器中导出,然后上传到分布式文件系统HDFS中;

图3编写MapReduce程序,主要功能是实现对日志数据的预处理,以及相关指标的 统计和数据挖掘算法,并将处理得到的结果存入数据库。为提高速度,数据量比较大时 可以先将结果写入分布式文件系统,然后再导入到数据库中;

(3)数据服务器部分主要是利用Java编写核心业务逻辑,将前端用户的操作解释 为对数据库中文档的数据检索、聚集和挖掘操作,数据服务器模块是通过REST接口向 外提供服务的。可视化界面通过RESTAPI调用不同的数据获取程序,将得到的数据送给 合适的图形控件来展示。

传送到前端的数据集示例(主要以JSON格式):

[{"name":"www.made-in-china.com/productdirectory.do","dup":884},{"name" :"www.made-in-china.com/","dup":583},{"name":"tcsourcing.made-in-china.com/ buying-requests-Manufacturing-Processing-Machinery.html","dup":187},{"name" :"www.made-in-china.com/companysearch.do","dup":121}]

整个交互可视化分析过程如图4。

数据服务器模块是可视化分析系统的核心组件,主要负责向客户端提供数据服务, 服务是通过REST接口提供的。数据服务器(如图3)实现了可视化分析的核心业务逻 辑,主要包括默认数据集的读取和处理操作,在交互分析时,前端的用户操作会被解释 为针对文档的数据检索、聚集、和挖掘操作。需要说明的是,数据服务器并不直接和预 处理器打交道,而是直接操作数据库中的数据。为了实现用户的交互式数据分析,本发 明方案分离了控制流和数据流,数据服务器发送控制指令给预处理器,预处理器接收到 来自数据服务器的控制指令后执行相应的操作,并将数据处理的结果送往数据库。数据 服务器则从数据库获取更新后的数据文档,以用于进一步的数据计算与组装工作。

可视化界面模块是本可视化分析系统的客户端,用于向用户提供交互式分析接口。 可视化界面模块是可视化分析系统中最直接被用户感知的部分,客户端发送请求给数据 服务组件,数据服务组件执行相应操作并将分析结果进行组装,并以文档的形式返回给 可视化界面,可视化界面基于返回的文档选择合适的可视化图形进行展示。可视化界面 允许用户交互行为(如图4),从而提供探索式数据分析服务,用户可以使用选择、查询、 缩放等一系列动作与数据集进行交互。

大多数的可视化工具包集成了这三个功能于一体,但这些工具包大多只能在单机环 境下运行,这使得可视化分析很大程度上依赖于单机处理能力。因此,在本发明方案的 设计中,采用了组件分离策略,也就是说,系统的每一个组件都可以部署在一个单体机 器或集群上,这样的设计方法有利于在分布式环境下部署可视化分析系统,并且不依赖 于单机处理能力。比如,用户可以将数据预处理组件部署在一个Hadoop集群上进行数 据清洗和挖掘操作,并且连接到一个数据库集群来提供数据存储服务。

交互式分析方法可以用图4所描述的分析循环进行表示,其主要包括三个阶段: 针对数据集的过滤与获取,数据的可视化,用户的交互,而这三个步骤又构成了一个 大循环,循环的作用是让用户在与可视化结果交互的过程中不断的获取数据全局或侧 面信息,在循环内部用户通过提出假设,利用可视化结果展开分析,最终验证假设。

为了高效及时的分析和使用大规模日志数据集,数据可视化系统的设计需要遵循 一定的设计原则。本发明的考虑是,所有原则都基于一个核心要素——时间,即确保 用户在可以忍受的时间内获取到需要展示的信息。在数据可视化过程中,把握低价值 高冗余数据中的有效信息对于快速响应起到非常关键的作用。

针对网站日志的交互式分析方法,为了能便于分析者有效及时的分析和使用大规模 日志数据集,实现对海量日志数据的处理,并且易于扩展。同时,采用组件分离的策略, 能比较好的支持分布式环境。

系统设计体现在如下的三个方面:(1)可视化结果需要在用户可忍受的时间内显示 出来,使得用户能获得及时的结果反馈。(2)支持用户对数据的查询操作,用户定义的 查询会转为对数据集的查询与可视化结果的重新构建。(3)提供交互式可视化分析界面, 允许用户在交互过程中获得全局和局部两种视图,以获得数据集中不同侧面的可视化展 示。

本发明的有益效果:本发明方案中借助于Hadoop集群,可以在低成本(廉价) 服务器上实现对海量日志数据的处理,并且易于扩展。同时,本发明方案采用组件分 离的策略,能比较好的支持分布式环境。本发明方案实现了几种通用的交互操作, 允许用户与可视化结果进行交互,实现用户过滤、刷新、和探索数据集的目的。

四、附图说明

图1系统架构图;

图2数据预处理流程图(日志预处理并存入数据库);

图3数据服务器(数据库与可视化界面的交互);

图4交互可视化分析图。

五、具体实施方式

以下结合实例和说明书附图,详细说明本发明的实施过程。

首先,如图2:

(1)把日志文件从日志服务器中导出,然后上传到分布式文件系统HDFS中;

(2)编写MapReduce程序,主要功能是实现对日志数据的预处理,以及相关指标 的统计和数据挖掘算法,并将处理得到的结果存入数据库。(为提高速度,数据量比较 大时可以先将结果写入分布式文件系统,然后再导入到数据库中)。

处理前的日志数据:

1.0.181.143201408102014-08-102014-08-1015:18:25--host1213

GET

/product/lqpmcaUVqotH/China-My6812-24V100W-Electric-Bike-Electric-Scooter-B  elt-Driven-Motor.html https://www.google.co.th/

处理后的日志数据存入数据库中如下:

第二,如图3

(3)数据服务器部分主要是利用Java编写核心业务逻辑,将前端用户的操作解释 为对数据库中文档的数据检索、聚集和挖掘操作,数据服务器模块是通过REST接口向 外提供服务的。可视化界面通过RESTAPI调用不同的数据获取程序,将得到的数据送给 合适的图形控件来展示。

传送到前端的数据集示例(主要以JSON格式):

[{"name":"www.made-in-china.com/productdirectory.do","dup":884},{"name" :"www.made-in-china.com/","dup":583},{"name":"tcsourcing.made-in-china.com/ buying-requests-Manufacturing-Processing-Machinery.html","dup":187},{"name" :"www.made-in-china.com/companysearch.do","dup":121}]

(4)可视化界面部分主要利用JavaScript和HTML来编写实现交互分析界面,并 向数据服务器端发送控制指令,然后接收数据(JSON格式)交给对应图形控件展示, 整个交互可视化分析过程如图4中细化了一些具体操作。

可视化界面借助于各种图形控件实现的(比如饼状图,列表等),作用是数据可视 化和提供一些数据操作。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号