首页> 中国专利> 基于操作流的异步交互式数据挖掘系统及方法

基于操作流的异步交互式数据挖掘系统及方法

摘要

本发明涉及AJAX领域和数据挖掘集成技术领域,公开了一种基于操作流的异步交互式数据挖掘系统,包括客户端和服务器端,客户端采用GWT-EXT构建AJAX用户界面;服务端架设在Web容器上,包括以下几个模块:基于语义集成的分布式数据库模块,操作符参数模块,用户管理模块,Rapid Miner内核模块。本发明具有无需安装软件,使用方便的优点。

著录项

  • 公开/公告号CN101276371A

    专利类型发明专利

  • 公开/公告日2008-10-01

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN200810060418.6

  • 申请日2008-04-18

  • 分类号G06F17/30;

  • 代理机构杭州裕阳专利事务所(普通合伙);

  • 代理人应圣义

  • 地址 310000 浙江省杭州市西湖区浙大路38号

  • 入库时间 2023-12-17 20:49:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-12-05

    授权

    授权

  • 2012-09-05

    著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20080418

    著录事项变更

  • 2008-11-26

    实质审查的生效

    实质审查的生效

  • 2008-10-01

    公开

    公开

说明书

技术领域

本发明涉及AJAX领域和数据挖掘集成技术领域,特别是涉及一种数据挖掘系统及方法。

背景技术

随着信息和知识经济时代的飞速发展,各科学研究领域都已积累了大量的科学数据,而且这些数据仍在呈指数级不断增长的趋势。如何从海量的数据中获取有意义的信息,分析其中的有效特征,就成了一个很大的问题。

首先,越来越多的数据被存储在分布式数据库,复杂的数据库结构,如何从庞大的数据库中获取需要的数据无疑也增加了数据挖掘的困难。其次,是各种数据格式、结构各不相同,同样一个算法,可能每次处理不同格式的数据,都需要修改源代码;同样当需要把结果集以不同的格式输入到文件或数据库时,也需要修改代码。再者,目前的数据挖掘都依赖于特定的软件,必需先安装才能使用。

进一步的,当前使用的数据挖掘系统的Web站点强制用户进入提交/等待/重新显示范例,用户的动作总是与服务器的“思考时间”同步。

发明内容

本发明的目的在于提供一种无需安装软件,使用方便的基于操作流的异步交互式数据挖掘系统及方法。

本发明解决其技术问题采用的技术方案如下:

一种基于操作流的异步交互式数据挖掘系统,包括客户端和服务器端,客户端采用GWT-EXT构建AJAX用户界面;服务端架设在Web容器上,包括以下几个模块:

基于语义集成的分布式数据库模块,用于提供基于语义的分布式数据库访问,用户在不需要知道分布式数据库结构的情况下,就能根据自己的领域知识获取需要的数据。

操作符参数模块,用来为客户端提供操作符参数服务,当用户在客户端使用和配置某个操作符时,客户端把操作符名字异步发送至服务端,再由操作符参数模块返回该操作符的参数信息。

用户管理模块,用于操作符远程文件参数配置、新用户注册申请批准、用户验证、实验管理、管理员权限设置。

Rapid Miner内核模块,用来运行用户实验,并提供操作符应用接口,返回挖掘结果集。

一种基于操作流的异步交互式数据挖掘系统,还包括web service模块,用于应用各大互连网公司提供的开放API,从互连网获取数据,作为数据挖掘的数据源。

一种基于操作流的异步交互式数据挖掘系统,还包括数据库模块,用来以JDBC方式连接普通数据库,并提供数据库用户向导,可以保存用户连接配置到服务端,根据用户选择动态生成SQL语句,还能提供SQL执行结果预览。

一种基于操作流的异步交互式数据挖掘系统,所述的Web容器为ApacheTomcat服务器。

一种利用基于操作流的异步交互式数据挖掘系统的数据挖掘方法,主要包括以下几个步骤:

501、用户通过浏览器登陆该系统;

502、客户端发送用户登陆信息至服务端的用户管理模块进行权限验证;

503、新建数据挖掘试验;

504、服务端的用户管理模块对用户工作目录进行管理,添加新试验;

505、从操作符列表中选取需要的操作符、操作符子链,创建操作符树;

506、当用户选择操作符时,客户端发送操作符名至服务端,操作符参数模块负责把操作符提示信息异步发送到客户端;

507、操作符参数模块同时把操作符参数信息以xml形式发送至客户端;

508、配置操作符参数,客户端已经有获取的操作符信息;

509、提交数据挖掘实验,同时保存;

5010、客户端把数据挖掘操作树转化成xml,提交给RapidMiner内核,RapidMiner内核启动一个新的实验进程运行该数据挖掘实验;

5011、实验运行完毕,把结果集发送至客户端;

5012、客户端以图表形式展示结果集。

本发明与背景技术相比,具有的有益的效果是:

●完整性:基于操作流的异步交互式数据挖掘系统及方法包括抽象与构建操作符库、构建数据挖掘实验室树、操作符参数配置、实验提交与运行、操作流断点调试、结果集返回与可视化、系统配置与用户管理等七个步骤,是一套完整的数据挖掘系统及方法的解决方案。

●扩展性:通过可配置的注册机制,实现自定义操作符的加入和整合;只要遵循定义好的接口,就可以开发自定义的操作符,经注册以后就可以直接投入使用。

●可重用性:所有的操作符在一个实验里均可重复使用,极大的提高了软件的可重用性。

●透明性:本发明把输入输出、格式处理等从算法中剥离出来作为独立的操作符,系统使用者只需要了解各个操作符的意义与参数配置,修改数据挖掘流程,不再需要修改数据挖掘程序源代码,只需要调整实验树上的操作符即可。

●易用性:用户只需要有浏览器即可,不需要安装其它任何的程序或插件;而且可以把实验保存在中心服务器上,实现只要有网络就能随时随地的数据挖掘。同时Dartgrid的语义特性,使用户不再需要了解数据库的数据结构的情况下,能够根据自己的领域知识,执行语义查询得到数据结果集对其执行数据挖掘操作。

●动态配置:所需要挖掘的数据库支持动态分配,只需要将要挖掘的数据库添加到数据库注册文件中,系统便能动态感知。

附图说明

图1为本发明基于操作流的异步交互式数据挖掘系统的架构示例图;

图2为本发明的系统流程图;

图3为本发明的操作符概念示例图;

图4为本发明的基于语义数据源模块示例图;

图5为本发明的数据库操作符配置示例图;

图6为本发明的用户管理模块示例图。

具体实施方式

如图1、2所示,本发明的基于操作流的异步交互式数据挖掘系统,由客户端和服务端组成。客户端采用GWT-EXT构建AJAX用户界面,服务端可以架设在Apache的Web容器上,采用RapidMiner作为内核,由自定义算法包和weka算法包支持。同时支持基于语义集成的分布式数据库查询作为数据挖掘数据源、利用web service模块从互连网获取数据作为数据源。系统包括以下几个模块:基于语义集成的分布式数据库模块,操作符参数模块,数据库模块,用户管理模块和web service模块,RapidMiner内核模块。

基于语义集成的分布式数据库模块,支持基于语义集成的分布式数据库查询作为数据挖掘数据源。这里提供的是基于语义的分布式数据库的数据挖掘操作,本功能模块的结构框图,如图4所示,其中包括客户端和服务端两部分,在执行Dartquery操作符之前,必须先准备好需要挖掘的数据库注册文件,及其对应的语义映射文件和本体注册文件。具体包含以下步骤:

401、系统启动时,将调用Dartgrid内核对数据库注册文件,及其对应的语义映射文件分别经行解析,执行数据库资源注册和语义注册;

402、对本体注册文件进行解析,通过Ajax技术将本体信息以树状结构的方式展示给用户;

403、用户点击本体树,选择需要查询的本体,并配置查询条件,将查询的本体信息提交给服务端;

404、服务端对提交的查询本体信息进行解析,以Dartgrid内核需求的格式封装查询本体信息;

405、Dartgrid内核根据查询本体信息,执行语义查询,在注册的数据库中取得数据;

406、服务端将得到的数据结果集返回给客户端,由其制定需要的数据挖掘操作执行数据挖掘;

操作符参数模块:将数据挖掘中的常用操作,如:数据输入输出、数据预处理、挖掘算法、结果可视化抽象成单个独立的操作符,每个操作符都有自己的参数,由操作符的嵌套、组合、参数配置构成一个数据挖掘实验;其中多个操作符可以组成子操作流,一条操作流可以由若干操作符和子操作流嵌套组合形成。如图3所示,各操作符组成一个实验树,操作符1的输出作为操作符2的输入,以此类推;同时操作符3是一个操作符链,它又由3个子操作符构成,这个操作符链的输入就是操作符3的输入,它的输出就是操作符3的输出。进一步的在操作流中可设置断点,当实验运行到该断点时就暂停,并返回当前的结果集;有了断点功能,用户很容易进行Debug,发现实验中问题的根源所在;也可以为每一个操作符设置断点,以观察实验的每一步进展。

数据挖掘操作符种类繁多,参数也各不相同,本系统支持多种参数配置,并为比较复杂的参数提供用户配置向导。参数类别及配置方式如下:

(1)数值型,以文本框的形式用户直接输入;

(2)布尔型,以单选框的形式,用户勾选;

(3)常量字符数组或常量数值数组,以下拉框的形式供用户选择;

(4)文件,为数据挖掘的数据来源或者结果集的保存对象。该系统在服务端为每个用户建立一个用户实验目录,通过配置向导用户可以对自己的实验目录进行远程文件操作:上传文件、删除文件、预览文件内容;当选择好需要的文件,配置向导自动填充文件路径作为参数,提高了用户友好性;这里填充的是相对路径,保证了服务端文件系统安全,同时支持Windows和Linux系统。

数据库模块为数据挖掘提供数据来源或者结果集保存。数据库操作符的参数配置过程如图5所示,主要有以下几个步骤:

501、添加数据库连接操作符到操作树中;

502-503、由于数据库访问配置比较复杂,该系统提供了强大的用户向导,当创建一个新的数据库配置时,用户可以保存该配置,这样当下次需要再用到该配置时,只要载入这个配置就可以了,这样也方便了一般用户使用系统管理员提供的数据库链接配置;

504-505、连接测试,客户端把连接配置发送至服务端,数据库模块负责测试服务器与连接配置描述的数据库之间的连接,并把测试结果发送到客户端;

506、当连上数据库时,配置向导列出数据库上所有的表格;

507-508、用户选择需要的表格及其中的列,向导自动生成相应的SQL查询语句,并发送至服务端;

509-510、服务端数据库模块提供当前SQL结果集,并发送少量数据至客户端进行预览,极大方便用户从数据库中获取需要的数据。

用户管理模块主要由新用户注册申请批准、用户验证、实验管理、管理员权限的用户添删、授权等功能部件组成。用户的信息被存储在加密文件中,并通过服务端的功能模块管理和维护。客户端和服务端之间通过异步通信的方式传递消息,用户的注册或验证信息在服务端经过加密验证后返回客户端,并作为是否创建用户信息或启动权限用户功能的判断标准。远程文件操作通过xml格式的数据流传送控制信息和文件描述。管理员操作部分在成功通过管理员权限验证的情况下被启用,这部分功能主要针对用户信息的管理,包括功能授权和删除等。图6中给出了用户系统的示例图,用户系统的具体执行流程如下:

601、用户在客户端填写注册信息并提交到服务端;

602、用户提交的信息在服务端经过合理性排查,如果符合条件则创建新的用户文件,否则生成错误提示。并将回馈信息发送给客户端,产生提示窗口;

603、用户进行权限操作时验证合法性,当用户需要进行实验配置和文件操作的时候,输入用户名和密码进行用户合法性验证以获取权限;

604、用户的验证信息在服务端进行MD5验证,并将验证结果发送回客户端作为启动用户使用功能的依据;

605、被授予文件操作权力的用户,通过客户端提供的图形文件管理界面控制在服务端的用户文件;

606、服务端接受用户的文件操作信息,进行文件操作,并将操作后生成的新的文件描述信息以xml文件的方式发送回客户端,客户端根据xml文件的内容刷新管理界面中文件描述;

607、通过管理员验证的用户,可以通过管理员专有的图形控制界面来进行用户管理相关的操作,操作信息被上传到服务端对应的执行模块中;

608、服务端执行客户端传来的操作,并将新的用户信息描述传送回客户端以更新客户端管理界面中的显示。

web service模块,用于应用各大互连网公司提供的开放API,从互连网获取数据,作为数据挖掘的数据源。

如图2所示,利用基于操作流的异步交互式数据挖掘系统的数据挖掘方法,主要包括以下几个步骤:

201、用户通过浏览器登陆系统;

202、客户端发送用户登陆信息至服务端用户管理模块进行权限验证;

203、新建数据挖掘试验;

204、服务端的用户管理模块对用户工作目录进行管理,添加新试验;

205、从操作符列表中选取需要的操作符、操作符子链,构建操作符树;

206-207、当用户选择操作符时,客户端发送操作符名至服务端,操作符参数模块负责把操作符提示信息异步发送到客户端;

208、操作符参数模块同时把操作符参数信息以xml形式发送至客户端;

209、配置操作符参数,客户端已经于有206-208获取的操作符信息;

210、提交数据挖掘实验,同时保存;

211、客户端把数据挖掘操作树转化成xml,提交给RapidMiner内核。RapidMiner内核启动一个新的实验进程运行该数据挖掘实验;

212、实验运行完毕,把结果集发送至客户端。用户不需要等待试验结束,就可以在浏览器中进行其它操作,这是AJAX技术的最大特点;

213、客户端以图表形式展示结果集。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号