首页> 中文学位 >Web数据挖掘中XML应用及关联算法改进
【6h】

Web数据挖掘中XML应用及关联算法改进

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景

1.2课题研究状况

1.2.1数据挖掘技术的研究发展状况

1.2.2 Web数据挖掘现状及发展

1.2.3 XML技术的研究发展状况

1.2.4采用XML的Web数据挖掘的研究发展状况

1.3论文组织结构

第二章数据挖掘技术及XML概述

2.1数据挖掘技术

2.1.1数据挖掘的基本概念

2.1.2数据挖掘的任务

2.1.3各种分析方法的简介

2.1.4数据挖掘的流程

2.1.5数据挖掘技术实现

2.2 XML技术概述

2.2.1 XML的基本内容

2.2.2 XML的特点和应用范围

2.2.3 XML与其他文档和数据模型的区别

2.2.4 XML数据处理

2.2.5 DOM简介

第三章WEB数据挖掘的技术和原理

3.1 Web数据挖掘技术概述

3.2 Web内容挖掘(Web Content Mining)

3.2.1 Web内容挖掘两个不同的研究观点

3.2.2 Web文本挖掘概念及相关技术

3.2.3 Web多媒体挖掘

3.2.4特征提取

3.2.5文本分类方法

3.2.6网页分类方法

3.3 Web结构挖掘

3.4 Web用法挖掘(Web usage Mining)

第四章基于XML的Web数据挖掘技术

4.1面向Web的数据挖掘面临的挑战

4.2 XML作为数据交换格式的主要特点

4.3 XML在Web数据挖掘中的应用

第五章系统实现与Apriori算法优化

5.1系统分析与实现

5.1.1源数据收集(Data Gathering)

5.1.2数据预处理(Data Preprocessing)

5.1.3模式发现(Pattern Discovery)

5.1.4模式分析(Pattern Analysis)

5.2 Web数据映射到关系数据库的方法改进

5.2.1 XML数据的生成

5.2.2将XML文档内容映射到关系数据库

5.3 Apriori算法及改进

5.3.1 Apriori算法描述

5.3.2 Apriori算法改进思路

5.3.3 Apriori改进算法基本思想

5.4算法改进实验结果及分析

第六章结束语

参考文献

致谢

展开▼

摘要

面向web的数据挖掘是一项复杂的技术,Web数据挖掘就是利用数据挖掘技术从网络文档和服务中发现和提取信息。Web上的信息五花八门,传统的Internet由各种类型的服务和数据源组成,包括WWW、FTP、Telnet等,现在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子商务数据,以及其他各种通过Web可以访问的数据库。 Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。根据挖掘对象的不同,我们将Web数据挖掘分为三类:Web内容挖掘、Web结构挖掘、Web用法挖掘。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决数据挖掘难题带来了希望。 Apriori算法在关联规则领域有很大的影响力,然而由于需要过于频繁的扫描数据库及较大的空间消耗,仍然有需要改进的地方。通过对Apriori算法进行深入研究,本文提出了一种Apriori改进算法,通过比较分析,获得了较好的效率和性能。 本文完成的主要工作如下: (1)完成了对基于XML的Web数据挖掘的技术研究。本文通过对XML这种近几年出现的具有很大潜力的Internet数据交换技术的研究分析,提出了基于XML的Web挖掘的新思路,并且完成了对XML的Web挖掘系统的系统功能设计。 (2)实现了XML到数据库模式的转化工具。本文主要针对XML的DTD文档,提出了一系列从XML到关系数据库模式的转换算法,从而也就把基于XML的Web数据挖掘与传统的基于关系数据模式的数据挖掘算法建立了联系。 (3)对Apriori算法进行深入分析,并提出了一种优化算法。

著录项

  • 作者

    张学冰;

  • 作者单位

    山东大学;

  • 授予单位 山东大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 郑永清;
  • 年度 2008
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    数据挖掘; 网络文档; 数据库; 用户访问信息;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号