首页> 中文学位 >基于Web日志挖掘和关联规则的个性化推荐系统模型研究
【6h】

基于Web日志挖掘和关联规则的个性化推荐系统模型研究

代理获取

目录

声明

摘要

第1章 引言

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 Web日志挖掘研究现状

1.2.2 推荐系统研究现状

1.3 论文主要研究内容和创新点

1.3.1 论文主要研究内容

1.3.2 论文主要创新点

1.4 论文结构安排

第2章 相关理论概况

2.1 数据挖掘

2.1.1 数据挖掘背景

2.1.2 数据挖掘的过程

2.1.3 数据挖掘方法

2.2 Web数据挖掘

2.2.1 Web数据挖掘背景

2.2.2 Web数据挖掘分类

2.2.3 Web数据挖掘处理流程

2.3 Web日志挖掘

2.3.1 Web日志挖掘背景与应用

2.3.2 Web日志挖掘流程

2.4 Apriori算法

2.5 本章小结

第3章 Web日志挖掘预处理技术

3.1 Web日志挖掘数据源

3.1.1 客户端数据

3.1.2 代理服务器端数据

3.1.3 服务端数据

3.2 Web日志挖掘预处理的过程

3.3 Web日志挖掘的预处理

3.3.1 数据清理

3.3.2 用户识别

3.3.3 会话识别

3.3.4 路径补充

3.3.5 事务识别

3.4 本章小结

第4章 Web使用挖掘中的频繁访问模式发现

4.1 关联规则概述

4.1.1 关联规则的相关定义

4.1.2 关联规则的分类

4.2 经典关联规则挖掘算法

4.2.1 Apriori算法

4.2.2 Apriori算法举例

4.2.3 Apriori算法性能分析

4.3 加权关联规则挖掘

4.3.1 加权关联规则模型

4.3.2 W-Apriori算法

4.3.2 算法性能分析

4.5 本章小结

第5章 基于Web日志挖掘的个性化推荐研究及应用

5.1 系统框架设计

5.2 系统运行软硬件环境

5.3 离线推荐模块

5.3.1 Web日志预处理模块

5.3.2 频繁访问模式发现

5.4 在线推荐模块

5.5 本章小结

第6章 总结与展望

6.1 现有工作总结

6.2 未来工作展望

参考文献

致谢

发表论文

展开▼

摘要

随着科学技术的飞速发展,互联网提供的丰富信息在助推社会产业部门升级的同时也带来了一些问题,如信息的急速增长易产生大爆炸效应,造成“信息过载”。同时,为了对互联网用户提供更加全面的信息资源,网站经营者和管理者不断向Web站点中添加信息,这就使得Web站点的拓扑结构日益复杂化。由于向Web站点新添加的资源可能不符合用户的真实需求,易造成用户浏览Web站点时出现“资源迷向”。因此,如何从海量的数据中发现人们感兴趣的信息是我们面临的问题。所以,出现了数据挖掘在Web站点分析中的应用,即Web挖掘。
  Web挖掘是一项综合技术,它涉及Web技术、数据挖掘、信息学、计算机语言学等多个领域。Web挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类,Web使用挖掘,智能查询,建立Metaweb数据仓库等。Web使用挖掘就是从服务器日志中发现用户行为特征和导航模式。本文系统阐述了数据挖掘、Web挖掘以及Web使用挖掘的整个流程,重点研究了Web日志预处理过程、关联规则挖掘模型和滑动窗口推荐模型三方面内容。
  首先,Web日志预处理过程包括:数据清理、用户识别、会话识别、路径补充和事务识别。经过预处理阶段,可以从用户访问信息中去除大量无关的数据,同时也对Internet上的用户访问信息进行结构化处理,并将其以事务或会话的形式保存在关系数据库中。
  然后,对预处理后的数据,本文采用加权关联规则对其进行挖掘。
  经典的关联规则挖掘算法Apriori不仅能够发现Web访问页面之间的相互联系,而且对发现用户偏好导航模式有重要作用。但是,将Apriori算法应用于Web日志挖掘也有其主观局限性。Apriori算法隐含的假设是所有页面的重要性是相同的,它并没有考虑到页面之间的差异性,因此,使用该规则挖掘出来的数据中可能会遗漏掉某些用户感兴趣的页面。
  针对Apriori算法在Web日志挖掘应用中存在的不足,本文引入“页面权值”这一概念,它反映了用户对页面的真实喜好。根据页面权值的定义,我们综合考虑用户对页面的浏览时间和访问频次两个因素,并在此基础上提出了W-Aprio算法。该算法采用扩展布尔矩阵的表示方式来描述事务数据库,这样有助于事务数据库的压缩。同时,权值的引入也有利于区分页面之间的差异,有效地解决了挖掘过程中遗漏某些重要页面的问题。
  最后,本文将挖掘得到的规则形成规则库,结合使用滑动窗口技术,设计实践基于关联规则挖掘的Web日志推荐模型。该模型不仅能够有效解决“信息过载”和“资源迷向”等问题。而且可以将用户感兴趣的页面推荐给相关Web用户,实现推荐的个性化。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号