首页> 中文学位 >基于Hadoop的web用户访问偏好分类研究
【6h】

基于Hadoop的web用户访问偏好分类研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题研究背景与意义

1.2 国内外研究现状

1.3 论文内容与结构

第二章 相关技术介绍

2.1 文本分类相关技术

2.2 朴素贝叶斯分类算法

2.3 Hadoop相关技术

2.4 本章小结

第三章 基于Hadoop的并行分词

3.1 改进分词算法

3.2 Hadoop平台下并行分词

3.3 实验与分析

3.4 本章小结

第四章 基于Hadoop的朴素贝叶斯模型

4.1改进的朴素贝叶斯算法

4.2基于Hadoop的朴素贝叶斯分类

4.3 实验与分析

4.4 本章小结

第五章 Web用户访问偏好分析

5.1 Web用户访问偏好需求分析

5.2 数据采集

5.3 数据预处理

5.4 用户访问内容分类

5.5 统计分析用户访问偏好

5.6 本章小结

第六章 总结与展望

6.1 全文小结

6.2 工作展望

参考文献

致谢

攻读硕士学位期间发表的论文

展开▼

摘要

随着互联网的快速发展,数据信息呈指数级增长,分类算法在大规模数据面前面临着巨大的挑战。当前,国内外的学者对分类模型与算法的研究主要集中在提高其分类的正确率以及时间空间复杂度上,然而在面对大规模数据,主要问题是海量数据的存储和分类计算,传统的方法已经不能满足需求。因此研究如何快速并且高效的对海量数据进行分类具有重要意义。本文基于Hadoop分布式计算平台,针对传统朴素贝叶斯算法权重计算的缺陷,提出一种改进的加权朴素贝叶斯算法,并运用在统计Web用户访问偏好上。
  首先介绍了课题的研究背景和意义以及国内外研究现状;然后介绍了课题涉及的相关技术,包括文本分类过程中的预处理、模型表示、特征词选择、特征权重计算,贝叶斯理论以及朴素贝叶斯分类算法,Hadoop分布式计算平台的相关技术,主要包括HDFS分布式存储和MapReduce分布式计算。
  然后,基于 Hadoop平台提出一种针对中英文的分词算法,在分词过程中引入Lucene,并通过统计法对歧义处理。针对Hadoop平台处理小文件缓慢的缺陷,实现了一种将若干小文本合并成一个大文件的输入格式,实验证明自定义的输入格式能很好处理小文件输入。针对传统的朴素贝叶斯分类算法权重计算存在的缺陷,提出一种改进的加权朴素贝叶斯分类算法,并在 Hadoop平台通过5个MapReduce过程来实现,在Hadoop平台下,使用8237条数据作为数据集进行实验,实验表明改进的加权朴素贝叶斯分类算法在宏平均和微平均F1值上都有很好的效果。
  最后,通过研究的并行分词技术以及改进的朴素贝叶斯分类算法,对web用户访问的页面内容进行分类,并通过Pig统计分析其偏好。对运营商实现精准营销具有一定商业价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号