基于Hadoop的web用户访问偏好分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的快速发展，数据信息呈指数级增长，分类算法在大规模数据面前面临着巨大的挑战。当前，国内外的学者对分类模型与算法的研究主要集中在提高其分类的正确率以及时间空间复杂度上，然而在面对大规模数据，主要问题是海量数据的存储和分类计算，传统的方法已经不能满足需求。因此研究如何快速并且高效的对海量数据进行分类具有重要意义。本文基于Hadoop分布式计算平台，针对传统朴素贝叶斯算法权重计算的缺陷，提出一种改进的加权朴素贝叶斯算法，并运用在统计Web用户访问偏好上。
　　首先介绍了课题的研究背景和意义以及国内外研究现状；然后介绍了课题涉及的相关技术，包括文本分类过程中的预处理、模型表示、特征词选择、特征权重计算，贝叶斯理论以及朴素贝叶斯分类算法，Hadoop分布式计算平台的相关技术，主要包括HDFS分布式存储和MapReduce分布式计算。
　　然后，基于 Hadoop平台提出一种针对中英文的分词算法，在分词过程中引入Lucene，并通过统计法对歧义处理。针对Hadoop平台处理小文件缓慢的缺陷，实现了一种将若干小文本合并成一个大文件的输入格式，实验证明自定义的输入格式能很好处理小文件输入。针对传统的朴素贝叶斯分类算法权重计算存在的缺陷，提出一种改进的加权朴素贝叶斯分类算法，并在 Hadoop平台通过5个MapReduce过程来实现，在Hadoop平台下，使用8237条数据作为数据集进行实验，实验表明改进的加权朴素贝叶斯分类算法在宏平均和微平均F1值上都有很好的效果。
　　最后，通过研究的并行分词技术以及改进的朴素贝叶斯分类算法，对web用户访问的页面内容进行分类，并通过Pig统计分析其偏好。对运营商实现精准营销具有一定商业价值。

著录项

作者
江三锋;
展开▼
作者单位

云南财经大学;

展开▼
授予单位云南财经大学;
学科计算机软件与理论
授予学位硕士
导师姓名王元亮;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
朴素贝叶斯算法; 歧义处理; 用户访问; Hadoop; 数据信息;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop的Web文本分类系统设计研究 [J] . 赵文娟 . 兰州大学学报（自然科学版） . 2014,第006期
2. 基于Web日志用户访问路径的Apriori算法的研究 [J] . 邵天会 . 电子技术与软件工程 . 2015,第022期
3. 基于Web日志的用户访问推荐系统的研究与实现 [J] . 魏榴花 . 电脑知识与技术 . 2010,第030期
4. 一种基于Web用户访问模式的矩阵聚类算法研究 [J] . 包剑 ,郭丽春 ,黄金波 . 西华大学学报（自然科学版） . 2010,第004期
5. 基于用户访问兴趣的Web站点路径聚类研究 [J] . 谭薇 ,马力 ,索永强 . 西安邮电学院学报 . 2009,第005期
6. 基于Web日志的用户访问行为分析系统的设计 [C] . Li Pei ,李佩 ,Li Qi . 第八届全国高校电子商务教育与学术研讨大会 . 2009
7. 大数据背景下基于Web日志的用户访问模式挖掘研究 [A] . 夏烈阳 . 2019

基于Hadoop的web用户访问偏好分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅