首页> 中文学位 >基于在线视频用户数据的DMP系统的设计与实现
【6h】

基于在线视频用户数据的DMP系统的设计与实现

代理获取

目录

声明

致谢

摘要

1 引言

1.1 项目背景及意义

1.2 DMP发展现状

1.3 本人工作总结

1.4 论文组织结构

2 关键技术介绍

2.1 HDFS功能介绍

2.2 Mapreduce框架介绍

2.3 Hive功能原理介绍

2.4 Spark功能原理介绍

2.5 Git的原理介绍

2.6 Jcseg分词工具

2.7 本章小结

3 DMP系统的可行性分析与需求分析

3.1 系统可行性分析

3.1.1 市场可行性分析

3.1.2 技术可行性分析

3.1.3 经济可行性分析

3.2 系统总体需求概述

3.3 系统功能需求分析

3.3.1 基础层模块功能需求

3.3.2 数据合并功能需求

3.3.3 人群筛选与投影功能需求

3.4 系统非功能需求分析

3.4.1 性能需求

3.4.2 可靠性需求

3.4.3 易用性需求

3.4.4 可扩展性需求

3.5 本章小结

4 系统概要设计

4.1 系统架构设计

4.1.1 基础层模块

4.1.2 数据合并模块

4.1.3 人群筛选与投影模块

4.2 本章小结

5 系统的详细设计与实现

5.1 基础层模块

5.1.1 标签体系设计

5.1.2 日志解析子模块设计

5.1.3 日志解析子模块的实现

5.1.4 用户频道偏好挖掘设计

5.1.5 用户频道偏好挖掘实现

5.1.6 用户偏好Top20子频道挖掘设计

5.1.7 用户偏好Top20子频道挖掘实现

5.1.8 用户广告关键词偏好挖掘设计

5.1.9 用户广告关键词偏好挖掘实现

5.1.10 Hive中的一个UDF函数的实现

5.1.11 数据清洗模块设计

5.1.12 数据清洗模块的实现

5.2 数据合并模块

5.2.1 数据合并模块的设计

5.2.2 数据合并模块的实现

5.3 人群筛选与投影模块的设计与实现

5.3.1 人群筛选管理设计

5.3.2 人群筛选管理接口层详细设计

5.3.3 人群投影管理设计

5.3.4 人群投影管理模块接口详细设计

5.4 本章小结

6 系统的测试与代码审查

6.1 功能测试

6.2 code review规则

6.3 本章小结

7 结论

参考文献

附录A

作者简历

学位论文数据集

展开▼

摘要

随着个人电脑和智能手机的不断普及,以及网络带宽成本的不断下降,在线观看网络视频已经成为人们生活中常见的一种娱乐或学习方式。国内几个著名的在线视频网站每天都会有亿级的访问量,因此会产生大量的用户数据。如何存储和有效的利用这些数据,来支持公司的广告精准营销,用户统计,数据挖掘,效果评估等不同的业务场景,是需要解决的问题。
  针对此问题,本人所在的实习公司优酷土豆实现了一个DMP系统,即数据管理平台。在技术选型时,主要考虑以下几点:DMP的原始数据量非常大,对于数据处理能力要求高,但是这份数据的生成时效性要求不高。DMP需要有一个实时查询的接口来满足外部业务要求,对所生成的结果数据的操作需要有强大的实时计算技术来支撑。综合上述两点,我们在技术上分别采用了MapReduce的框架和SPARK的计算框架,来实现离线和实时的计算任务。
  在优酷土豆工作期间,本人主要参与和完成了DMP系统的需求分析,设计,开发,测试以及维护工作。工作内容如下:
  (1)参与并完成了系统的需求分析,包括功能需求与非功能需求。
  (2)参与并完成了系统的概要设计,包括系统的总体概要设计,数据预处理功能、数据合并功能、人群筛选与投影功能等功能模块的概要设计。
  (3)负责并完成了系统多个模块的详细设计与实现,包括标签体系的详细设计,日志解析模块的设计与实现,用户频道偏好挖掘设计与实现,用户偏好Top20子频道的设计与实现,用户广告关键词偏好的挖掘设计与实现,数据清洗模块的设计与实现,Hive中UDF函数的实现,数据合并模块的设计与实现,人群筛选管理接口详细设计与实现,人群投影接口详细设计与实现。
  (4)负责并完成了多个功能模块的测试用例编写与实际功能测试工作。
  (5)负责系统的维护与更新,包括自动化脚本的编写,以使各分区数据定时更新。在实现该项目的过程中,主要用到的技术为Hadoop的MapReduce框架以及Spark Sql,实现的语言为Java、Hive和shell脚本。使用Git进行版本控制,Maven进行项目管理。本系统目前已经上线,且运行稳定,公司多个业务场景和广告产品都已经做了对接,效果反响良好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号