首页> 中国专利> 应用于实时大数据场景下的数据库系统

应用于实时大数据场景下的数据库系统

摘要

本发明公开了一种应用于实时大数据场景下的数据库系统,其特征在于,包括:用于限定抓取数据源的范围,自动抓取网页数据,并进行内容抽取、排重、上下文分析工作的数据抓取模块;用于保存Cookie数据、广告位数据和链接数据的特征数据库模块;用于对特征数据库模块中的数据进行索引和分片存储的实时数据库模块;以及用于从实时数据库模块中获得广告特征数据,与特征数据库模块中的数据进行匹配,最终决定是否投放广告给特定用户以及投放哪一条广告给用户的广告投放模块。本发明的有益之处在于:由于采用了内存-SSD-硬盘三级存储结构,所以本发明的系统不仅提供了高速的实时数据访问能力,而且能够有效应对超大规模的数据存储和容灾能力。

著录项

  • 公开/公告号CN104834719A

    专利类型发明专利

  • 公开/公告日2015-08-12

    原文格式PDF

  • 申请/专利权人 北京比酷天地文化股份有限公司;

    申请/专利号CN201510237342.X

  • 发明设计人 刘彤;

    申请日2015-05-12

  • 分类号

  • 代理机构北京世誉鑫诚专利代理事务所(普通合伙);

  • 代理人孙国栋

  • 地址 102200 北京市昌平区科技园区振兴路28号2号楼218

  • 入库时间 2023-12-18 10:12:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-11-03

    授权

    授权

  • 2015-09-09

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150512

    实质审查的生效

  • 2015-08-12

    公开

    公开

说明书

技术领域

本发明涉及一种数据库系统,具体涉及一种应用于实时大数据场 景下的数据库系统(简称大数据系统),属于计算机数据计算领域。

背景技术

大数据(big data,mega data),或称巨量资料,指的是需要新处 理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、 高增长率和多样化的信息资产。大数据指不用随机分析法(抽样调查) 这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume (大量)、Velocity(高速)、Variety(多样)、Value(价值)。

大数据广泛应用于信息搜索、广告投放、金融等领域,每种不同 应用类型的大数据系统都有不同的特性,应用的响应速度、数据量、 数据类型和访问模式决定了大数据系统的架构方式。

大数据系统的响应速度直接决定了大数据的存储架构,搜索引擎 的响应速度是200ms,而广告系统往往是50ms,这就决定这两者对架 构的要求完全不同。大数据应用往往数据量很大,通常达到TB甚至PB 级别,很多数据存储方式在如此大的数据规模上会变的相当低效甚至 无效。

大数据处理的数据类型多种多样,但无论是非结构性文档还是结 构性数据都要经过处理,以结构化的数据结构提供服务,这个过程的 时效性需求也决定了大数据架构的不同。

大数据的访问模式也是决定大数据存储方法的重要因素,对于数 据的读写比例、随机或顺序对系统的要求都是完全不同的。

Hadoop等传统大数据处理设施在应对大规模数据量上做了很多 优化,但对于广告等实时访问要求很强的应用则完全无法试用,这在 业界是一个普遍的难题。

发明内容

为解决现有技术的不足,本发明的目的在于提供一种应用于实时 大数据场景下、能够高速的访问实时数据、有效应对超大规模的数据 存储和容灾能力的数据库系统。

为了实现上述目标,本发明采用如下的技术方案:

一种应用于实时大数据场景下的数据库系统,其特征在于,包括: 数据抓取模块、特征数据库模块、实时数据库模块和广告投放模块,

前述数据抓取模块用于限定抓取数据源的范围,自动抓取网页数 据,并进行内容抽取、排重、上下文分析的工作;

前述特征数据库模块用于保存Cookie数据、广告位数据和链接数 据;

前述实时数据库模块用于对特征数据库模块中的数据进行索引和 分片存储;

前述广告投放模块用于从实时数据库模块中获得广告特征数据, 与特征数据库模块中的数据进行匹配,最终决定是否投放广告给特定 用户以及投放哪一条广告给用户。

前述的应用于实时大数据场景下的数据库系统,其特征在于,前 述特征数据库模块包括:Cookie数据库子模块、广告位数据库子模 块和链接数据库子模块,

前述Cookie数据库子模块用于存储识别互联网用户或者某一类 浏览行为一致的用户的唯一标识,能够快速识别出一个互联网访问对 应的用户属性;

前述广告位数据库子模块用于保存所有待投放的广告库存数据, 前述广告库存数据包括:广告所属行业、分类、物料属性、价格;

前述链接数据库子模块用于保存各个用于展示广告位的网页的特 征数据,以链接作为网页的唯一标识。

前述的应用于实时大数据场景下的数据库系统,其特征在于,前 述数据抓取模块通过爬虫自动收集和解析指定的网站数据信息,确定 特定链接的内容特征和上下文关系,并将清洗计算后的网页的特征数 据反馈给特征数据库模块中的链接数据库子模块,将网页信息进行结 构化存储。

前述的应用于实时大数据场景下的数据库系统,其特征在于,前 述实时数据库模块包括:广告位实时数据库子模块、IP实时数据库 子模块、Cookie实时数据库子模块、链接实时数据库子模块和状态 数据库子模块,

前述广告位实时数据库子模块用于保存广告文案规范、图片规范、 广告指向链接、商品所属类目,并支持实时查询;

前述IP实时数据库子模块用于配合Cookie实时数据库子模块对 访问用户进行识别,判断该用户的价值和投放内容;

前述Cookie实时数据库子模块用于保存Cookie和特征的对应关 系、第三方Cookie和平台Cookie的对应关系,配合IP实时数据库 子模块对访问用户进行识别,同时判断该用户的价值和投放内容;

前述链接实时数据库子模块用于保存便于快速查询的链接与内容 特征的映射关系;

前述状态数据库子模块用于跟踪纪录实时状态数据,前述实时状 态数据包括:广告竞价结果、投放结果、点击结果。

前述的应用于实时大数据场景下的数据库系统,其特征在于,前 述广告投放模块包括:投放频率数据库子模块、用户频率数据库子模 块、广告索引数据库子模块和广告数据库子模块,

前述投放频率数据库子模块用于存放各广告库存时间和空间维度 的投放频次限制;

前述用户频率数据库子模块用于存放每个用户被展示广告的时间 频次和空间频次;

前述广告索引数据库子模块用于存放所有广告库存数据,并建立 倒排索引便于全文检索和分类检索;

前述广告数据库子模块用于保存广告数据的详细信息,是广告库 存的最权威数据。

前述的应用于实时大数据场景下的数据库系统,其特征在于,数 据库内的数据的类型为结构化标签。

前述的应用于实时大数据场景下的数据库系统,其特征在于,数 据库的访问模式为:随机/批量写,随机读。

本发明的有益之处在于:

(1)由于采用了内存-SSD-硬盘三级存储结构,有效的降低了 整个系统的硬件成本,同时采用Aerospike管理SSD,提供分布式可 扩展的Nosql数据管理,兼顾成本的同时有效的提高了存储的速度, 同时由于采用了Spark进行分布式计算管理,较Hadoop等传统 MapReduce架构效率提高10倍以上,所以本发明的数据库系统提供 了高速的实时数据访问能力;

(2)由于采用内存-SSD-硬盘三级存储结构,使数据存在多级 备份,同时使用Paxos算法进行数据更新决策保证数据操作的原子 性、一致性、隔离性、持久性,所以本发明的数据库系统能够有效应 对超大规模的数据存储和容灾能力。

附图说明

图1是本发明的数据库系统的架构图。

具体实施方式

为了便于理解本发明的系统的各个方面,以下结合附图和具体实 施例对本发明的系统作具体的介绍。

首先,本发明的系统在投入使用前需要进行基础数据的准备。数 据抓取模块设立一个约束范畴,即限定抓取数据源的范围,之后通过 爬虫自动收集和解析指定的网站数据信息,并进行内容抽取、排重、 上下文分析等工作,确定特定链接的内容特征和上下文关系,最后将 清洗计算后的数据保存到链接数据库。同时广告需求方根据自己的需 求录入广告投放需求到广告数据库。

在基础数据准备好后,启动各子模块,子模块开始进行数据预处 理和加载工作。广告索引数据库子模块会根据广告数据库子模块的数 据进行索引,使用基于统计语言模型算法和双向搜索最大化的自动分 词技术对应广告数据进行分词、特征提取建立便于快速检索和全文检 索的广告索引数据库。系统会定时的将广告位数据库子模块的数据转 化为易于快速查询的Key-Value结构,存放到广告位实时数据库子模 块中,便于系统实时响应请求。Cookie数据库子模块中保存的Cookie 数据与对应的人群数据,也会定期经过MapReduce计算转化为Cookie 和特征、以及特征与Cookie的对应关系,以便于实现快速的检索一 个用户的特征,以及通过特征找到适合的用户,这些数据处理后都保 存在Cookie实时数据库子模块中。

随后系统开始正常服务。当一个广告竞价需求发送给系统时,系 统根据Cookie实时数据库子模块拿到的该广告请求的历史特征,同 时比对IP实时数据库子模块进行校正,将请求的特征数据在广告位 实时数据库子模块中进行查询,并与链接数据库子模块中记录的网站 特征进行对比,判断符合投放要求后,由广告投放模块判断本广告有 没有超过当天投放次数的限制(投放频率数据库),以及投放目标用 户的展示次数是否超过限制(用户频率数据库),一切复合后竞价该 投放请求,并将竞价数据更新到状态数据库子模块中。同时在服务过 程中记录和建立Cookie数据库子模块、广告位数据库子模块,在每 一次广告请求时,将该用户的IP、Cookie、特征等信息保存到特征 数据库模块中。

经验证,本发明的数据库系统,其具有以下优势:

(1)响应速度:数十毫秒之内,单机QPS在万级别;

(2)数据量:用户信息和信息数据在亿级以上,精确设置百万级, 用户与设置的对应关系为前两者的笛卡尔积。

可见,由于采用了分层的信息存储和基于SSD的高性能分布式存 储架构,所以本发明的数据库系统提供了高速的实时数据访问能力; 此外,由于采用了冷热数据的分层管理以及先进算法支持数据一致性 管理,所以本发明的数据库系统能够有效应对超大规模的数据存储和 容灾能力。

需要说明的是,上述实施例不以任何形式限制本发明,凡采用等 同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范 围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号