公开/公告号CN104834719A
专利类型发明专利
公开/公告日2015-08-12
原文格式PDF
申请/专利权人 北京比酷天地文化股份有限公司;
申请/专利号CN201510237342.X
发明设计人 刘彤;
申请日2015-05-12
分类号
代理机构北京世誉鑫诚专利代理事务所(普通合伙);
代理人孙国栋
地址 102200 北京市昌平区科技园区振兴路28号2号楼218
入库时间 2023-12-18 10:12:06
法律状态公告日
法律状态信息
法律状态
2017-11-03
授权
授权
2015-09-09
实质审查的生效 IPC(主分类):G06F17/30 申请日:20150512
实质审查的生效
2015-08-12
公开
公开
技术领域
本发明涉及一种数据库系统,具体涉及一种应用于实时大数据场 景下的数据库系统(简称大数据系统),属于计算机数据计算领域。
背景技术
大数据(big data,mega data),或称巨量资料,指的是需要新处 理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、 高增长率和多样化的信息资产。大数据指不用随机分析法(抽样调查) 这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume (大量)、Velocity(高速)、Variety(多样)、Value(价值)。
大数据广泛应用于信息搜索、广告投放、金融等领域,每种不同 应用类型的大数据系统都有不同的特性,应用的响应速度、数据量、 数据类型和访问模式决定了大数据系统的架构方式。
大数据系统的响应速度直接决定了大数据的存储架构,搜索引擎 的响应速度是200ms,而广告系统往往是50ms,这就决定这两者对架 构的要求完全不同。大数据应用往往数据量很大,通常达到TB甚至PB 级别,很多数据存储方式在如此大的数据规模上会变的相当低效甚至 无效。
大数据处理的数据类型多种多样,但无论是非结构性文档还是结 构性数据都要经过处理,以结构化的数据结构提供服务,这个过程的 时效性需求也决定了大数据架构的不同。
大数据的访问模式也是决定大数据存储方法的重要因素,对于数 据的读写比例、随机或顺序对系统的要求都是完全不同的。
Hadoop等传统大数据处理设施在应对大规模数据量上做了很多 优化,但对于广告等实时访问要求很强的应用则完全无法试用,这在 业界是一个普遍的难题。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种应用于实时 大数据场景下、能够高速的访问实时数据、有效应对超大规模的数据 存储和容灾能力的数据库系统。
为了实现上述目标,本发明采用如下的技术方案:
一种应用于实时大数据场景下的数据库系统,其特征在于,包括: 数据抓取模块、特征数据库模块、实时数据库模块和广告投放模块,
前述数据抓取模块用于限定抓取数据源的范围,自动抓取网页数 据,并进行内容抽取、排重、上下文分析的工作;
前述特征数据库模块用于保存Cookie数据、广告位数据和链接数 据;
前述实时数据库模块用于对特征数据库模块中的数据进行索引和 分片存储;
前述广告投放模块用于从实时数据库模块中获得广告特征数据, 与特征数据库模块中的数据进行匹配,最终决定是否投放广告给特定 用户以及投放哪一条广告给用户。
前述的应用于实时大数据场景下的数据库系统,其特征在于,前 述特征数据库模块包括:Cookie数据库子模块、广告位数据库子模 块和链接数据库子模块,
前述Cookie数据库子模块用于存储识别互联网用户或者某一类 浏览行为一致的用户的唯一标识,能够快速识别出一个互联网访问对 应的用户属性;
前述广告位数据库子模块用于保存所有待投放的广告库存数据, 前述广告库存数据包括:广告所属行业、分类、物料属性、价格;
前述链接数据库子模块用于保存各个用于展示广告位的网页的特 征数据,以链接作为网页的唯一标识。
前述的应用于实时大数据场景下的数据库系统,其特征在于,前 述数据抓取模块通过爬虫自动收集和解析指定的网站数据信息,确定 特定链接的内容特征和上下文关系,并将清洗计算后的网页的特征数 据反馈给特征数据库模块中的链接数据库子模块,将网页信息进行结 构化存储。
前述的应用于实时大数据场景下的数据库系统,其特征在于,前 述实时数据库模块包括:广告位实时数据库子模块、IP实时数据库 子模块、Cookie实时数据库子模块、链接实时数据库子模块和状态 数据库子模块,
前述广告位实时数据库子模块用于保存广告文案规范、图片规范、 广告指向链接、商品所属类目,并支持实时查询;
前述IP实时数据库子模块用于配合Cookie实时数据库子模块对 访问用户进行识别,判断该用户的价值和投放内容;
前述Cookie实时数据库子模块用于保存Cookie和特征的对应关 系、第三方Cookie和平台Cookie的对应关系,配合IP实时数据库 子模块对访问用户进行识别,同时判断该用户的价值和投放内容;
前述链接实时数据库子模块用于保存便于快速查询的链接与内容 特征的映射关系;
前述状态数据库子模块用于跟踪纪录实时状态数据,前述实时状 态数据包括:广告竞价结果、投放结果、点击结果。
前述的应用于实时大数据场景下的数据库系统,其特征在于,前 述广告投放模块包括:投放频率数据库子模块、用户频率数据库子模 块、广告索引数据库子模块和广告数据库子模块,
前述投放频率数据库子模块用于存放各广告库存时间和空间维度 的投放频次限制;
前述用户频率数据库子模块用于存放每个用户被展示广告的时间 频次和空间频次;
前述广告索引数据库子模块用于存放所有广告库存数据,并建立 倒排索引便于全文检索和分类检索;
前述广告数据库子模块用于保存广告数据的详细信息,是广告库 存的最权威数据。
前述的应用于实时大数据场景下的数据库系统,其特征在于,数 据库内的数据的类型为结构化标签。
前述的应用于实时大数据场景下的数据库系统,其特征在于,数 据库的访问模式为:随机/批量写,随机读。
本发明的有益之处在于:
(1)由于采用了内存-SSD-硬盘三级存储结构,有效的降低了 整个系统的硬件成本,同时采用Aerospike管理SSD,提供分布式可 扩展的Nosql数据管理,兼顾成本的同时有效的提高了存储的速度, 同时由于采用了Spark进行分布式计算管理,较Hadoop等传统 MapReduce架构效率提高10倍以上,所以本发明的数据库系统提供 了高速的实时数据访问能力;
(2)由于采用内存-SSD-硬盘三级存储结构,使数据存在多级 备份,同时使用Paxos算法进行数据更新决策保证数据操作的原子 性、一致性、隔离性、持久性,所以本发明的数据库系统能够有效应 对超大规模的数据存储和容灾能力。
附图说明
图1是本发明的数据库系统的架构图。
具体实施方式
为了便于理解本发明的系统的各个方面,以下结合附图和具体实 施例对本发明的系统作具体的介绍。
首先,本发明的系统在投入使用前需要进行基础数据的准备。数 据抓取模块设立一个约束范畴,即限定抓取数据源的范围,之后通过 爬虫自动收集和解析指定的网站数据信息,并进行内容抽取、排重、 上下文分析等工作,确定特定链接的内容特征和上下文关系,最后将 清洗计算后的数据保存到链接数据库。同时广告需求方根据自己的需 求录入广告投放需求到广告数据库。
在基础数据准备好后,启动各子模块,子模块开始进行数据预处 理和加载工作。广告索引数据库子模块会根据广告数据库子模块的数 据进行索引,使用基于统计语言模型算法和双向搜索最大化的自动分 词技术对应广告数据进行分词、特征提取建立便于快速检索和全文检 索的广告索引数据库。系统会定时的将广告位数据库子模块的数据转 化为易于快速查询的Key-Value结构,存放到广告位实时数据库子模 块中,便于系统实时响应请求。Cookie数据库子模块中保存的Cookie 数据与对应的人群数据,也会定期经过MapReduce计算转化为Cookie 和特征、以及特征与Cookie的对应关系,以便于实现快速的检索一 个用户的特征,以及通过特征找到适合的用户,这些数据处理后都保 存在Cookie实时数据库子模块中。
随后系统开始正常服务。当一个广告竞价需求发送给系统时,系 统根据Cookie实时数据库子模块拿到的该广告请求的历史特征,同 时比对IP实时数据库子模块进行校正,将请求的特征数据在广告位 实时数据库子模块中进行查询,并与链接数据库子模块中记录的网站 特征进行对比,判断符合投放要求后,由广告投放模块判断本广告有 没有超过当天投放次数的限制(投放频率数据库),以及投放目标用 户的展示次数是否超过限制(用户频率数据库),一切复合后竞价该 投放请求,并将竞价数据更新到状态数据库子模块中。同时在服务过 程中记录和建立Cookie数据库子模块、广告位数据库子模块,在每 一次广告请求时,将该用户的IP、Cookie、特征等信息保存到特征 数据库模块中。
经验证,本发明的数据库系统,其具有以下优势:
(1)响应速度:数十毫秒之内,单机QPS在万级别;
(2)数据量:用户信息和信息数据在亿级以上,精确设置百万级, 用户与设置的对应关系为前两者的笛卡尔积。
可见,由于采用了分层的信息存储和基于SSD的高性能分布式存 储架构,所以本发明的数据库系统提供了高速的实时数据访问能力; 此外,由于采用了冷热数据的分层管理以及先进算法支持数据一致性 管理,所以本发明的数据库系统能够有效应对超大规模的数据存储和 容灾能力。
需要说明的是,上述实施例不以任何形式限制本发明,凡采用等 同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范 围内。
机译: 呈现复杂场景时,能够实时将动态变化的值仅应用于矩阵的富媒体内容场景处理系统
机译: 多进程环境下实时数据库系统中的数据库备份
机译: 实时虚拟场景下圆柱对撞机与凸体碰撞的检测方法,终端及存储介质