首页>中文会议>工业技术>自动化技术与计算机技术>第32届中国数据库学术会议
第32届中国数据库学术会议

第32届中国数据库学术会议

  • 召开年:2015
  • 召开地:成都
  • 出版时间: 2015-10-16

主办单位:中国计算机学会

会议文集:第32届中国数据库学术会议论文集

会议论文

热门论文

全部论文

全选(0
  • 摘要:通过引入置信规则库的线性组合方式、设定规则数等于分类数及改进个体匹配度的计算方法,提出基于置信规则库推理的分类方法.比较于传统的置信规则库推理方法,新方法中规则数的设置不依赖于问题的前件属性数量或候选值数量,仅与问题的分类数有关,保证了方法对于复杂问题的适用性.实验中,通过差分进化算法对置信规则库的规则权重、前件属性权重、属性候选值和评价等级的置信度进行参数学习,得到最优的参数组合.在对三个常用的公共分类数据集进行测试时,均获得理想的分类准确率,表明新分类方法合理有效.
  • 摘要:互联网下同一领域中不同知识概念存在多种关系,其中演化关系对于用户学习和理解领域知识,梳理领域知识的前序和后续逻辑关系具有重要意义,然而网络数据的多样和无序使用户难以准确有序的获取领域知识关系.针对该问题,提出一种面向中文维基百科领域知识的演化关系抽取方法,利用语法分析特征,构建演化关系推理模型,采用基于句子层面的关系抽取算法识别领域知识演化关系.实验表明,该方法具有较高的准确率和召回率,能有效地抽取出维基百科中领域知识的演化关系.
  • 摘要:多标签分类可用于发现现实生活中同时归属于多个类的样本.常用的多标签分类算法主要有两类:基于问题转换的方法和基于算法转换的方法.本文针对基于问题转换的方法BR未考虑标签之间相关性的不足,容易造成分类器输出在训练集中不存在或次数较少的标签集合,考虑到标签的取值应由属性置信度和标签置信度共同决定,首先提出了基于贝叶斯模型的多标签分类算法(MLBN,A multi label classification algorithm based on Bayesian models).其中,通过传统的分类算法计算获得属性置信度,以及通过训练集计算得到标签置信度.因为MLBN在计算属性置信度时必须考虑所有已分类的标签,分类器的性能容易受无关或弱关系的标签影响,所以使用马尔科夫模型简化置信度的计算提出了MMLBN(Markov MLBN).理论分析和实验表明,相比于已有的问题转换方法,本文提出的MMLBN在训练时因考虑到标签之间的相关性,当数据集中实例的标签基数较大时其时间效率和准确性都有较大提升.
  • 摘要:国家自然科学基金委员会在2015年全面推行科学基金项目的在线申报.截止到3月20日,通过科学基金在线申报系统(简称为ISISN系统)已经成功完成了16万多份项目的接收工作,通过对2015年系统在线申报系统的分析,发现通过ISISN系统申报的过程中,在一些关键时间节点上存在系统访问较慢、PDF生成失败和申请书保存失败等几个主要问题.有鉴于此,在目前系统架构基础之上做了些修改.在修改后的系统架构上,可以有效减少系统与用户的交互性,从而减少网络I/O操作.通过与系统现有架构对比,可以验证新的系统架构能够获得较好的用户体验,为将来的系统进一步完善进行有益的尝试.
  • 摘要:聚类分析是数据挖掘中经常用到的一种分析数据之间关系的方法.它把数据对象集合划分成多个不同的组或簇,每个簇内的数据对象之间的相似性要高于与其他簇内的对象的相似性,密度中心聚类算法是一个最近发表在《Science》上的新型聚类算法,它通过评估每个数据对象的两个属性值(密度值ρ和斥群值δ)来进行聚类,相对于其他传统聚类算法,它的优越性体现在交互性、无迭代性、无数据分布依赖性等方面,但是密度中心聚类算法在计算每个数据对象的密度值和斥群值时,需要O(N2)复杂度的距离计算,当处理海量高维数据时,算法的效率会受到很大的影响,为了提高该算法的效率和扩展性,本文提出一种高效的分布式密度中心聚类算法EDDPC,它利用Voronoi分割与合理的数据复制及过滤,避免了大量无用的距离计算开销和数据传输开销,实验结果显示,比较简单的MapReduce分布式实现,EDDPC可以达到40倍左右的性能提升.
  • 摘要:近年来,众包查询优化得到了数据库领域的广泛关注.本文主要研究了众包多谓词选择查询问题—借助于人力找到满足多谓词查询条件的对象.一种简单的方法是枚举数据集中的对象,对于每个对象判断是否满足每条谓词.它产生的代价是丨R丨·n,其中丨R丨为数据集中对象的数量,n为谓词的数量.很显然,当处理大数据集或者查询包含较多谓词的时候,简单方法的代价是非常昂贵的.由于不同的谓词具有不同的选择性,如果首先验证高选择性的谓词,那么在验证剩余谓词的时候,就可以避免验证不满足高选择性谓词的对象.因此,采用一个好的谓词顺序实现众包选择查询可以显著减少人工代价.然而,实际中很难获得最佳的谓词序列.针对这一问题,本文提出了一种基于采样的框架来获得高质量的查询序列.为了控制查询序列生成的成本,本文设计了基于随机序列的最优选择方法,该方法通过随机选择序列获得最终的谓词顺序.由于基于随机序列的选择方法可能产生较大的代价,为了减少开销,本文提出了一种基于过滤的序列选择方法.通过在众包平台上使用真实数据集评测了提出的方法,实验结果表明,本文的方法能够显著减少查询序列生成的代价,同时获得高质量的查询序列.
  • 摘要:连接聚集查询是大规模数据分析的核心操作算子之一,多核处理器为大规模数据的连接聚集查询操作提供了优化空间但同时也存在很大挑战.本文主要针对多核处理器集群环境,研究MapReduce框架下大规模数据连接聚集查询的优化算法.首先,基于传统MapReduce框架设计并实现了Map端的单线程连接聚集查询算法,基于实验分析指出MapReduce和多核处理器融合提升性能的必要性;其次,针对处理器的多核架构,设计并实现了Map端的多线程连接聚集查询算法,找出了MapReduce和多核处理器融合的性能瓶颈;进而,提出了Map端对输入分片无竞争读取的多线程连接聚集查询算法,该算法让MapReduce充分利用了多核处理器的性能优势.实验结果表明,提出的算法在大规模数据的连接聚集查询处理上充分发挥了硬件优势,具有较好的时间性能和可扩展性.
  • 摘要:给定有向无环图G,G的传递归约是和G有相同传递闭包的最小唯一子图针对已有传递归约算法不能有效适应实际应用中图规模不断膨胀的问题,首先提出一种空间复杂度为O(n)的算法BUTR,其中n为G的顶点数BUTR首先计算G的路径分解,并以自底向上的方式处理每条路径中的顶点其特点体现在处理每条路径p时,可以利用p中顶点间的父子关系来避免对部分顶点和边的重复访问,并保证在处理完p的所有顶点后,所有涉及到的边仅被访问一次其次提出无需路径分解的优化算法—TDTR.TDTR通过栈来缓存已处理顶点并标记其逆向传递闭包,从而尽可能早的利用不同路径中顶点间的父子关系来避免BUTR算法存在的冗余计算问题最后在26个不同规模的真实数据集和10个大规模人工数据集上,通过实验从不同角度对算法的性能进行了深入比较和分析实验结果显示,文本提出的BUTR和TDTR算法具有良好的时间和空间扩展性.
  • 摘要:定位设备(如GPS)的广泛使用产生了大量时空轨迹.最近,从轨迹数据中挖掘移动模式已经成为一个热门的研究课题,这个领域的实质性进展会对很多应用(如城市计算,基于位置的推荐和路线规划)产生深远的影响.为挖掘用户移动模式,基于word2vec提出了一种新的用户轨迹深度表示模型.考虑到时空轨迹的特点:(1)位置顺序对于理解用户移动模式很重要,(2)轨迹有周期性并且在不同的时间段有变化.首先将位置转移和时间组合成时间位置序列,作为描述轨迹特征的基本单位.然后利用深度表示模型为每个序列训练特征向量.最后,为了验证深度表示模型的有效性,设计实验将时间位置序列向量应用到用户移动模式发现中,并利用Gowalla签到数据集进行了实验评测,实验结果证明提出的方法能够发现用户不同的移动模式并且比word2vec表现更好.
  • 摘要:网络带宽特别是上行带宽受限情况下,基于H.264高压缩率的网络音视频通话或视频会议普遍会出现不同程度的丢包现象,从而造成流媒体播放的花屏等质量问题,影响视频通话或视频会议的效果.提高实时流媒体的播放质量是解决花屏问题的核心.论文在此基础上,提出基于关键帧预处理的实时流媒体播放质量控制方法,采用单元时序控制算法对视频关键坏帧进行实时侦测和取舍,在保持流畅度基础上尽量减少花屏情况,并极大降低了后处理计算的时空成本,降低了对流媒体播放的硬件设备性能要求,提高了流媒体播放的流畅性.通过原始帧播放、后处理播放、关键帧预处理播放三种处理方法的实验对比,证明基于播放单元时序控制算法的实时流媒体播放器,不但明显提高了播放的流畅性,播放后处理的计算复杂度也降低了40%以上.
  • 摘要:时态索引是时态数据库中加速查询的重要手段.现有时态索引技术难以有效的支持用户的多样性查询,此外在保障查询执行的高效性同时难以兼顾创建和维护的高效性.为此,本文提出一种基于时态数据的分段混合索引——SHB+树(Segmentation Hybrid B+-Tree).该技术首先将时态数据表按时间进行分段,在每个分段上建立局部的时间线和对象的混合索引结构,时间线和对象索引共享局部分段时态数据.对于每个局部分段混合索引,设计自底向上的索引创建方式,提高索引创建和维护的效率.在基准数据集上的实验结果验证了本文方法的有效性.
  • 摘要:起初,作为一个数据库模式设计的工具,函数依赖理论得到了很多的关注,而在数据修复中,该理论并不是十分有效近年来,针对不一致数据的检测和修复问题,更多的约束被提出来,包括条件函数依赖、修复规则以及编辑规则等然而,据本文作者所知,已有方法都只关注了整个属性之间的依赖关系,而实际应用中的数据通常有部分属性之间的依赖关系例如,某单位员工的工号前两位决定了其所属的部门,而此依赖信息就被已有方法忽略本文首先提出了一类更一般化的约束—微函数依赖,微函数依赖引入提取函数,用来表示属性的部分信息利用提取函数之间的依赖关系,能够检测出更多的不一致数据理论方面,本文首先研究了微函数依赖的可满足性问题和蕴含问题,然后提供了一个正确且完备的推理系统最后,通过实验证实了微函数依赖能够在可接受的时间开销内检测出更多的错误数据.
  • 摘要:在大数据的时代背景下,由于网络数据(network data)能有效简洁地描述社交网络,电子商务,医疗记录,在线教育等多种应用中各类复杂关系,越来越受到业界和学术界的关注.在社交网络分析任务中,一个基本操作是从网络中发现重要程度前k大的节点.紧密中心性(closeness centrality)是一种常见的节点重要性刻画指标,它从节点处在网络中心的程度来反映节点的重要性.用紧密中心性衡量节点重要性进行节点搜索的问题称为top-k紧密中心性搜索问题.然而,传统的精确算法由于其多项式级别的复杂度无法高效地扩展到大规模的网络数据上.近来,研究人员提出了近似算法,通过牺牲结果精度来获得性能提升.通过分析发现,目前存在的近似算法虽然性能得到了有效提升,但是结果精度牺牲过大.为了解决这个问题,本文设计了一种新颖的近似算法,叫做基于sketch的紧密中心性搜索算法.此近似算法应用了一个全新的计算方式,利用sketch估计同一距离的邻居数目,然后得到近似的最短距离之和,最终得到各个节点的紧密中心性的估计值.此算法的时间复杂度为,其中t是常数,是网络直径,是网络边数.根据实际社交网络的小世界现象的特性,此近似算法基本是个线性算法.最后,相比于目前存在的精确算法和近似算法,本文通过全面的实验验证了基于sketch的紧密中心性搜索算法在时间性能和结果精度等两方面的优势.
  • 摘要:移动终端的普及和GPS定位的发展,产生了海量的轨迹数据.许多基于位置的服务利用这些轨迹数据为用户提供服务.但是轨迹数据日益增多带来了许多挑战:数据量巨大、查询延时增长、数据分析困难以及数据冗余.轨迹压缩对于提供更好的服务是非常有必要的,因此提出了基于行驶特征的轨迹压缩技术,考虑了行驶特征并且把轨迹数据建模为马尔可夫序列.行驶特征包括速度、方向和位置.使用高斯分布对速度变化、方向变化和位置距离进行建模,下一个点的状态就能通过之前的信息来进行预测.根据预测的准确度,为每个轨迹点赋予条件自信息量.筛选出满足用户设定准确度阈值的点,组成压缩后的轨迹.在真实数据集上进行了一系列的实验,证明了算法的性能.
  • 摘要:随着语义Web的快速发展,RDF语义数据规模呈现爆炸性增长趋势,大规模语义数据上的推理工作面临严峻挑战,当前大多语义推理引擎执行时间较长,难以适应大规模语义数据推理的需求,针对这一问题,本文基于消息传递机制提出一种新的RDFS并行推理方案,该方案利用RDF图数据结构,建立RDFS推理过程的图上加边模型,以顶点为计算中心,根据不同推理模型,向其他顶点传递推理消息,完成推理操作,当所有推导出的新三元组以边的形式加入原RDF图中时,整个推理过程结束,在基于消息传递模型的开源框架Giraph上,实现了RDFS并行推理框架,实验结果表明,在标准数据集LUBM和真实数据集DBpedia上,基于消息传递机制的RDFS并行推理框架执行速度均比当前性能最好的语义推理引擎WebPIE快一个数量级,且展现了良好的可伸展性.
  • 摘要:随着数据的爆炸式增加,不完整数据普遍存在,传统的数据修复方法对于海量数据处理代价过高,且不能彻底修复,在这些不完整的海量数据上进行满足给定需求的近似查询引起了学术界的关注.因此,本文提出一种基于压缩的海量不完整数据近似查询方法.该方法对属性值缺失字段进行标记,根据频繁查询条件对标记后的数据进行压缩,并建立对应索引;根据属性划分对索引文件再次压缩以节省存储空间,采用编码字典对索引文件进行选择和投影操作,最终获得不完整数据的近似查询结果.实验表明,该方法能够快速定位不完整数据的压缩位置,提高了查询效率,节省了存储空间,并且保证了查询结果的完整性.
  • 摘要:日常生活中,人们面临越来越多的需要在众多可选对象中进行抉择的问题,过多的可选对象让人难以分辨出最优选项,因而提出了推荐系统来解决这类问题.面临一些待抉择问题时往往会遇到需要衡量风险及收益来进行决策的情况,对此已有的推荐方法依赖于用户的相关数据或相似用户的历史数据,在类似打车地点推荐、超市购买推荐等缺乏这些数据或类似数据可重复利用度低的情况下,需要一种不依赖用户方面数据,同时能够权衡可选对象的风险及收益来进行推荐的推荐方法.这种方法还需要考虑到可选对象之间的风险相关性,并能够对无支配关系的可选对象进行排序.本文以经济学领域的现代投资组合理论为基础,提出一种可应用于上述场景的推荐方法.并以打车位置推荐为例说明如何使用该方法,以及同以往对于该理论的应用相比,应该如何更为适当地选择风险及收益的计算方式.最后本文在真实的数据集上进行实验,验证方法中权衡推荐策略的有效性.
  • 摘要:伴随着移动互联网产业的迅猛发展,借由分布式处理平台,对不同位置服务所搜集到的海量路网移动对象数据进行高效处理分析的需求正在变得越来越迫切.在此背景下,本文基于Hadoop平台,构建针对路网移动对象数据的分布式索引结构HINMO.其中,论文特别针对现有研究多集中于数据块内部索引的问题,在对集群负载均衡进行考虑的前提下结合城市路网的空间分布,实现路网移动对象数据的分布式索引,解决了非查询相关数据块的过滤剪枝,并能对不同类型的查询需求进行响应.实验结果表明,HINMO不仅具有良好的查询性能,也具备有限规模集群下的可扩展性.
  • 摘要:长江三角洲都市圈在我国国民经济发展中具有十分重要的地位和作用,中国经济每增长1个百分点,沪苏浙约占1/3,因此长江三角洲地区经济发展状况和水平体现着中国的经济发展状况和水平.本文根据2013年度的长江三角洲的16个城市的主要经济指标,运用R和Rattle两个开源软件,进行了城市聚类,客观评价了各个城市经济发展在长三角经济发展中的相对位置,为该地区各个城市的进一步发展和提高城市竞争力提供决策参考.
  • 摘要:HashMap在基本字典操作中具有常数级别的平均算法时间复杂度,被大数据的检索广泛使用.提出基于C++HashMap的优化结构:Block HashMap(BHMap),旨在解决传统的HashMap在可用桶数目有限,数据重复率比较低情况下的性能瓶颈问题.优化包括三个方面:哈希函数选取,冲突解决和关键字匹配.优化核心在于冲突解决时,以链地址法为基础,提出一种高效利用高速缓存的存储结构Block List来存储冲突的数据,并且预先缓存哈希值,节省匹配时间.实验证明,BHMap相对C++标准模板库中的Map性能提升10倍以上,比unorderedmap快35倍以上.在列存储数据库分组和连接查询中,关键字的分桶、解决冲突和匹配操作也都涉及到基于哈希的技术,最终把BHMap应用到列存储数据库的查询中.
  • 摘要:针对分布式存储系统上使用非主键访问数据带来的性能问题,探讨在分布式存储系统上实现索引的相关关键技术.在充分分析分布式存储特征的基础上,本文提出了分布式索引设计和实现的关键点,并结合分布式存储系统的特点及相关的索引技术,讨论了索引的组织形式、索引的维护和数据一致性等问题.然后基于如上的分析,本文选择在分布式数据库系统OceanBase开源版本上,设计和实现分布式索引机制,并通过基准测试工具YCSB进行性能测试.实验表明,该分布式索引能够极大地提高OceanBase的非主键访问性能.虽然增加辅助索引会对系统的性能产生影响,但是充分地考虑系统特征,存储特点,应用需求和索引形式,可以保证低维护代价的同时实现提高索引的可用性和可靠性.
  • 摘要:以图结构来描述实体间复杂的关联关系被广泛应用于多种不同的领域.但是,随着这些领域的蓬勃发展,图结构数据的数据量也与日俱增.如何根据用户提交的查询图,在大规模数据图上高效地返回满足用户要求的匹配成为目前学术界和工业界首要的研究问题.然而,之前的工作,多数都是在无权图上查询,没有考虑用户的个性化需求,并且算法运行在大规模数据图上的执行时间并不是很理想.本文提出一个适用于有权查询图并且适用于大规模数据图上查询的个性化子图匹配算法PSM.首先,通过已有的社团检测GN算法将数据图划分成若干个子区域,并构建2个线下索引:GP-Tree索引和排序边集索引(SL).然后,基于索引结构,通过增加优化策略进而加速子图匹配.最后,本文通过大量实验验证了本文算法的有效性和扩展性.
  • 摘要:本文通过获得关键字的相关节点坐标,通过求凸包的方式确定关键字的对象出现的最小区域。本文发现随着关键字的增多,问题复杂性增长过快,这是一个典型的SAT问题,是一个NF完全问题。依据实际情况用户提交的关键字不会过多,通过现有的硬件环境能够直接给出相对准确的答案。为了加快问题的返回结果的速度,以后会将关键字求凸包问题进行并行计算,这样每个凸包的求得相对独立,并行度更高,能够加快问题的求解速度。
  • 摘要:why-not问题是为查询结果中的缺失元组找到合理的解释解决数据库查询中的why-not问题不仅能够帮助用户更好的理解查询,而且能够帮助提高数据库的质量和可用性为了提高图数据库的可用性,提出了支持近似图查询的why-not问题解释方法该解释方法不仅阐明了为什么why-not问题没有出现在查询结果中,而且给出了一些修改初始查询图的建议,使得why-not问题能够出现在修改后的查询图的查询结果中支持近似图查询的why-not问题解释算法分两阶段完成,第一阶段利用图的星型结构表示方式,比较查询图与why-not图之间的差异,得到修改初始查询图的候选操作集,针对why-not问题数量的不同,提出了候选操作集生成基本算法和改进算法;第二阶段基于对查询图修改操作数要求最少的代价模型,对第一阶段生成的候选操作集构建回溯剪枝树,并提出三种剪枝策略执行剪枝操作,最终选取的候选操作集即为支持近似图查询的why-not问题的合理解释实验表明,本文提出的方法可以快速有效地为支持近似图查询的why-not问题提供合理解释.
  • 摘要:RFID系统自动采集到流量大且速度快的流数据,需要对起源信息进行在线标注,人工标注手段无法完成.文章针对真实RFID环境下数据流的特点,引入数据流分类方法,结合主动学习与半监督学习机制,实现了在线标注RFID数据流的起源信息.仿真实验表明,本文方法能在确保分类精度前提下,提高RFID数据流世系的标注效率.
  • 摘要:针对大部分聚类算法无法高效地发现任意形状及不同密度的簇的问题,提出一种高效的基于距离关联动态模型的聚类改进算法.首先,为提高聚类效率,使用层次聚类算法对数据集进行初始聚类,并剔除样本点含量过低的簇;其次,为发现任意形状及不同密度的簇,以初始聚类结果的簇的质心作为代表点,利用距离关联动态模型进行聚类,并利用层次聚类的树状结构,进行有效的剪枝计算;最后,检验算法的有效性.实验采用Chameleon数据集进行测试,实验结果表明,该算法能够有效识别任意形状及不同密度的簇,且与同类算法相比,时间效率有显著的提高.
  • 摘要:局部影响最大化问题是在社会网中寻找最能影响某个目标节点的种集目前的研究只考虑对单一目标节点的影响,而且忽略了传播项上的主题分布以及用户之间基于主题的影响概率本文重点研究在主题分布的条件下,如何选取最能影响目标节点集合的种集首先提出了针对目标节点集合的局部影响程度计算方法T-LID,在此基础上提出了基于主题的局部影响最大化问题(TLIM),并证明了该问题为NP-hard问题为求解TLIM问题,本文提出了基于主题的局部贪心算法TLGA以及基于主题的启发式算法TLPA多个真实数据的实验结果表明本文提出的算法可以有效并高效地求解基于主题的局部影响最大化问题.
  • 摘要:现有的半结构化网页信息抽取方法主要假设有效数据间具有较强结构相似性,将网页分割为具有类似特征的数据记录与数据区域然后进行抽取.但存有大学科研人员信息的网页大多是人工编写填入内容,结构特征并不严谨.针对这类网页的弱结构性,提出一种基于最近公共祖先(Lowest Common Ancestor,LCA)分块算法的人员信息抽取方法,将LCA和语义相关度强弱的联系引入网页分块中,并提出基本语义块与有效语义块的概念.在将网页转换成DOM树并进行预处理后,首先通过向上寻找LCA节点的方法将页面划分为基本语义块,接着结合人员信息的特征将基本语义块合并为存有完整人员信息的有效语义块,最后根据有效语义块的对齐获取当前页面所有关系映射的人员信息.实验结果表明该方法在大量真实的大学人员网页的分块与抽取中仍有较高的准确率与召回率.
  • 摘要:分组聚集是数据密集型计算,在分析型OLAP应用中,分组聚集是频繁出现的操作符,会耗费大量的查询时间,本文研究的主要内容是针对分组聚集操作进行性能优化.本文在两个方面对分组聚集操作进行优化;第一,基于开源的列存储查询执行引擎supersonic,充分发挥列存储在内存计算方面的优势,设计Cache友好的分组聚集算法;第二,使用并行技术,将单线程的分组聚集算法改为多线程并行的分组聚集算法,加速查询的执行.本文基于supersonic实现四种不同的并行分组聚集算法,NSHPGA、TLSHPGA、BLSHPGA、NLSHPGA四种不同算法.本文在不同的分组势集、不同的线程数的情况下,针对以上四种算法做了多组实验,通过比较三种不同粒度的共享Hash表并行分组聚集算法的加速比,得出本论文提出的NLSHPGA算法获得最高的加速比,和最大的并发度.通过比较NSHPGA算法和NLSHPGA算法的加速比、Cache miss、内存使用等情况,得出本论文提出的NLSHPGA算法在分组势集高的情况下,加速比超过NSHPGA算法,并且Cache miss更低,使用的内存更少.
  • 摘要:在大数据背景下,数据库系统表连接操作的效率急需优化,尤其对于基线与增量数据分离的数据库系统来说,其连接操作更是成为其性能的主要瓶颈.为了有效提升事务处理的性能,基线与增量数据分离的数据库系统架构,通常将基线数据存储于磁盘中,增量数据存储于内存中,进而获得较高的事务处理吞吐量和可扩展性.Hbase、BigTab1e、OceanBase等系统是典型的基线与增量数据分离的数据库管理系统,但是他们的表连接效率较低,其主要原因包括:每次表连接前必须先合并基线数据和增量数据;数据存储模式更为复杂,导致过大的网络开销.本文提出了一种基线与增量数据分离架构下的排序归并连接优化算法.该算法对连接属性做范围切分,在多个节点上并行做排序归并连接.该算法无需在连接前合并基线数据和增量数据,进而实现对基线和增量数据并行处理,同时也避免了大量非连接结果集数据的基线与增量合并操作.在开源的数据库OceanBase上实现了该算法,并通过一系列实验证明,该算法可以极大提高OceanBase数据库的表连接处理性能.
  • 摘要:公交客流信息是公交管理工作的基础,它为公交调度提供信息,同时为公交路线网的优化提供有用的参考.传统的公交线路信息和刷卡信息多为文字性的描述,杂乱而无法提供有意义的信息.而对公交信息的管理与地图上的可视化展示能更直观、全面地掌握公交出行数据,显示公民公交出行特征.为处理分析这些海量公交IC卡数据并能够更好地展示,构建了一个基于位置的服务(LBS)的应用.设计思路如下:1)将公交运行线路数据与公交IC卡刷卡数据进行预处理,包括线路筛选与公交方向判断等.2)对于海量公交数据,为加快条件查询速度,建立R树索引,以方便空间范围查询,建立B+树索引,方便时间范围的查询等.3)对管理的公交数据进行空间范围、时间范围查询,并进行可视化展示,最后结合北京实际交通情况做出基本评价.
  • 摘要:在生物医学文本分析中,不同的专业词汇可能具有一定的语义相似性,这对于专业文本的语义分析、生物医学实体的信息分析等都具有重要的意义.本文提出了SimNet,一个基于Skip-gram模型构建的语义相似词网络系统,用以研究发现文本中专有名词的相似性关系,以便发现相似的特性.SimNet是从PubMed收录的生物医学论文自动进行无监督的语义相似性学习,得到的相似性关系的集合.其目的是分析在生物医学领域的专业文献中出现的具有相似性的词汇.通过SimNet对于语义相似词的分析,可以有助于文本理解和通过对相似词的分析完善当前词的信息,对于专业信息的理解和整理具有重要意义.
  • 摘要:分类体系是知识库、知识图谱中的基础组成部分,为实体明确了类别类型、在类别类型间建立了语义关系.目前存在的分类体系多为英文,事实上,中文缺乏可用数据源,而且英文方法不能直接用于中文.本文针对这些局限,为满足中文语义支持的需求,采用混合架构构建了大规模中文分类体系,及其展示查询系统(CTCS2).CTCS2包括两个模块:离线模块和在线模块.离线模块又分为SVM底层抽取子模块、顶层分类树构建子模块两部分,采用SVM分类模型、推断规则、关联规则挖掘和自底向上的算法完成了整个分类体系的构建,在线模块实现了统计分析,以及分类树及上下位关系的展示和查询.本文以中文维基百科数据为基础,设计并构建了大规模中文分类体系,实现了展示查询系统,为构建中文知识图谱提供语义支持.
  • 摘要:随着生活节奏的加快,压力与日俱增且无法得到有效地释放,加之各种负面情绪的不断积累,导致心理疾病的大众化态势愈发加剧.然而,多数人不能够正视心理疾病,羞于去看心理医生.为了能提前了解个人是否存在心理疾病,预防其进一步恶化,开发了基于大数据的心理疾病预测系统,借助人们日常生活中经常用到的手机,通过采集手机通讯短信中近期出现的病症关键词,进行医疗大数据及其匹配算法的构建,进而发现潜在的心理疾病患者。本演示将对系统的准确性、高效性和方便性加以展示。
  • 摘要:伴随着计算机科学技术的进步,大规模数据查询管理技术蓬勃发展,这使得海洋水文数据方面的大数据查询管理成为可能.中国拥有漫长的海岸线和极其广阔的领海,如渤海、黄海、东海、南海等.采取有效的数据查询管理策略来处理我国大规模海洋水文数据就显得尤为重要.本文中,设计实现了一个海洋多模态数据的世系查询原型系统.系统利用传感器(网络)、GPS、FRID、Camera、移动采集设备等获取原始多模态海洋数据;然后对获取的数据进行数据清洗和实体整合,产生的7W溯源世系数据;根据前端用户所需要的查询条件完成对水文海洋数据信息的查询;在Web浏览器中高效动态地展示大规模海洋水文数据的7W世系溯源过程,同时在地图中展示了世系轨迹在某一时间段内没出现在结果中这一问题.
  • 摘要:数据库的建设规模和数据量大小是衡量一个国家信息化程度的重要指标.显然,为数据库稳定运行保驾护航的数据库监控系统也具有重要的地位.特别对成长中的OceanBase,其监控还处于探索阶段.利用OceanBase基本信息、主机监控数据以及OceanBase监控数据,本文设计并实现了一个分布式部署的、可伸缩的、多元化展示的OceanBase监控系统OBDMS.该系统不仅有助于OceanBase系统预警、故障定位和决策优化,而且具备部署简单、分析全面以及监控多元化等特点.
  • 摘要:Web已成为一个浩瀚的信息海洋,其信息分散在不同的数据源中不同数据源常常为同一对象实体提供冲突的属性值如何从这些冲突属性值中找到真值被称之为真值发现问题根据属性值数量可将对象属性分为单值属性和多值属性,现有的多数真值发现算法对单值属性的真值发现比较有效针对多值属性的真值发现问题,提出了一个多真值发现方法MTruths,该方法将多真值发现问题转化为一个最优化问题,其目标是:各对象的真值与各数据源提供的观察值之间相似性加权和达到最大对象真值求解过程中,提出两种方法求真值列表的最优解:基于枚举的方法和贪心算法与已有方法不同的是MTruths可以直接得到对象的多个真值最后,通过图书和电影两个真实数据集上的实验表明,MTruths方法在有效性和性能上优于现有的真值发现方法.
  • 摘要:实体匹配旨在找出不同数据源中指代同一实体的记录.已有的实体匹配方法大都基于记录主属性值的相似度进行匹配,而很少有工作考虑到使用记录的非主属性值来辅助实体匹配.然而,当两条指代同一实体的记录的主属性值差异较大的时候,这两条记录可能不会被认为是匹配的记录.另一方面,这两条记录很可能共享一些特别的非主属性值,而这些非主属性值恰好可以反映出两条记录的匹配关系.基于这种思想,提出了一种新颖的基于非主属性值的实体匹配算法.该算法以类似于决策树的结构为基础.使用这种结构,不仅可以解决噪声值和空缺值带来的问题,而且可以极大地提高发现匹配记录以及尽可能早地排除不匹配记录的效率.多个数据集上的实验结果表明方法比现有的实体匹配方法具有更高的准确率和召回率.此外,使用提出的基于决策树的匹配算法等有关技术可以极大地提高基础匹配算法的匹配效率.
  • 摘要:知识图谱建立了系统化的知识体系,包含丰富的实体和关系,在实体查询领域具有重要作用.但中英文知识图谱在实体规模和关系质量上存在很大差异.Probase、YACO等英文知识图谱可以开放访问海量高质量的命名实体,而中文知识图谱仍处于发展阶段,实体、关系的数量和质量都不高.因此,利用相对成熟的英文知识图谱实现对中文命名实体的查询,可以获取更完整的实体关系网络.本文中将展示一个基于YACO的中文实体查询系统(CLEQS),实现跨语言的实体查询,即在英文知识图谱中查询对应中文实体.CLEQS包含两个模块:实体消歧义模块和跨语言实体链接模块.其中,实体消歧义模块是依据中文查询实体和上下文信息,准确地将中文实体映射到中文维基百科中的无歧义词条,跨语言实体链接模块构造跨语言实体链接模型(RSVM),将中文维基百科与英文知识图谱中描述相同概念的实体进行链接,形成一个实体关系网.实验表明,CLEQS系统能够提供准确、高效的跨语言中文实体查询,还能够发现中英文知识图谱中未知的跨语言实体链接.
  • 摘要:Web数据的不断丰富,使构建学者的社会网络成为可能,但是国内目前鲜有系统挖掘学者的导师-学生关系.本文借助Deep Web数据集成技术从互联网上自动集成计算机领域的学位论文,进行数据清洗、实体识别、实体关系抽取和实体链接,开发出由数据源模块、语义构建模块、查询处理模块、数据展示模块组成的DegreeTree系统.由于学者的单位信息可能发生改变,匹配同一学者不同时期的导师、学生身份至关重要,本系统用学位论文的年份、授予单位。
  • 摘要:大量无向网络在形成时往往都伴随着方向性,这是因为社会关系的建立一般包含着主动关注和被动响应这类存在方向的过程.社会关系的方向性不仅体现了个体在一个社交关系中的积极性,而且可用于区别他的积极朋友和消极朋友.尝试在无向网络图中推断出潜藏的有向关系,对于增进用户对社交网络的理解具有重要的理论意义.本文设计和实现了一个新颖的社交网络分析系统Redir,给定一个无向社交网络图,Redir能推断出隐藏的有向关系,并构建一个对应的有向网络图.在此基础上,Redir还包括一系列分析工具,例如用户中心性分析、朋友预测、社区发现和兴趣推断.用户可以通过交互界面使用各个功能,分析比较原有的无向图和推断有向关系后得到的有向图的异同,并评估有向性发现的意义所在.
  • 摘要:人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据时代,大数据查询技术备受关注并且得到广泛研究.本文介绍了Probery,一种基于Hadoop分布式文件系统和MapReduce编程模型设计的大数据概率查询系统.Probery采用了一种基于概率的近似完整性查询技术,它不同于传统的近似查询技术,其近似性主要体现为数据查全的可能性,是一种新型的数据查询方法.本文描述了Probery的系统结构和关键技术,包括数据分段、概率放置以及概率查询.通过与其它主流非关系数据管理系统进行性能对比,对Probery进行演示与实验,实验结果表明,Probery可以适当地损失查询完整性来提高数据的查询性能,而且具有较好的通用性、适应性和可扩展性.
  • 摘要:空气污染是与地理信息密切相关的环境问题,现有环境监测系统在面向地理信息的处理和可视化方面效果不佳,且存在实时性差的问题.基于内存数据库实现了空间扩展,使之支持时空数据流的存储与索引.采用磁盘空间数据库存储历史数据,提供对历史数据的查询与分析功能.设计实现了空气质量实时监测系统,对监测数据流进行实时处理与可视化,并能有效应对多用户并发查询.可视化模块能够实时展示空气质量在地理空间上的连续分布情况,支持二维和三维两种可视化方式,具有跨平台的特点.
  • 摘要:GPU以及集成式的多核CPU GPU架构凭借其拥有强大的并行处理能力和可编程流水线方式,已经成为数据库领域的研究热点.为充分发掘异构平台的潜力,提升列式数据库查询的性能,本文在充分考虑异构平台体系架构差异的基础上,首先提出了GPU多线程平台上进行连接的数据划分策略ICMD(Improved Coordinate Module Distribution),利用GPU流处理器并行处理各个子空间上的连接.然后利用任务评估分配模型实现查询负载的动态分配,使得查询操作在多核CPU、GPU以及其他加速器等部件之间并行执行.同时利用片上全局同步机制,局部内存重用技术优化并行连接算法.实验采用SSB基准测试集测试,结果显示Intel(R)HD Graphics 4600平台上并行连接查询相比于CPU版本获得了135倍的加速比.
  • 摘要:模式匹配是数据管理中的一个基础性问题.随着云计算、物联网等技术的兴起,数据正以前所未有的速度在不断地增长和累积,使用自动化的模式匹配工具能大大节省匹配时间提高匹配效率,但匹配的结果是带有不确定性的,且难以消除.通过众包的方式可以帮助减少不确定性.本文基于经济学中的边际原理思想提出了一种用于模式匹配众包方法中的发包优化策略:MarP.该策略综合考虑了解决模式匹配不确定性的精确度以及问题发布的成本,对问题的发布阶段进行了优化,在此基础之上对发布问题所需的成本和收益进行了对比,并给出了停止问题发布的判断条件,以使两者在解决问题的过程中达到最优的状态.最后通过实验证明了,MarP发包优化策略以高精确度解决问题的同时为发包者节省了宝贵的时间和费用.
  • 摘要:医学图像是医生进行诊断决策的最重要工具之一,如何有效地表示医学图像以及发现医学图像中隐藏的重要信息,从而帮助医生做出更好的诊断,已经成为医学大数据领域的研宄热点.图(graph)能够很好地表示实体之间的复杂关系,目前存在一些医学图像的图模型,但这些图模型没有很好地考虑特定领域图像的特有结构,导致重要信息的丢失.基于此,针对医学领域的脑部CT图像,本文首先提出一种侧脑室和病变区域的拓扑关系(Topological Relationships between Ventricles and Lesions,简称TRVL)图来表达脑部CT图像;其次,提出一种基于图编辑距离的频繁近似子图挖掘方法(Frequent Approximate Subgraph Mining Based on Graph Edit Distance,简称FASMGED),此方法基于具有较强容错能力的图近似匹配策略,能够处理现实世界中噪音普遍存在的现象.实验结果表明,本文提出的频繁近似子图挖掘能够发现更多的重要模式.
  • 摘要:Medline是当前国际上最权威的生物医学文献数据库,不仅可以从这些文献得到大量的诊疗信息,而且可以从不同年代发表的文献主题之间的差异挖掘出生物医疗研究不同时间的关注点,基于此,开发了基于Medline的生物医学文献分析系统(BioMedical Literature Analysis ystem based on Medline,Medas)系统设计实现了一系列的文献挖掘算法,提供了生物医疗领域的演变分析、指定主题的爆发期分析、疾病诊疗方案查询、生物医疗领域研究主题变迁分析等功能这些功能可以为医护人员提供诊疗护理建议,可以帮助医疗研究人员了解生物医疗领域的研究趋势以及不同疾病、诊疗方案在不同时期的关注度,也可以为普通用户查询疾病基本相关信息提供帮助.
  • 摘要:针对不同任务之间通常存在偏序关系这种实际情况,本文提出了基于偏序任务的社会网合作问题CSN-TPR.该问题研究如何从社会网中选择合适的团队来合作完成具有偏序关系的任务集,使得由通讯代价、时间代价和预算代价构成的总体代价性能最优.本文首先证明了CSN-TFR是NP-hard问题,然后利用爬山法、分支限界策略和动态规划方法提出了近似算法HillClimbingTFBBS.HillClimbingTF_BBS算法不仅输出有效的团队,而且能给出团队成员的具体任务分配以及每项任务的开始时间.真实数据上的实验结果表明:HillClimbingTF_BBS算法能有效并高效求解CSN-TPR问题.
  • 摘要:近年来,物联网、智能电网和可穿戴设备等应用产生了海量的历史时间序列数据.传统的时间序列处理技术主要包括分类、聚类和异常检测等数据挖掘技术,以及范围查询、相似查询、聚集查询等查询处理技术.最近研究者们开始关注探索式的查询处理技术.这些查询的典型特征为:由于查询的任意性和巨大的搜索空间,无法采用固定的索引技术来加速查询处理,而需扫描整个数据集.本文提出了一种新的探索式查询:基于条件的最长子序列查询,并给出了一种高效的处理算法.算法主要创新点包括:i)通过将原始的时间序列转换为正/负分段序列,从而大大降低了搜索空间的规模;ii)通过分析LVS的结构,提出了一种基于上界的搜索算法.并且本文提出了若干种剪枝策略来进一步提高效率.本文在大规模的模拟数据和真实数据上进行了实验,验证了算法的有效性和高效性.
  • 摘要:随着通讯技术的发展和智能手机的普及,运营商基站所采集的大规模手机轨迹数据在城市规划、人口迁移等领域中发挥了重要价值.其中,城市人口流动监测是市政规划部门的一项重要任务.由于人工监测方法代价高昂,如何基于手机轨迹数据来监测城市人口流动情况就显得非常重要.然而,鉴于该数据源的质量低下、信号在基站间频繁切换,如何实施监控任务面临着巨大的挑战.本文提出一种利用手机轨迹数据监控人口流动的方法,首先提取用户活动轨迹,从而降低数据低质的影响,然后根据进出城市的行为模式提取重要特征,最后利用分类模型判定用户轨迹是否是进出城市.本系统使用Map/Reduce框架进行数据分析,具有较佳的可扩展性.本文基于真实数据集合的实验验证了所提方法的正确性和有效性.
  • 摘要:随着在线社会网络的迅速发展,社会网络的团队形成问题逐渐成为研究热点现有的社会网络中团队形成问题目标是寻找一个成员间沟通代价最小的团队然而,实际应用中存在大量要求团队成员间具有不紧密关系的需求,这种成员间的不紧密关系使得团队的观点多样化、多角度、无偏见,可以广泛应用于形成专家评审团队、大众评审团等基于此需求,本文将社会学的弱关系概念引入团队形成问题,提出一种社会网络中弱关系团队形成问题,该问题旨在寻找成员间为弱关系,同时满足技能、经验值要求的一个团队,该问题为NP-hard问题本文提出三类算法解决该问题,分别为贪心算法、精确算法、α近似算法,每类算法有各自的特点与适用范围利用ACM和DBLP两类真实的数据集进行实验,综合评估了各类算法的效率与求解质量,证明了提出算法的有效性.
  • 摘要:局部敏感哈希(LSH)用于在海量高维数据中检索相似的数据项,它能高效地返回相似度大于用户给定阈值的数据对.但是,由于需要设置固定阈值,LSH无法直接处理Top-K相似查询.传统LSH索引算法需要设置一系列阈值,分别建立索引,时间和空间代价较大.本文提出了一种层次化的LSH索引算法,通过动态构建层次化相似度图,充分利用三角不等式,减少不必要的索引构建代价.具体来讲,首先通过高阈值构建相似度图,将高度相似的数据点抽象成"超点",再在"超点"上构建低阈值的相似度图.查询时,首先查询高阈值相似度图;数量不足时再查询低阈值相似度图.实验表明,相比传统LSH算法,本文方法在构建索引的时间和空间代价上减小一个数量级,查询更加高效.
  • 摘要:子串匹配问题是信息检索、信号处理以及生物信息学等领域中的研究重点,随着文本数据的快速增长,在大数据集上高效的完成近似子串匹配是一项挑战另一方面,多核架构已经成为当今的主流计算机架构,如何在大规模数据中利用多核的优势提高近似子串匹配的效率是本文的研究重点BWT索引是生物信息学中广泛应用的索引方法,它的特点是索引空间小,支持高效压缩和子串匹配但现有的基于BWT的方法没有考虑多个查询串上的计算共享以及多核资源的动态分配,本文在传统的BWT搜索方法基础上对搜索过程进行了改进,采用过滤和验证的方式完成近似子串匹配首先,对查询串进行分割重组来减少搜索过程中的重复计算其次,利用多核优势,动态的按需分配处理器资源从而提高搜索和验证的效率最后,实验研究展示了本文提出的方法的高效性.
  • 摘要:字符串相似性连接是数据质量管理的基本操作,也是数据价值发现的关键步骤,目前已有的方法不能满足面向大数据的增量式处理需求.本文采用字符串划分技术,以Pass-Join字符串连接算法为基础,提出一种面向流式数据的增量式字符串相似性连接方法Inc-Join.该方法以字符串反向索引作为状态,每次连接操作结束后更新状态,新增数据只需根据状态进行相似性计算,避免了批处理模式中历史字符串重复匹配带来的时间和空间开销,而且优化后的字符串索引技术提高了字符串匹配效率.实验结果表明,Inc-Join方法在不影响连接准确率的同时,能够有效减少字符串匹配次数,相比批处理的重复计算,它极大地改善了流式数据的连接响应时间.
  • 摘要:近年来,众多基于社交网络的应用开始涌现,各种各样的游戏和公众帐号等服务吸引了大量用户的注意.对于用户和社交网络管理者来说,如何评价这些应用的质量变得越来越重要.但是,已有工作很少涉及基于社交网络的应用排序问题.针对这一问题,本文提出了一个全新的应用排序方法,不仅利用了应用的文本内容信息而且考虑了用户网络的结构信息.首先,根据应用的文本信息自动得到各个应用关联的话题;之后根据应用到用户的传递矩阵得出用户的兴趣;然后,在用户网络上执行WeRank(本文提出的一个类PageRank的话题敏感排序算法),得到用户在不同话题上的权威度;最后,综合用户在不同话题上的权威度来计算应用的排名.据人们所知,本文是第一个基于社交网络用户的权威度来对应用进行排名的工作,实验使用了来自某社交媒体的真实数据,在一个百万级用户的数据集上进行了对比实验,结果表明本文方法具有明显的优越性.
  • 摘要:基于BSP模型的分布式框架已经成为大规模图高频迭代处理的有效工具分布式系统可以通过增加集群节点数量的方式提供弹性的处理能力,但同时也增加了故障发生的概率,因此亟需开发高效的容错处理机制现有工作主要是基于检查点机制展开研究,包括数据备份和故障恢复两部分前者没有考虑迭代过程中参与计算的数据规模的动态变化,而是备份所有图数据,因此引入了冗余数据的写开销后者通常是从远程存储节点上读取备份数据进行故障恢复,而没有考虑利用本地磁盘数据恢复某些场景下的故障,引入额外的网络开销因此提出了一种多级容错处理机制,将故障分为计算任务故障和计算节点故障两类,并设计了不同的备份和恢复策略备份阶段利用了某些应用在迭代计算过程中参与计算的数据规模的动态变化特性,设计了完全备份和写变化log自适应选择的策略,可以显著减少冗余数据的写开销,故障恢复阶段,对任务故障,利用本地磁盘上保留的图数据和远程的消息数据完成恢复,而对节点故障,则利用备份在远程信息进行恢复最后,通过在真实数据集上的大量实验,验证了本文提出的多级容错机制的有效性.
  • 摘要:社交网络和网络购物的发展普及导致了社会化导购的产生和发展,同时也催生了通过在社交网络中推荐产品从而获取利润的"橙领"人群.通过对橙领相关技术的研究,能更透彻地了解基于社会网络的产品营销机制,也能有助于探索社会化导购的底层模式.目前国内外少有这方面研究.因此,本文提出了一种针对社会化导购的橙领推荐方法,主要包括三个具体的算法:橙领定位算法、面向用户的橙领推荐算法和面向商家的橙领推荐算法.基于实际数据设计和实现了相关实验,实验结果验证了所提算法具有较好的准确性和可行性.
  • 摘要:模式匹配用于发现不同数据源中概念之间的语义对应关系,已成为数据集成、数据交换等领域的研究热点.XML是网络上数据交换的标准之一,基于XML的模式匹配在异构数据交换中起着核心作用.在过去的若干年中,研究者针对各自领域内的XML文档,研究了大量的基于XML模式匹配方法,从而可以识别XML中数据的语义对应关系.XML模式匹配存在着一些挑战,例如如何将节点和结构匹配加以综合考虑、如何有效拟合多种相似度等.面对如上问题,首先针对XML节点和结构两方面进行相似度计算,得到相似度矩阵之后整合这两个方面的相似度.之后通过多种策略组合和优化算法进行拟合,以得到优化的匹配结果.最后,通过基准测试平台对比,该方法相比于经典的模式匹配方法具有较高的精确率和召回率.
  • 摘要:随着互联网用户数量的不断增长,互联网应用逐渐进入了大数据时代.如何存储和分析这些大数据成为了互联网应用中的难题.融合数据存储和数据分析的内数据库分析(In-Database Analytics)技术,受到了越来越多企业和研究者的关注.Window(窗口)函数作为关系数据库领域中内数据库分析技术的一种解决方案,其精妙的语义特征使其能代替自连接(Self Join)和相关于查询(sub Queries)等完成传统复杂查询功能,现已被广泛应用到互联网应用的数据管理和分析中.在目前互联网应用步入大数据时代的背景下,针对高吞吐和实时响应等需求,已有的Window(窗口)函数的处理性能已经出现了瓶颈.本文基于PostgreSQL数据库中原有MAX/MIN Window(窗口)函数执行框架,提出了一种基于临时窗口的专门针对MAX/MIN函数优化的方法,来优化SQL Window查询针对MAX/MIN函数的处理,并给出了查询代价的分析模型,从理论上证明了该算法的性能.通过与现有商业数据库SQLServer进行性能上的对比,验证了该方案的有效性.
  • 摘要:J-MIN-Seed问题的目标是选择种子集合S,它不仅需要影响一定数量的用户,同时S是最小的.虽然该问题得到了广泛的研究,但是现有工作忽略了一个重要事实,即地理位置信息对于J-MIN-Seed问题是非常重要的.许多像位置敏感的口碑营销一类的真实应用都有地理位置的需求.为此提出了位置敏感的J-MIN-Seed问题,并证明了该问题是NP-hard问题.该问题的一个挑战是如何高效且有效地计算给定区域的影响范围.为了解决这个挑战,对现有的树模型进行扩展,设计出一种高效且有效的近似模型.基于此模型,首先提出了朴素的贪心算法MS-Greedy.MS-Greedy虽其有近似保证,但其计算量太大.为满足在线查询的需求,又提出了另外两种高效的算法Bound-based和Partion-Assembly-based.大量真实数据上的实验结果表明:本文算法能有效地解决位置敏感的J-MIN-Seed问题.
  • 摘要:空间co-location挖掘是空间数据挖掘的一个重要方向.但现有的挖掘算法很少甚至不考虑挖掘领域的背景或约束知识,挖掘到的大量co-location规则给决策者带来了极大的困扰.因此,本文提出一种基于本体的交互式空间co location规则挖掘框架OSCRM.首先,OSCRM提供了基于本体的用户领域知识表达机制;然后,OSCRM提供了本体之上的强大的公式系统,使用户可以方便地表达指导挖掘方向的领域背景或约束知识;接着,OSCRM提供了2个经典的空间co-location挖掘算法,算法实现中充分利用了用户提供的公式集进行过滤处理;最后,OSCRM还提供了一种交互式的后处理机制(二次挖掘机制),进一步地减少最终规则的数量.使用实际数据的实验表明OSCRM不仅是一个方便、实用的领域驱动空间co-location挖掘框架,更为重要的是规则过滤效率达到了99.9%.
  • 摘要:随着知识的爆炸式增长和不同领域知识图谱的推出,仅面向单个知识图谱的查询结果已经不能满足用户的查询需求.本文提出了一种面向多源知识图谱的样例查询方法,目标是通过集成来自不同知识图谱的Top-K结果,改善用户对查询结果的满意度.首先,为了简化终端用户的操作,本文使用用户友好的查询方式,基于关键字的样例查询,通过结构化用户的查询关键字,确定每个知识图谱中的用户样例;其次,为了进一步确定用户查询意图,在已有的基于距离和结构的相关性衡量方法基础上,本文加入了知识流行程度作为一个补充的相关性衡量因素;之后,为了降低子图匹配与候选结果融合的时间代价,提出了基于优化的候选结果的融合方法;最后,通过实验验证了本文提出的方法对于面向多知识图谱的样例查询,不仅保证了查询效率,还提高了结果质量.
  • 摘要:随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生.不确定数据作为其中一种最具代表意义的数据类型,普遍存在于人类社会的各个领域,包括金融,军事,位置服务,医疗以及气象等等.近年来,随着人们对不确定数据研究的不断深入,一系列的数据处理方法以及数据模型相继诞生.其中,可能世界模型则是一种已经被广泛应用的数据模型.该模型通过构造相关元组的概率实例来描述数据集合的不确定性,为处理不确定数据的查询提供了理论基础.但是,模型中的可能世界实例会由于不确定数据集合的规模呈现指数级的增长,这就使得计算成本与空间成本大幅上升.本文基于压缩近似原理提出了一种面向于不确定数据流查询的方法,可有效处理面向于数据流的TTk查询与ER-Topk查询,该算法以少量精度损失为代价降低了空间的损耗。通过与probTree进行比较,可以肯定的是在处理大规模数据是压缩算法对于空间的节省是明显的,证明了该类压缩近似方法在处理不确定数据方面存在着很大价值。在未来的工作当中,还将结合其他领域的多种相关工作,研究该类方法在处理不确定数据管理上面的可行性,提出更好的改进方案。
  • 摘要:影响最大化问题是在社交网络上找到一组有影响力的用户,使得期望的影响范围最大化.然而,已有的研完工作没有考虑用户之间有效的传播时间区间,而且忽略了营销时间对于选取初始用户的影响.这篇文章基于真实用户动作日志,确定了用户之间有效的传播时间区间,并提出了一个基于时间的影响力分配模型TIA.根据该模型,提出了基于真实时间的影响力最大化问题(BTIM)和饥饿营销模式中种集最小化问题(HMSM),并证明了这两个问题都是NP-hard问题.为求解BTIM问题和HMSM问题,分别提出了有效的近似算法IM-INF和HM-INF,并证明了算法IM-INF和HM-INF的近似比.多个真实社交网络数据集上的实验验证了算法IM-INF和HM-INF的有效性和高效率.
  • 摘要:多核和众核处理器成为新的具有强大并行处理能力的大内存计算平台的主流配置.多核处理器遵循以cache LLC大小为中心的优化技术,而众核处理器,如Phi、GPU协处理器,则采用较小的cache并以更多的硬件级线程来掩盖内存访问延迟的设计.随着处理核心数量的增长,计算框架更倾向于面向大规模处理核心的代码执行效率高并且扩展性强的设计思想.本文提出了一种基于数组存储和向量处理的内存分析处理框架Array OLAP,简化OLAP的存储模型和查询处理模型.在Array OLAP计算框架中,维表规范化为维向量,事实表规范化为带有多维索引的度量属性.通过多维索引计算,一个多维查询被简化为事实表上的向量索引扫描并根据度量表达式进行聚集计算.规范化的向量查找和向量索引扫描具有较好的代码执行效率,并且阶段化的处理模型更好地适应不同的计算平台,将计算阶段分配给最适合的计算平台.同时,Array OLAP是一种面向数据仓库模式特点的设计,向量处理模型设计简单,对于数据仓库维表较小且增长缓慢的特点具有较好的效率.描述了在不同平台上的Array OLAP计算框架并且通过基准测试评估Array OLAP的性能,通过与当前的内存分析型数据库的性能对比,Array OLAP性能超过主流的内存分析型数据库并且可以平滑地迁移到新的硬件平台.
  • 摘要:现有基于区间树结构的差分隐私直方图发布方法大多采用同方差的加噪方式,对其进一步研究可发现,若采用异方差的加噪策略,可进一步提升发布直方图的区间计数查询精度;然而,当前基于异方差加噪的差分隐私直方图发布方法对区间树结构却有着严格的要求,导致方法的灵活性与实用性较低.为此,提出一种异方差加噪下面向任意区间树结构的差分隐私直方图发布算法LUE-DPTree.算法首先根据区间计数查询的分布计算区间树中节点的覆盖概率,并据此分配各节点的隐私预算,从而实现异方差加噪;接着通过分析指出该异方差加噪策略适用于任意区间树结构下的差分隐私直方图发布,且从理论上进一步证明,对于任意区间树结构下基于异方差加噪的差分隐私直方图发布,仍然可在一致性约束下利用最优线性无偏估计进一步降低区间计数查询的误差.实验对算法LUE-DPTree所发布直方图数据的区间计数查询精度及算法效率与同类算法进行比较分析.实验结果表明,算法LUE-DPTree是有效可行的.
  • 摘要:现有绝大多数差分隐私算法只考虑数据的一次静态发布,而实际许多数据分析应用却涉及连续数据发布.为此,本文在深入分析连续数据发布问题的特点的基础上,结合矩阵机制的理论成果,提出一种基于矩阵机制的差分隐私连续数据发布方法.该方法的核心思想是首先利用树状数组构建连续数据发布问题的策略矩阵,然后利用策略矩阵的性质进行优化以提高发布数据的精确性,并针对现有基于矩阵机制的优化算法复杂度极高的问题,提出了时间复杂度为O(lgN)的快速对角阵优化算法FDA,可满足大规模连续数据发布的要求.实验对算法FDA所发布数据的精确度与同类算法进行比较分析.实验结果表明,算法FDA是有效可行的.
  • 摘要:提出一种基于Markov模型与轨迹相似度(MMTS)的移动对象位置预测算法,该方法借鉴了Markov模型思想对移动对象的历史轨迹进行建模,并将轨迹相似度作为位置预测的重要因素.以Markov预测模型的预测结果集作为预测候选集,结合相似度因素得出最终预测结果.实验结果表明,该算法不仅提高了预测的稳定性,还在降低预测稀疏率的同时将预测精度平均提高了8%以上.
  • 摘要:近年来微博炒作账户异军突起,采用违规手段开展网络公关活动,严重扰乱了正常的互联网秩序.传统的炒作账户发现主要采用特征分析方法,忽视了炒作账户的组织性和策划性,难以发现隐蔽性高的炒作账户.针对以上问题,充分考虑到炒作账户共同参与微博炒作的群体特性,将炒作群体发现问题转化为挖掘最大频繁项集问题,提出了一种基于最大频繁项集挖掘的炒作群体发现方法,能够找出多次共同参与炒作微博传播的账户群体.为了提高最大频繁项集挖掘的效率,结合研究背景以及事务数据库的特点,提出了一种基于迭代交集的最大频繁项集发现算法,采用基于二分查找的最大频繁候选项集筛选策略对事务数据库进行缩减,并利用多种方式减少事务间取交集的次数.最后通过实验对IIA算法的性能进行了评估,并在真实的新浪微博数据集上验证了炒作群体发现方法的有效性,实验结果表明利用该方法发现的炒作群体准确率高于90%,而且能发现传统特征分析方法难以识别的隐蔽炒作账户.
  • 摘要:由于图结构能有效表示复杂问题,图的研究已越来越多的受到人们关注,图查询、分类、聚类等算法的实现与应用已成为当前的研究热点对于给定的图集和查询图,图包含查询需从图集中找到查询图的全部子图已有的图包含查询算法主要通过提取图集中的特征模式,建立索引结构并采用过滤与验证的方法实现查询通过对特征模式在图中嵌入的位置关系进行分析,提出基于特征模式嵌入关系的图包含查询算法ER-Index.ER-Index离线建立特征模式重叠/邻接嵌入关系索引,在过滤阶段引入基于嵌入关系的启发式过滤规则进行剪枝,减少候选图集的规模,在验证阶段利用嵌入关系的匹配结果提高子图同构测试的效率在真实及模拟数据上的实验表明,通过与LW-Index等算法比较,ER-Index算法有效缩减了候选集的大小,并显著提高了验证阶段的效率.
  • 摘要:随着复杂事件处理(CEP)技术的发展,复杂事件处理技术已经在多个领域中得到了应用,例如供应链管理和智能跟踪与监控.由于嵌套查询能够满足这些应用领域里更高层次的需求,因此是CEP研究的关键问题之一,得到了广泛关注.但是,已有嵌套查询的对象都是发生时间确定的事件,并未考虑现实应用中事件的发生时间是未知的或是不精确的,而这种情况下通常需要概率的方法来表示事件的时间.因此本文旨在解决发生时可不确定事件流上的嵌套查询问题.首先,针对基于可能世界的基本处理方法存在的低效问题,本文提出了一种基于迭代的处理方法;进一步,在迭代处理方法的基础上,提出基于子查询长度的剪枝优化技术和基于共享子表达式的缓存优化技术,特别的,基于缓存优化技术提出了查询结果发生概率计算的剪枝方法;最后,通过实验验证了本文提出方法可有效地进行发生时可不确定事件流上的嵌套查询,并能够通过对方法的优化有效地降低处理代价,提高查询处理效率.
  • 摘要:设计实现了面向位置服务的时空聚集分析原型系统,采用基于时空聚合体模型的多线程并行计算方法缩短聚集查询响应时间,基于时空聚集瓦片和缓存机制提升动态地图绘制效率.采用基于HTML5的数据可视化技术,支持聚集分析结果在浏览器中动态展示.采用北京、南京和长沙真实数据进行验证,取得了较好效果.
  • 摘要:随着大数据时代的到来,电子医疗信息日益增加,人们对健康问题也愈加重视,如何有效的组织利用巨大的电子医疗信息提高医疗水平和质量,逐步实现医疗信息化成为一个热点问题.现有的电子诊疗系统因为操作不便、缺乏实用性、相关责任性等问题难以满足医疗工作者的需求.本文提出的基于医疗知识库的辅助诊疗系统,能通过患者的症状信息诊断出相关疾病并计算其相关度,而且能够查看疾病的详细情况并对进一步的确诊检查方式做出推荐.本系统具有实用性强、简单易用、良好的交互性以及较高的准确性等特点.
  • 摘要:伴随着信息与互联网革命引领的"大数据"时代的到来,人们获得的数据愈加呈现出体量大、多样化的特征.为了将多类型数据进行整合并挖掘出深层知识,本文设计并实现了一个原型系统,系统可以对大规模、多来源、多类型的数据进行存储、整合、分析处理.根据数据源特征,为用户提供一种从多种视角出发的信息综合表达模式.本文介绍了原型系统的体系结构,关键技术,系统演示步骤,演示环境等,展示了原型系统的部分功能和文互界面.
  • 摘要:随着工业生产中数据源的不断增加,人们对数据流的处理需求日益增大.其中,一个基本需求是基于距离度量方法的子序列匹配.由于动态时间弯曲距离(DTW)具有较高的度量精度,将其应用于子序列匹配问题是非常有价值的.但是,DTW具有较高的计算复杂度,这极大的限制了它在数据流上的应用.针对该问题,设计了一种高效的基于DTW的数据流子序列匹配系统.首先对数据流进行高效的适应性分段,然后对每一子段进行切比雪夫因式分解.不同于在原始数据空间的DTW计算,系统将在低维的切比雪夫特征空间计算DTW距离,因此,系统具有较高的计算效率.另外,提出了一种高效的在线匹配算法,可实现DTW在数据流上的增量式计算,进一步提高了系统的执行效率.
  • 摘要:社交媒体用户通过在线社交媒体服务分享信息、消费信息.随着社交用户数量的增长,社交媒体数据的分析价值也逐渐得到体现.本文针对社交集群行为展开分析研究,设计并实现了基于社交媒体的准实时集群行为监测与分析系统(RCBA).主要特点包括:(1)实现可适应性的实时数据采样策略,为实时分析提供数据支持,(2)重构完整的消息传播路径,用以分析集群行为过程中消息传播的情况,(3)监测互联网中的热点事件,对其进行多维度的分析.本文的所有工作均基于新浪微博.
  • 摘要:基于多核处理器硬件技术和高并发查询负载需求,近年来的研究不仅关注于一次一查询模式的查询优化技术,而且也关注于一次一组模式的查询优化技术.通过将并发查询转换为共享负载,一些低访问延迟的操作,如磁盘I/O、cache访问,可以被多个并发的查询所共享.当前的研究通常基于共享查询操作符,如扫描、连接、谓词处理等,通过生成全局执行计划优化并发查询.对于复杂的分析型负载,如何创建优化的执行计划是一个具有挑战性的问题.本文在广泛使用的星形模型的基础上提出一种模板OLAP查询执行计划来简化查询执行计划,以达到最大化查询操作符利用率的目标.首先,提出了基于代理键的连接索引技术,将传统的基于值探测的连接操作转化为内存数组地址访问(AIR),使连接操作的CPU效率更高并且支持聚集计算的后物化.其次,并发查询的谓词处理简化为cache line敏感的谓词向量,在单次cache line访问中最大化并发查询谓词计算性能.最后,通过多核并行实现技术在SSB基准上进行性能测试,实验结果表明共享扫描和共享谓词处理能够将并发OLAP查询处理性能提升一倍.
  • 摘要:在许多应用中,top-k是一种十分重要的查询类型,它在潜在的巨大的数据空间中返回用户感兴趣的少量数据.本文考虑具有多维选择条件的top-k查询.分析发现,现有算法无法有效处理海量数据的多维选择top-k查询.本文提出一个基于有序列表的TMS算法有效计算海量数据上的具有多维选择的top-k结果.TMS算法利用层次化结构的选择属性网格对原数据表执行水平划分.每一个分片的元组以面向列的模式存储,并且度量属性的列表根据其属性值降序排列.给定多维选择条件,TMS算法首先利用选择属性网格确定相关网格单元,有效减少需要读取的元组数量,本文提出双排序方法执行多维选择的渐进评价,并提出有效剪切操作来剪切不满足多维选择条件和分数要求的候选元组.本文的实验结果表明TMS算法性能优于现有算法.
  • 摘要:为了使用户更方便的研究股吧数据,设计并实现了一个面向股吧数据的观点挖掘系统OMisyC Opinion Mining System for Stocks BB S,主要功能包括:1)数据获取.允许用户扩展和集成股吧数据源.2)数据处理,包括数据整合、噪声过滤、文本处理等.3)情绪倾向性分析.4)热度分析(发帖热度和热点词汇统计).5)结果管理.提供可视化和下载功能,方便用户分析实验结果.
  • 摘要:近年来,互联网上的RDF三元组数量增长迅速,传统的单机SPARQL查询处理技术已不能满足实际需要.现有的分布式SPARQL查询处理系统可以分为两类,基于Hadoop的,或是基于数据库集群的.前者主要采用Map/Reduce来处理查询,效率较低,后者则继承了传统数据库集群的缺陷,可扩展性较差.本文提出一个新颖的SPARQL查询处理系统FusionDB.该系统采用分布式查询处理引擎和HDFS,这样既可以受益于传统的分布式数据库技术,如分布式连接,流水线,负载均衡等,又从新兴的Hadoop技术中得到了良好的容错能力和高可扩展性.为了进一步加速查询处理的效率,FusionDB还在HDFS文件上增加了注入式索引.实验表明,相比于传统的系统,FusionDB在性能上具有明显的优势.
  • 摘要:近年来可视化一直是数据挖掘领域的研究热点之一,其在医学研究领域也有广泛应用,通过对大量临床数据的可视分析与挖掘,可以辅助医生进行诊断.在针对大量医疗数据进行挖掘分析的可视化应用中,对于原始数据的可视化和结果的可视化已经做得比较完善,而对于分析过程的可视化还并不成熟,其主要仍是对算法流程的简单可视化,缺乏一定的交互,对于用户来讲仍然是一个"黑盒".所以本文基于交互模型,设计了一种针对具有对称性质的二维医学图像的多阶段分类可视化系统.本系统通过简单人机交互与实时图表、图像以及动画的展示对整个分类过程进行了可视化,并且系统在可视化过程中采用了简化交互策略,随着处理图像的增加,将会简化特征提取的人机交互过程,从而减少了训练及分类时间.本文介绍了相关概念、系统架构、分类算法和可视化技术及其实现.
  • 客服微信

  • 服务号