首页>中文会议>工业技术>自动化技术与计算机技术>第28届中国数据库学术会议
第28届中国数据库学术会议

第28届中国数据库学术会议

  • 召开年:2011
  • 召开地:上海
  • 出版时间: 2011-10-21

主办单位:中国计算机学会;复旦大学

会议文集:第28届中国数据库学术会议论文集

会议论文

热门论文

全部论文

全选(0
  • 摘要:局部相关空间不确定数据越来越受到许多实际应用的关注。提出了一种新颖的定义在不确定数据库的多个快照上的概率频繁近邻查询,目的是在多个快照数据上找到以一定概率频繁成为查询点最近邻的那些对象。应用现有的基于传统数据和基于不确定数据上的近邻查询算法直接处理这种查询会产生昂贵的开销。为了很好地解决这一问题,提出了一般的处理框架,其中包括相应的基于切尔诺夫界的过滤方法,以及对于概率质量函数的动态规划算法。给出了分别作用于两个阶段的两个过滤方法。在第1阶段,利用切尔诺夫界的上界推广形式可以过滤大量的候选目标,之后在第2阶段,利用切尔诺夫界的标准形式来进一步过滤候选目标。还讨论了用于处理扩展查询的动态规划算法以及相应的过滤条件。最后,在人工的和真实的数据上都进行了充分的实验,并验证了给出算法的有效性,为进一步的研究工作奠定了基础。
  • 摘要:大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。为了设计适合大数据分析的数据仓库架构,文中列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。
  • 摘要:随着社交网络分析、语义Web分析、生物信息网络分析等新兴应用的快速增长,对亿万个顶点级别大规模图的处理能力的需求愈加迫切,这是当前高性能计算领域的研究和开发热点。文中结合云计算的特点,从图数据管理与图数据处理机制两个方面,综述了云计算环境下进行大规模图数据处理的关键问题,包括图数据的存储方式、图索引结构、图分割策略、图计算模型、消息通信机制、容错管理、可伸缩性、图查询处理等。全面总结了当前的研究现状和进展,详细分析了存在的挑战性问题,并深入探讨了未来的研究方向。
  • 摘要:单机运行环境难以满足基于海量数据的大图算法对时空开销的需求,如何设计高效的面向云计算环境的分布式大图算法越来越受到人们的关注,MapReduce作为云计算的核心计算模式受限于易并行(EP)计算模型的制约不易表达图算法。文中突破了MapReduce基于易并行计算的假设,增强了MapReduce既有的编程规范,新的大同步(BSP)计算模型既能保证兼容旧的MapReduce作业可以无改动的运行,同时引入消息传递机制允许变化的状态数据在并行任务的超级步间进行交互。系统提供高度灵活的消息自定义接口,针对不同应用需求设计了轻量级和重量级两种自适应的消息传递机制,更高效地支持有数据交互需求的包含迭代处理的一大类图算法。在真实大规模图数据集上的实验结果表明,相比于原始的MapReduce作业外部链式处理,该文提出的BSP模型下的内部超级步迭代计算模式大幅降低了大图算法的处理时间。
  • 摘要:本文是研究如何运用Map-Reduce编程框架解决海量数据的Skyline查询问题。在Map-Reduce框架下处理Skyline查询的直接方法是扫描整个数据集进而得到查询结果,但是在海量数据Skyline查询问题中,查询结果的数量远小于原始数据集的数据量,对此本文提出了一系列的Skyline查询算法及优化,有效地过滤掉部分不能成为Skyline查询结果的数据对象,大幅度提高了在Map-Reduce框架下处理Skyline查询的效率。大量运行在Hadoop平台上的实验验证了本文所提出的Skyline查询处理算法具有良好的有效性、准确性和可用性。
  • 摘要:首先定义了多时间序列的支配关系,然后在此基础上给出多时间序列k'/k-支配Skyline查询的定义,并提出了GMS和GMI两种查询算法,对算法的正确性和复杂性也进行了证明和分析。合成数据和真实数据上的大量实验表明,两种算法都可以得到较好的查询结果,而GMI算法的查询效率较GMS算法有很大程度地提升。
  • 摘要:生物网络、社会网络、交际网络等复杂的网络被广泛的研究,由于数据抽出时引入的噪声和错误使这些数据具有不确定性,因此可以对这些应用使用不确定图模型建模,k最近邻查询问题是查询一个图上的距离某个特定点最近的k个邻居节点的问题,它是不确定图上的一个基础问题。设计了一个解决不确定图上最近邻问题的框架,首先定义了一种新颖的不确定图上的k最近邻查询,然后提出了针对该查询的一般处理算法,同时对该算法进行了优化,使算法效率得到极大提高。理论分析和实验结果表明提出的算法能够高效地处理不确定图上的k最近邻查询。
  • 摘要:图数据模型广泛应用于各种具有复杂关联数据的领域。针对现有音乐数据模型与查询语言在功能上的缺陷,首先提出了一个基于图的音乐数据模型Gra-MM,用图数据模型对复杂音乐数据进行建模,定义了图逻辑数据结构以及相关的图代数操作,然后给出了建立在Gra-MM之上的音乐数据查询语言Gra-MQL,定义了查询语言的BNF定义。Gra-MQL能够较好地处理音乐数据之间的复杂关联,同时具有音乐元数据检索和音乐内容数据检索能力,从而满足用户对音乐数据不同层次的查询需求,克服了传统图数据查询语言对复杂关联数据的表达能力有限、不能直接应用于音乐内容检索等不足。最后对实现的音乐数据库原型系统进行了介绍,对原型系统进行测试并给出实验数据,证明了模型以及查询语言的可行性。
  • 摘要:在传统的关系数据库上进行关键字查询已经成为近来数据库领域的研究热点,现有的工作都是以单个元组作为结果单元来返回。为了满足用户对于返回多元组的要求,提出了基于元组组合的关键字查询的概念,并通过返回元组组合来响应查询。通过对问题的分析得到了一系列启发式剪枝策略,设计了一个综合的优化算法。通过一系列真实数据集和人工数据集上的实验,验证了优化算法在绝大部分情况下比最初的算法在性能上有了显著的提高。
  • 摘要:在移动应用领域中,移动对象实时位置的区域查询在整个系统的分析、决策、预测等方面具有重要的作用,采用射频识别技术进行定位识别的实时定位系统具有对象分布区域化、不同子区域对象分布密度不均匀等特点。基于这些特点,提出了一种新的面向实时定位系统的区域索引机制,用以提高移动对象实时位置的区域查询的性能。该索引机制根据系统中对象的分布情况进行区域划分,利用R树对划分区域进行索引,并根据每个划分子区域对象的分布密度,用不同密度的网格索引位于该区域内部的对象的位置;同时进一步对提出的索引结构进行缓存感知的优化。实验结果表明,当对象分布不均时,该索引具有比R树和网格更优的区域查询性能,同时保持了良好的更新性能。
  • 摘要:随着近年来空间数据库研究和应用的不断深入,针对空间数据库中数据组织和查询的特征来设计缓存页面替换策略成为一个新的研究问题。Voronoi图是一种重要的空间数据库组织技术,在处理kNN查询时具有非常好的性能。针对Voronoi图组织的空间数据库,首先利用空间局部性提出了一种基于欧氏距离的替换策略,在发生页面失效时选择距离上一次访问页面欧氏距离最远的页面进行替换;进一步,针对不同kNN查询的搜索空间大小差异非常大的特点,在LIRS替换策略基础上提出一种自适应替换策略,通过对HIR页面占缓存比例自动调整来适应不同的查询。综合两者,形成基于欧氏距离的自适应缓存页面替换算法AELIRS。大量实验表明,在缓存大小与搜索空间大范围变动中,AELIRS始终优于其他替换策略。
  • 摘要:文中主要介绍计算广告学的演化过程,包括计算广告投放模式的演化、计价模式的演化、投放目标的演化;计算广告学的组成部分,包括计算广告产业链、计算广告的分类。此外,文中还重点讨论了广告检索、排序投放算法以及广告离线分析、实时投放平台等关键技术和平台。最后,还将讨论在移动计算环境下的移动终端的广告投放、基于位置信息的广告投放、基于社会网络的广告投放等新型应用模式对计算广告学发展的影响。
  • 摘要:干预规则挖掘是近年从干预实践中提出的新型数据挖掘任务,旨在利用数据挖掘技术探测干预事件,发现最佳干预时机和力度,提供促进事物向期待状态转化的决策支持。文中以四年的研究实践为背景,介绍干预规则挖掘的研究沿革和现状,给出了干预规则挖掘的任务分类。从三个角度,即干预效果预测、干预方法发现和未知干预探测三方面,介绍干预规则挖掘的研究问题、困难和成果,展望了干预规则挖掘未来研究方向。
  • 摘要:查询的中间结果重用是提高查询效率的重要手段。现有列存储系统主要关注多查询计划间的中间结果重用,忽略了单一查询计划执行过程中大量可重复访问的中间结果。单一查询中的中间结果具有确定性高、结果大小可估计的特征,非常适合作为重用的对象。为此,针对列存储数据仓库单一查询计划执行过程中的中间结果重用问题,提出了一个重用缓冲区空间的调度算法。首先,基于操作结点在给定物理执行计划树中的相对位置及其操作所产生的中间结果的大小对操作结点提出重用度估计模型。其次,设计了基于模型估计结果的缓冲区调度算法。在每一个查询计划的执行过程中,根据其模型估计结果执行缓冲区调度算法,使得其产生的中间结果中更重要的部分能够更久地驻留在内存中,以提升查询性能。在数据仓库基准数据集SSB上的实验结果验证了方法的有效性。
  • 摘要:地理数据库是地理信息系统的基础,也是数据生产者的宝贵财富。因此,如何利用数字水印技术保护地理数据库的版权成为一个亟待解决的问题。本文提出了一种高鲁棒的、保持形状的、支持盲检的地理数据库水印方法。利用面类地物的平均特征距离的最高h有效位作为鲁棒地物标识,并将所有地物划分到若干分组中,采用可变步长量化调制方法嵌入水印信息,并通过轻微修改地物的面积体现水印的嵌入。为确保算法的安全性,水印嵌入过程中地物和分组间的归属关系、每个地物上拟嵌入的水印位和相应的步长均基于用户密钥计算得出。实验证明,该方法具有良好的鲁棒性,能有效抵抗平移、旋转、化简、噪音附加、顶点插值、裁剪、元组增加和元组修改攻击。而且,在数据可用性范围内,随着水印强度的增加,算法鲁棒性随之提高。
  • 摘要:现代数据管理必须处理来源不同、质量各异的数据,因此从系统层面支持数据溯源,让用户了解数据的来源及派生过程成为当前至关重要的一个研究课题。基于标注的方法是支持数据溯源的基本方法之一。这种方法的主要问题是存储空间开销,因为溯源信息可能会超过实际数据的大小。在本文中,作者提出了一个用与查询结构匹配的溯源树来表达和存储溯源信息从而避免数据派生过程中冗余存储的基本框架。基于这个框架,作者提出了一系列针对关系型查询的存储优化方法,选择查询树部分节点来存储溯源信息。这些优化算法对于查询大小是多项式时间,对于溯源信息大小是线性时间,在溯源信息的跟踪和优化方面均不会产生巨大的开销。这一框架是数据溯源研究的一个新思路,有着广泛的应用前景。
  • 摘要:近年来,作为重要的多目标决策手段的轮廓查询逐渐得到学术界的重视,相继提出了基于不同支配关系的多种轮廓变体查询。首先,通过对实际应用需求进行分析,提出了基于元组对应数值间比例值大小的ρ-支配关系的定义,进而提出了ρ-支配轮廓查询的概念。其次,对ρ-支配轮廓的基本性质进行了细致而深入的分析,在此基础上,提出了基于分支定界的ρ-支配轮廓查询算法(Branch and Bound ρ-Dominant Skyline Algorithm,BBDS),避免了对R-树索引的多次访问,从而提高了ρ-支配轮廓查询的执行效率。最后,通过大量的仿真实验对ρ-支配轮廓查询的语义进行分析,并对BBDS算法的性能进行验证。实验结果表明,ρ-支配轮廓查询是轮廓查询语义的扩展和补充,而提出的BBDS算法则是求解ρ-支配轮廓查询的高效算法。
  • 摘要:不确定性数据的世系分析是基于数据产生和演变的过程来跟踪数据不确定性的来源。为了有效地描述数据间复杂的相关性及不确定性,并从理论上保证世系分析中概率计算的正确性,文中研究了基于贝叶斯网这一重要的概率图模型的不确定性数据世系表示方法。以世系的布尔公式和不确定性数据本身为出发点,提出了将布尔公式等价转换为贝叶斯网的方法,并讨论了相应的条件独立性质和概率语义。案例研究和实验结果表明,文中的方法为世系分析提供了一种有效性的、可扩展的数据相关性表示和概率计算框架。
  • 摘要:随着基于位置的服务(LBS)和物联网的快速发展,空间查询技术越来越重要,而空间查询中的最近邻查询及其各种变体有着广泛的应用。近几年,已有较多对于查询前k个反最近邻对象(RkNN)的研究,其中大部分针对的都是理想欧氏空间。而在真实的情况下,反k最近邻查询通常受障碍物影响。文中研究了障碍空间中反k最近邻查询算法,提出了一种基于障碍Voronoi图的高效的剪枝方法。根据Voronoi图和障碍距离的特性,大幅度减少了数据点处理个数。最后,作者使用真实的数据集和多种方式分布的模拟数据,验证了算法的高效性和准确性。
  • 摘要:通过深入分析OLAP存储模型和查询负载特征,提出了对OLAP查询中最基础的SPJGA-OLAP子集在存储、查询处理、数据分布、网络传输和分布式缓存等方面面向海量数据大规模并行处理框架的优化策略和实现技术。通过对TPC-H和SSB两个工业界和学术界公认的测试标准的分析,评估了技术的可行性。提出了以内存predicate-vector DDTA-JOIN算法为核心的并行内存OLAP架构,以维表上规范化的谓词向量操作替代了多样的连接执行计划,实现以一种查询处理模型同时满足集中式处理和大规模并行OLAP处理的需求,充分利用现代计算机的硬件优势,最小化网络传输和OLAP查询处理代价。实验中分析了在1TB和100TB数据集中数据分布策略的存储代价和传输代价,通过并行OLAP代价模型和实际数据的实验测试验证了技术的可行性和并行处理效率。
  • 摘要:社会网络中影响最大化问题是对于给定k值,寻找k个具有最大影响范围的节点集。这是一个优化问题并且是NP-完全的.Kemple和Kleinberg提出具有较好影响范围的贪心算法,但其时间复杂度很高,不能适用在大型社会网络中,并且不能保证最好的影响范围。文中利用线性阈值模型的“影响力积累”特性,提出了一个该模型下影响最大化算法的框架,并在此框架基础上给出一个新的算法HPG。HPG综合考虑网络的结构特性和传播特性,首先启发式选择PI值最大的节点,然后寻找最具影响力的节点。实验结果显示HPG在最终影响范围和运行时间上都获得比贪心算法更好的效果。
  • 摘要:由于使用方便等优点,数据库上的关键字检索技术使用户可以得到所需信息而不必书写复杂的SQL语句。但大部分现有的检索方法都关注通过连接操作得到包含所有关键字的元组连接树,忽略了对于检索结果的信息整合,这从某种程度上影响了用户对于检索结果的判断。文中提出并实现一种改进的关键字检索系统框架,在具有层次结构的属性指导下对得到的元组连接树结果做聚合操作,通过寻找最低层次最小覆盖聚合将关系更为紧密的元组作为更加相关的检索结果反馈给用户。文中还提出了基本的聚合算法并对其做改进从而减少了系统的响应时间。同时,为了改善用户体验,文中定义并给出了检索结果的摘要问题及其算法,使用户最大程度地了解检索结果.实验数据表明,文中的方法能够以较高的效率和较低的计算代价有效地完成检索结果的聚合和摘要。
  • 摘要:语义Web作为数据之网不断汇集并组织Web信息,相关应用因此面临着对语义Web所含大规模RDF数据高效访问的挑战。建立有效的索引机制是提升RDF数据管理和查询性能的一种解决之道。序列式索引既能够支持存储空间压缩又便于采用成熟的序列匹配技术进行数据处理,具有较好的查询处理性能。文中扩展Prüfer序列以支持RDF数据上的索引和查询,实现了名为Prig的原型系统。实验比较并分析了该系统与对比系统在LUBM和SP2Bench两个测试基准上的实验结果,指出扩展的Prüfer索引在大规模RDF数据上有着比对比系统更好的查询处理性能。
  • 摘要:提高特征向量的匹配效率是将高维局部特征运用于多媒体数据检索的关键。面向多核处理器架构,提出一种新的PCPF索引以及PCPF并行构建与并行查询匹配算法。PCPF并行构建算法通过量化特征向量构建近似向量空间上的高维索引结构,并进行空间划分并行构建多个子索引分支;PCPF并行查询匹配算法利用优先队列在邻近子分支上并行过滤得到近似近邻候选集,精确计算候选实际特征向量得到最终近邻。实验及分析表明,与经典的BBF算法相比较,PCPF通过降低了磁盘I/O和浮点运算次数以及并行优化,显著提升了查询匹配效率,总体匹配精度也有所提高。
  • 摘要:研究和实践表明列存储更加适合于大规模数据集上的即席查询的“读优化”应用需求。然而由于列存储的处理对象是列,此时传统的基于规则的查询优化方法并不完全适用。文中首先比较了列存储系统中查询优化与行存储系统的不同,在此基础上提出适合于列存储的启发式查询优化机制,其中包括启发式优化策略、重写规则、左深连接树结构和相关算法。实验表明:该文提出的启发式优化机制能有效减少候选计划的规模,排除大量不可能生成最优计划的计划,使得查询处理代价和执行时间大大减小。
  • 摘要:随着微博的日趋流行,Twitter等微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博本身内容的挖掘进行转变。在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建模。提出了一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本关联关系,来辅助进行微博的主题挖掘。采用吉布斯抽样法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题。此外,模型还能推广到许多带有社交网络性质的文本中。在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘。
  • 摘要:挖掘数据流的频繁项已受到广泛关注,经典的频繁项挖掘算法尽管能够比较好地找到频繁项,但对频繁项频数的估计往往存在较大误差。SRoEC,SReEC和RFreq算法针对该问题,继承基于计数的算法思想,将计数器进行划分并定义相应的操作,以期提高频数统计准确度并减小“噪音”影响。实验和数据分析表明,这些算法不仅能够保证频数超过阈值的数据项都能被找到,而且大大提高了频繁项频数统计的准确性。在同样空间代价下,算法无论在模拟数据集和真实数据集实验中,都表现出较高的频数准确率、较低的频数偏差率和较高的频数保有率,尤其是数据分布较平缓时,算法优势更加明显。
  • 摘要:迁移学习是对传统监督学习的扩展,试图利用其他相关领域中的现存数据来帮助完成当前领域的学习任务。对于归纳式迁移学习算法,当目标领域只有少量数据时,已有的算法容易受到选择性偏差的影响,不能充分发挥相关领域数据的作用。为解决该问题,提出一种利用领域相似性的新途径:通过定义领域弱相似性的概念,将相似性的约束与目标分类器联系起来,能在训练过程中有效利用相关领域的大量数据,设计出一种基于支持向量机的迁移学习算法TrSVM,并给出求解过程。在大量数据集上的实验结果表明了新算法的有效性。
  • 摘要:图聚集是将一个大规模的图用简洁的并能有效反映原始图的结构和属性信息的小规模图来表示的技术。图聚集在图数据管理、分析和可视化中发挥着重要作用。图聚集方面现有研究结果还很少,也很不系统。文章针对现有图聚集算法存在的主要不足,提出一种有向图新型图聚集算法,该算法采用一种新的聚集图质量函数,全面刻画了聚集图多样性、覆盖性、简洁性和实用性。该算法使用LSH(locality sensitive Hashing)技术和基于熵的划分技术,保证了聚集图的质量。在真实数据集上进行了大量的实验,验证了算法的有效性。
  • 摘要:反轮廓查询在制定有效的市场决策方面具有重要的作用,随着数据流特征和不确定性的表现日益明显,不确定数据流上概率反轮廓查询已经成为一个新的研究课题。为了高效解决不确定数据流上概率反轮廓查询问题,首先,通过对实际应用需求进行分析,提出了不确定数据流上概率反轮廓查询的定义,并根据相关概念,提出了不确定数据流上概率反轮廓查询的索引模型;其次,通过对不确定数据流上概率反轮廓的性质进行深入分析,提出了一种新颖高效的基于R-tree的不确定数据流上概率反轮廓查询算法RT2RS,该算法运用了高效的剪枝策略,避免了大量的无效运算;最后,通过大量的仿真实验对RT2RS性能进行了验证。实验结果表明,RT2RS是解决不确定数据流上概率反轮廓查询的有效方法,大大减少了不确定数据流上概率反轮廓查询的运行时间,能够满足实际应用需求。
  • 摘要:在现实中的许多领域产生大量不确定的图结构的数据,例如分子化合物、蛋白质交互网络等。同时现实中有很多应用例如推荐系统中的推荐过滤、欺诈检测和社会网络的链接预测等,需要查询给定节点的k个最相似节点,针对这一问题,提出了用基于SimRank度量的方法来求解。由于图的动态演变和不确定性导致用现有的SimRank计算方法求k个最近邻的代价昂贵,因此提出一个有效算法,在保证一定准确性的前提下,通过引入路径阈值,算法只需考虑查询点的邻居区域无需考虑整个图从而达到明显的剪枝效果,该方法在确定图和不确定图上都可以适用。在此基础上为了进一步提高效率,算法在不确定图上引入采样技术。最后从理论、实验说明验证了算法的高效性和有效性。
  • 摘要:针对MANET环境中带宽有限、能量有限、存储有限和链路频繁的断接性等特点,提出了基于缓存的移动数据查询问题,证明该问题是NP完全问题,并给出一个多项式时间的近似算法,即最大节点新覆盖数据算法MD。该算法采用贪心策略,查询新覆盖数据量最大的节点,减少了查询次数,并最大限度地减少了网络中的传输时延。然后在MD算法的基础上,同时考虑了节点新覆盖数据量和链路服务质量问题,提出了一种改进的高效的启发式算法,即基于最大节点DD值的算法MDD,有效地减少了能量消耗,最小化数据传输时延,提高了网络的吞吐量。理论分析及实验结果表明提出的数据查询算法能够充分利用缓存节点的数据信息,较好地完成数据查询工作,有效地减少数据收集时延,提高查询效率。
  • 摘要:基于NAND闪存的存储设备通过引入闪存转换层来对闪存芯片进行封装,使得闪存存储设备像普通块设备一样使用。闪存转换层算法的性能很大程度上决定了闪存设备的存储性能,已有方法尽管可以在嵌入式环境下正常工作,但当应用到随机访问频繁的企业级应用环境中时存在访问性能低的问题。提出了一种面向企业级应用的闪存转换层算法OAFTL,该算法基于页级地址映射,根据访问操作的类型来组织映射项信息,通过为映射页保留日志信息来缓冲频繁修改的映射信息,以提高闪存读、写性能。实验结果表明,提出的OAFTL算法能够有效地适应企业级工作负载,同已有方法相比,综合读写性能提升了20%以上。
  • 摘要:图片、音频、视频、网页等非结构化数据的高速增长使得如何高效管理它们成为一大挑战。提出的多媒体数据索引CFTree*是非结构化数据管理系统平台myBUD中对多媒体数据进行管理的具体研究和实现。CFTree*是基于簇特征树的层次树索引结构,可用于基于内容的近似kNN查询。实验表明,基于CFTree*索引结构的近似kNN查询性能比基于顺序扫描的kNN查询有60%左右的提高。与精确kNN相比,基于CFTree*索引的近似kNN查询结果与查询对象的平均相似度略低于精确kNN结果,但结果的多样性则优于精确kNN结果。
  • 摘要:本文提出一种基于关键词的深度万维网查询方法:用户用关键词的方式提交查询,该方法在线地选择能够反映查询意图并且提供高质量结果的万维网数据库。这种方法既避免了深度万维网数据抓取这一代价高、难度大的操作,又可支持多领域的数据库上的关键词查询,从而能够与现有的搜索引擎实现无缝集成。文中侧重于讨论基于关键词的数据库选择,从以下两个方面解决这一问题所涉及的挑战:(1)提出了一种度量关键词—领域属性关联的相关性模型,并设计了基于随机游动的算法从查询日志中发现潜在的关键词—属性关联;(2)给出了一种新的数据采样方法,并用于基于采样的数据库—查询的相关性模型中,最终解决深度万维网的数据库选择问题。在中文深度万维网真实数据集上的实验表明:提出的方法能够有效地选择与关键词查询相关的数据库,提供高质量的结果。
  • 摘要:随着移动设备和定位技术的发展,产生了大量的移动对象轨迹数据。轨迹数据含有丰富的时空信息,对其分析和挖掘可以支持多种与移动对象相关的应用。然而,针对轨迹数据的攻击性推理可能导致个人的兴趣爱好、行为模式、社会习惯等隐私信息暴露。另一方面,在基于位置的服务中,由于现有位置隐私保护技术并不能解决轨迹隐私泄露的问题,移动对象的个人隐私很可能通过实时运行轨迹而暴露。针对上述两种场景,轨迹隐私保护的研究提出了明确的要求:在轨迹数据发布中,隐私保护技术既要保护轨迹数据的隐私,又要保证数据有较高的可用性;在基于位置的服务中,隐私保护技术既要保护移动对象的实时轨迹隐私,又要保证用户获得较高的服务质量。本文针对上述两个问题分析了轨迹隐私保护中存在的挑战性问题,针对不同的隐私保护方法分析了现有的研究工作,介绍了当前该领域的研究热点,指明了未来的研究方向。
  • 摘要:复杂数据当前有着广泛的应用,有效地使用复杂数据需要对其质量进行管理。实体识别是数据质量管理的基本操作,用于在数据集合中发现同一实体的不同描述,其在数据质量管理中可以用于错误检测、不一致数据发现等。由于包含复杂的结构信息,复杂数据上的实体识别与传统文本和关系数据上的实体识别不同,带来了新的技术上的挑战。本文介绍了复杂数据上实体识别的概念和应用,分别讨论了XML数据、图数据和复杂网络上实体识别技术的原理,最后展望了未来的研究方向。
  • 摘要:随着商业智能市场的逐步扩大,联机分析处理(OLAP)系统的使用质量评估已经成为数据库应用的研究热点。作为效用特性的OLAP系统性能评估需要一个性能基准。以OLAP委员会推出的APB-1性能基准为基础,首先设计了面向多维数据库的立方体(Cube)模型以及相应的多维表达式(MDX)查询模板,在Cube模型设计的过程中修改了APB-1基准ROLAP星型模型的不足之处;接着在测试数据一致和测试参数一致的前提下,通过对设计的MOLAP模型查询结果与ROLAP模型查询结果进行对比分析,证明了MOLAP模型及MDX查询模板设计的正确性;然后给出了OLAP性能测试流程,描述了支持ROLAP和MOLAP性能测试的工具框架及其主要模块。最后使用该测试框架在商业数据库管理系统上对ROLAP和MOLAP进行并发查询实践,验证了框架的有效性。提出的方法及技术实现为未来OLAP产品性能的测试和评价提供多维数据模型、业务模型和工具的支持。
  • 摘要:相似度查询是计算机学科中一个重要的问题,它的应用遍及多个领域,例如数据库、数据集成、互联网、数据挖掘以及生物信息学等。本文主要讨论在集合和字符串上的相似度查询。学术界从2000年来在这个领域内取得了大量的进展。作者总结了主要工作,并给出了作者的分析和归类,最后,文中提出了一些未来工作的方向。
  • 摘要:图的不确定性普遍存在,研究不确定图的高效查询处理具有重要意义。文中提出了不确定图上一种新型查询——近邻查询。给定一个查询标签集R和距离约束σ,在不确定图G上进行近邻查询是要找到标签集包含R并且任意两个顶点间距离不超过σ的匹配顶点集。为解决该问题,文中首先提出了“可靠期望距离”,然后基于可靠期望距离建立了高效的近邻关系图索引,将不确定图上的近邻查询等价地转化为近邻关系图上的团查询问题,最后使用树搜索算法解决近邻关系图上的团查询问题。理论分析和实验结果表明文中提出的算法能够高效地完成不确定图上的top-k近邻查询。
  • 摘要:针对事务和数据的实时特性,绘出了具有入侵容忍能力的实时数据库系统的体系架构,基于实时性的要求和入侵检测存在的延迟,提出了半马尔可夫评价模型,对实时数据库在入侵容忍条件下的生存能力进行评价,并根据此模型绘出相关的量化准则,定义了完整性与可用性等生存性指标,对实时数据库的生存能力进行了验证。由于误报、检出率和攻击强度等因素会对生存能力造成重大影响,因此利用TPC-C基准测试对其进行了详细的数据分析。实验表明,该模型能较准确地预测实时数据库的行为,所提出的入侵容忍实时数据库在面临攻击时,其基本生存能力没有受到严重的影响。
  • 摘要:top-kjoin查询返回用户最感兴趣的k个连接结果。近来top-kjoin已经成为一个重要的研究课题,且在Web数据库、信息抽取和数据挖掘中均有应用。星型模式的数据仓库在实际应用中也存在top-kjoin查询,如有时决策者只想查询星型连接结果中他最感兴趣的k个。然而,现有top-kjoin算法不适合星型模式。为了在星型模式上有效地支持top-kjoin查询,文中提出两类索引并基于这两类索引提出一个适用于星型模式的多路top-kjoin算法。该算法通过采用一个比现有算法更优的上界和一个剪枝策略获得了更高的效率。此外,实验也表明文中的算法比现有算法效率更高。
  • 摘要:空间co-location模式表示的是空间对象的实例在一个相同的区域内频繁地空间并置。过去人们已经对确定及不确定数据的co-location模式挖掘问题进行了一些研究,但是针对模糊对象上进行的研究还没有。模糊对象在许多领域里都有着非常重要的应用,比如生物医学图像数据库和GIS。本文研究模糊对象的空间co-location模式挖掘问题。首先,定义模糊对象上空间co-location模式挖掘的相关概念,包括模糊参与率、模糊参与度等。其次,提出FB算法挖掘模糊对象的co-location模式。接着,提出了3种改进算法,包括剪枝对象、减少实例间连接、改进剪枝步,以提高挖掘性能、加快co-location规则的产生。最后通过大量的实验说明FB算法及其改进算法的效果和效率。
  • 摘要:随着大量的定位数据被收集在应用服务器,如何从大量定位轨迹数据挖掘异常信息已逐渐成为一个令人关注的研究课题。针对当前流行的、以轨迹片段表示局部特征的异常点检测算法存在的问题,文中提出了以轨迹点表示局部特征的异常点检测算法TraLOD。该算法不仅提出了将每个轨迹点赋予一个0~1的值来表示其局部异常程度,而且还引入了相对距离来计算轨迹片段之间的不匹配性。此外,针对数据挖掘算法效率低的缺点,TraLOD引入了R-Tree和距离特征矩阵来提高算法效率。性能分析和实验都证明了TraLOD的有效性。
  • 摘要:目前,典型的位置隐私保护技术是基于中心服务器的位置k-匿名方法。该方法容易使中心服务器成为性能瓶颈和集中攻击点,也容易造成查询处理过程的复杂化,且牺牲了用户的服务质量。文中提出了一种用户协作无匿名区域的隐私保护方法CoPrivacy,该方法通过用户之间协作形成匿名组,匿名组内的用户用该组的密度中心代替真实位置发出查询,并增量地从服务器获得近邻查询结果。组内成员通过近邻查询结果与自身位置之间的距离计算得出精确的查询结果。CoPrivacy在不使用匿名区域的情况下达到了k-匿名的效果,不牺牲用户的服务质量,并且提高了匿名系统的整体性能,简化了服务提供商的查询处理过程。文中在真实数据和模拟数据集上进行了充分的实验,验证了该方法的优越性。
  • 客服微信

  • 服务号