首页>中文会议>工业技术>自动化技术与计算机技术>第27届中国数据库学术会议
第27届中国数据库学术会议

第27届中国数据库学术会议

  • 召开年:2010
  • 召开地:北京
  • 出版时间: 2010-10-13

主办单位:中国计算机学会

会议文集:第27届中国数据库学术会议论文集

会议论文

热门论文

全部论文

全选(0
  • 摘要:随着Web2. 0的推广,音乐分享平台纷纷出现。目前的音乐分享平台在用户上传时没有进行检查,导致音乐库里常有大量的冗余。提出了一个基于乐纹的音乐分享平台系统LILT,该系统包含一个含有音乐乐纹的数据库,并通过提取音乐片段的乐纹进行查找判重。建立了6万余首歌的乐纹库,并且在这个库上做了大量测试。测试结果显示,该系统对用户上传的音乐能够有效地识别并判重。在系统识别率、识别速度、指纹鲁棒性测试中均得到了较满意的结果。
  • 摘要:在国家"十一五"科技支撑计划"出生缺陷干预效果评价系统"和国家自然科学基金"亚复杂系统中干预规则挖掘"支持下,中国出生缺陷数据挖掘系统HealthyBaby的测试版本已经在具有30年数据的全国出生缺陷数据仓库运行。介绍并演示HealthyBaby特色技术,包括中国出生缺陷数据仓库的列存储方式,可视化的OLAP查询,出生缺陷地理信息分析BD-GIS技术,面向出生缺陷数据的关联、分类、聚类知识发现,干预规则挖掘,亚复杂系统等。
  • 摘要:伪反馈一直以来都被认为是一种有效的查询扩展技术。但是近来的研究表明传统的伪反馈容易带来主题漂移并因此而影响检索性能。如何确定相关文档以及如何从相关文档中挑选有用的扩展词项是伪反馈中两个重要的方面。与传统查询扩展不同,XML查询扩展不仅需要内容扩展还需要考虑结构扩展。提出了一个解决框架,利用聚类和词组抽取技术来查找相关文档和选择有用的扩展信息。结合XML的语义特征,提出了一种全新的基于层次信息的文档相似性度量方案。基于此,将初始检索结果聚类,获得与查询请求最为相关的文档簇,然后在文档簇中抽取词组,找到符合用户查询意图的扩展查询词组,并在扩展查询词组的基础上进行结构扩展,最终形成完整的"内容+结构"的查询扩展表达式。IEEE CS实验数据上的实验结果表明,结合了聚类和抽取技术的XML伪反馈查询扩展方法能有效地降低主题漂移现象,获得更好的检索质量。
  • 摘要:随着XML应用的不断扩展,XML数据容量越来越庞大。为了更加快捷有效地在大容量XML数据上进行查询,很多研究工作集中在XQuery的查询代价评估上。提出了一种基于XML Schema的XML概要树(XSS)。XSS基于XML Schema生成,保存有XML文档的结构信息和节点数目统计信息。基于XSS可以高效地进行XQuery的查询代价评估,进而为XML查询优化服务.相关实验验证了在XSS上进行XQuery查询代价评估的高效性和准确性。
  • 摘要:挖掘数据流的频繁项已受到广泛关注,研究者们提出了一些高效的数据流上挖掘频繁项的算法,尽管这些算法能够比较好地找到频繁项,但对频繁项支持度的估计往往存在较大误差。而新的算法REC除了能够保证频率超过一定阈值的数据项都能被找到,并且能够尽可能准确地返回其频率。分析和实验表明,相比当前最好的两种算法,REC算法空间在同样空间代价下,对数据项频率的估计更为准确,尤其在数据分布比较平缓时表现得尤为明显。
  • 摘要:HUABASE是基于列存储的关系型数据库系统。列存储技术的特点是数据查询效率高、读磁盘少、存储空间少,是构建数据仓库的理想架构。HUABASE实现了多种数据压缩机制、查询优化和稀疏索引技术,在支持高效率的商业智能方面具有良好的发展前景,可以帮助企业轻松做出明智的业务经营决策。
  • 摘要:个性化信息服务提高了Web查询精度,但同时也带来数据隐私保护的问题。尤其在面向服务的架构(SOA)中,部署个性化应用时,如何解决隐私保护,这对于个性化服务是一个挑战。随着隐私安全成为微数据发布过程中越来越重要的问题,好的匿名化算法就显得尤为重要。论文总结了前人研究中考虑到准标识符对敏感属性影响的k-匿名算法,提出了直接通过匿名化数据计算准标识符对敏感属性效用的方法以及改进的效用矩阵,同时为了更好地衡量匿名化数据的信息损失,论文中提出了改进的归一确定性惩罚的评价指标,从匿名化数据隐私安全的角度进行分析,实现了改进L-diversity算法,即基于信息损失惩罚的满足L-diversity的算法。它是准标识符对不同敏感属性效用的、并具有较好隐私安全的改进算法。
  • 摘要:当前,流程驱动的信息系统构建方式得到了越来越广泛的应用。在流程驱动的方式中,流程模型对数据模型有着不可忽视的影响。但是当前的数据模型异常检测方法都是针对数据模型本身的特点而未考虑流程模型。同样,流程模型的验证方法也缺乏对数据模型的考虑。文中提出并分析了面向业务流程的数据模型的异常问题,并给出了其3种基本类型。为了检测这些异常,文中提出了Data-process Graph(DP-Graph)模型,将数据模型和流程模型放在统一的架构下进行研究。而后,基于DP-Graph,文中提出了DPGT算法,有效地实现了面向业务流程的数据模型异常检测。文章中的实验结果验证了DPGT算法对于这些异常的高检出率。
  • 摘要:文中围绕传统的协同过滤推荐算法存在的局限性展开研究,提出一种不确定近邻的协同过滤推荐算法UNCF。根据推荐系统应用的实际情况,对于推荐的每一种场景其实都是不可预先确定的,而文中算法基于用户以及产品的相似性计算,自适应地选择预测目标的近邻对象作为推荐群,同时计算推荐群中推荐把握概率较高的信任子群,最后通过不确定近邻的动态度量方法,来对预测结果进行平衡的推荐。通过实验结果表明,该算法可以有效平衡用户群以及产品群推荐结果所带来的不稳定影响,有效缓解用户评分数据稀疏的情况所带来的问题,并在多个实验数据中,提高了推荐系统的预测准确率。
  • 摘要:首先,分类空间co-location模式挖掘算法,着重对一些典型挖掘算法的思想、特点和不足进行分析。其次,提出co-location挖掘算法的一般模式,应用同一示例,对3种基于前缀树结构的挖掘算法进行分析和比较,总结基于前缀树结构挖掘算法的实质。最后是对基于前缀树结构挖掘算法的实验评价。
  • 摘要:数据分配是研究数据如何分布到多个物理节点的NP-Complete问题。给出数据分配算法的数学模型,提出基于时序片段评价的数据分配算法--DATE。该算法利用数据在短时域访问量分布不均的特点,将多目标优化问题转化为单一目标求解,采用蜜蜂算法(collective Honey bee behavior)调整参数并反馈算法结果,以实现系统负载均衡。随机实验结果表明,DATE相比于同类Random,round-robin,Bubba算法在系统总时段均衡ET、系统时段内均衡值ES、系统最大波峰值EM 3个指标中表现更优。
  • 摘要:业务数据搜索是商业社区云面向云用户或第三方应用提供的基本服务,在动态、开放的社区云环境中,业务数据更为复杂,商业目标对数据搜索服务也提出了更高的要求。以面向旅游的社区云为背景,讨论一种透明、虚拟化的商业数据搜索服务的实现方法,基本思想是在构成社区云的服务节点中引入相似节点簇和等价节点簇两种虚拟节点簇模型,并分别给出其更新算法,使数据在云中的服务节点之间动态、自主地调整以趋于合理分布;然后,提出一种基于上述模型的3-阶段数据搜索策略。模拟实验表明,以此方法为核心的数据搜索服务,在数据搜索质量、效率和服务节点负载均衡等方面能够获得预期效果,满足社区云环境对数据搜索服务提出的商业目标。
  • 摘要:基于现有磁盘联机分析处理系统(OLAP)的不足及计算机新硬件的发展,研制了MMOLAP系统,MMOLAP除具有切片、切块、下钻、上卷、旋转等传统OLAP的功能外,还能够支持基于查询重写的What-if分析、基于差分表的What-if分析、基于混合整数规划的What-if分析、多版本What-if数据视图、基于用户查询结果的动态What-if分析,有效解决了对现有决策进行评估分析和对未来决策结果进行预测分析的需求,弥补了现有磁盘OLAP系统的不足。
  • 摘要:随着位置服务的蓬勃发展,移动对象查询作为一项重要技术,成为研究的热点并有着广泛的应用需求。基于.Net框架设计并实现了一个面向位置服务的空间查询处理原型系统,设计了面向位置服务的空间查询处理原型系统体系结构;实现了预测K近邻查询处理子系统、预测范围查询处理子系统、多用户连续查询处理子系统。介绍了原形系统中的2个关键索引结构。展示了原形系统的功能和用户界面。该系统为进一步的理论研究和算法应用奠定了基础。
  • 摘要:系统展示了移动计算服务中的隐私保护服务器--OrientPrivacy。它主要由3部分组成:1)移动数据生成模块。可以模拟生成移动用户的查询和位置信息,导入用户兴趣点(POI)和用户所在城市的地图;2)隐私处理模块。根据用户的隐私保护需求,采用隐私处理算法,将用户的精确位置转换成匿名区域,同时将用户的敏感查询进行隐匿;3)匿名结果展示模块。展示隐私处理的结果,并展示移动用户的匿名区域和隐私服务质量参数。
  • 摘要:随着面向服务架构、业务过程管理技术的推广应用,企业中用建模语言描述的业务过程模型越来越多,这些模型描述了企业核心的业务逻辑,是企业最宝贵的知识资产。为了更好地促进企业的发展,提升竞争力,需要将这些业务过程模型作为数据进行有效地管理、建立企业过程模型库,并支持对过程模型的存储、浏览、相似性度量、检索等操作和应用开发。提出了一个开放的业务过程模型管理框架--BeeHiveZ,阐述了BeeHiveZ的体系结构、关键技术及系统功能与操作等内容。BeeHiveZ现已在开源软件社区SourceForge. net上发布。
  • 摘要:由于存在漏读、交叉读以及语义简单的原子事件,RFID系统产生的海量原始数据无法直接融合到企业现有的管理系统中。RFID中间件作为原始数据和上层应用之间的桥梁,有着非常重要的作用。开发了一种RFID数据管理中间件原型系统RFeel。该中间件可以屏蔽异构读写器平台差异、以统一数据格式向上层提供通用接口,包含了交叉读数据仲裁、不确定性数据推导、分布式复杂事件的检测、复杂事件处理优化和聚集查询等核心技术。最后通过一个典型的零售场景演示了RFeel的工作过程。
  • 摘要:压缩技术是列存储数据管理的重要研究内容之一。目前多数方法对同一列数据使用单一压缩方法进行压缩,忽略了数据的局部分布特性,极大地影响了压缩性能。该文提出一种区级压缩模式,并在此模式下提出基于学习的压缩策略选择方法。首先该文将数据列进一步划分为区,并分别定义相邻区信息与区所在列的统计信息为参照信息,进而通过学习参照信息与当前区之间的相似性和差异性进行策略推荐。最后该文对区进行局部学习从而对推荐压缩策略进行修正,保证压缩策略的有效性。在数据仓库基准数据集SSB上的实验结果验证了该文方法的有效性。
  • 摘要:信息检索中,反馈技术能很大程度上提高信息检索的准确率。提出了一种基于XML信息检索的相关反馈技术,根据用户反馈的相关文档,重构一个"主题+结构+内容"的查询表达式。该方法通过主题、结构、内容3个方面进行扩展,得到最终的查询表达式,尽可能完整地表达用户的查询意图。利用TopX 2. 0平台,在Wikipedia 2009数据集上的实验证明,该方法使得扩展后的平均查准率比扩展前在pre@10上提高了41% ,在pre@20上提高了39.5%。
  • 摘要:小枝模式匹配作为XML查询的核心操作,目前在该方面已经提出了一系列有效的实现方法。在总结分析先前各种匹配算法的基础上,提出了一种新的基于路径索引的解决方法TwigFilter,该方法是一个单阶段算法,避免了路径归并。同时,考虑到通常查询中只有少数几个结点是所需的输出结果这一特点,该方法区别输出结点和其他查询结点,保证整个查询处理过程都是根据输出结点进行的。实验结果表明,该算法优于以前的算法,尤其是对查询中只有祖先-后裔关系的表达式更有效。
  • 摘要:高维数据查询处理技术一直是P2P领域的研究热点。现有方法大都存在维护代价大、查询处理性能不高的问题,提出一种有效支持高维数据KNN查询处理的P2P语义覆盖网络--语义多层环SMR。SMR能够按照语义信息将数据对象和节点划分成多个语义簇,每个语义簇通过维护近邻索引和远端索引将不同层次环中的语义簇相互连接,形成P2P语义覆盖网络。在SMR中,采用一种高效语义簇编码方法将高维语义空间转换成一维编码空间降低了高维空间维护代价。在此基础上,提出一种高效的KNN查询处理算法。基于真实数据集和合成数据集的实验表明,SMR具有良好的查询处理能力、语义簇划分能力和可扩展性。
  • 摘要:随着现代应用中数据规模的迅速增长,以及复杂处理要求的出现,传统的集中式和分布式数据处理技术已经不能满足需要;而大规模集群由于具有可伸缩性、高可用性、容错性的优势,逐渐为数据密集型应用所广泛使用。这里针对大规模集群上数据连接(join)操作的效率问题:1)分析了基于Map/Reduce框架的连接操作实现的效率瓶颈;2)提出了一种采用预散列(hash)的连接操作实现技术;3)研究了针对星型连接的优化技术。代价模型分析与实验显示,此处提出的方法能够有效提高连接操作的效率。
  • 摘要:介绍了从DB,IR到DB&IR的发展历程,阐述了DB&IR系统的设计考虑因素;讨论了DB&IR系统的体系架构设计问题;介绍了DB&IR系统所采用的基于关键词的查询技术;最后总结并展望未来的研究方向。
  • 摘要:随着互联网技术的不断成熟,信息数据传播与获取的途径更加方便。然而,不同的数据源对于同一个现实对象可能提供不同的描述。这就要求数据集成系统能够从这些冲突描述中找出真相发现真值。在研究分析了近几年现有方法的优缺点的基础上提出了2个算法--IVote和IRVote。IVote考虑数据源可靠性和描述准确性之间的关系,采用概率投票的方式迭代计算。在此基础上考虑数据源的权威性,即数据源的投票比重,提出了IRVote算法。最终在多个真实数据集上的实验结果表明,2个算法能够有效地发现真值。并且在多数情况下IRVote比IVote效果好,从而验证了考虑数据源权威性的必要性。
  • 摘要:不一致数据无法正确反映现实世界客观事物的真实状态,导致其上的查询会得到错误的或矛盾的查询结果,降低了数据的利用价值。而现有的很多不一致数据查询处理方面的研究方案都存在信息丢失的问题。Annotation Based Query Answer方案针对这一问题,采用信任标签在属性级别上区分一致和不一致数据,避免了信息丢失。但同时考虑多类约束(函数依赖、健依赖、包含依赖和域约束)且任意分量都不可信时,该研究方案的不一致检测和初始标记算法失效,有一定的应用局限性。针对这一问题,采用启发式近似修复算法,在一个矛盾数据的各类可能修复操作中,通过比较其修复代价,以寻找出错概率更大的分量(或元组),以此纠正明显错误,并确定引起数据不一致的属性。实验结果表明,算法复杂度是候选修复数量的平方阶。
  • 摘要:如何快速、方便、有效地分析不确定数据库中大量的不确定数据以发现潜在的、有价值的和人们感兴趣的信息变得越来越重要。空间co-location模式挖掘寻找给定空间对象之间的关联关系,是空间数据挖掘的重要研究方向。首先,定义了在不确定数据上挖掘空间co-location模式的可能世界模型,在此基础上定义了在可能世界模型下,空间co-location模式频繁度的测度:概率参与率。然后,设计了基于可能世界的U-Order-Clique-Based不确定空间co-location模式挖掘算法,并针对算法的指数级复杂度,讨论了优化策略。最后是实验评估,首先在模拟数据上验证了优化策略的效果,然后在真实数据上验证了研究存在不确定性co-location模式挖掘的现实意义。
  • 摘要:通过对嵌入式数据库并发控制中的封锁技术进行研究,基于SQLite提出了一种动态多粒度封锁机制,通过增加表粒度锁来提高系统的并发度。介绍了动态多粒度封锁机制的算法流程和设计实现过程.对改进后的SQLite进行功能和性能测试,结果验证了方案的正确性和有效性。
  • 摘要:云计算环境下面向流程的数据密集型应用已被广泛应用于多个领域。面对多数据中心的云计算环境,这类应用在数据布局方面遇到了新的挑战,主要表现在如何减少跨数据中心的数据传输、如何保持数据间的依赖性以及如何在提高效率的同时兼顾全局的负载均衡等。针对这些挑战,文中提出一种三阶段数据布局策略,分别针对跨数据中心数据传输、数据依赖关系和全局负载均衡三个目标对数据布局方案进行求解和优化。实验显示,文中提出的数据布局策略具有良好的综合性能,特别是在降低流程执行过程中由跨数据中心数据传输所导致的时间开销方面,效果尤为明显。
  • 摘要:随着CPU和内存的性能差距越来越大,系统设计者在CPU寄存器和内存之间插入高速缓存来弥补这个差距。高速缓存的数据存取速度远高于内存,所以数据库操作要获得更好的性能就必须考虑充分利用高速缓存。基于磁盘的连接操作是一种常用并且耗时的数据库查询操作,可是大多数传统的连接算法在设计时都没有考虑高速缓存的使用,从而使得这些连接算法无法充分利用CPU的能力。文中分析了传统的连接算法在高速缓存利用方面的问题,并且提出了一种新的可以充分利用高速缓存的磁盘连接算法DBCC-Join。连接位置索引对表JPIPT是用到的数据结构,说明了每个连接结果元组在各自表中的位置索引对。DBCC-Join的执行包括两个阶段:JPIPT构建阶段和结果输出阶段。JPIPT构建阶段对列存储化的连接属性执行高速缓存敏感的算法来构建连接位置索引对表。利用获得的JPIPT,结果输出阶段只需要对数据表执行一遍顺序扫描就可以获得结果。该文是第一篇提出利用高速缓存的磁盘连接算法的文章。实验表明,和传统磁盘连接算法相比,DBCC-Join算法可以获得一个数量级的加速比。
  • 摘要:当前入侵检测技术的不成熟限制了实时数据库系统的安全性和可用性。在传统关系数据库入侵容忍技术的基础上,针对实时数据库事务和数据的特性,提出了容忍入侵实时数据库系统的体系结构。该结构将系统分为主节点和副节点,通过事务代理机制首先由入侵检测排除恶意事务、合法事务在主节点上运行,可疑事务则在副节点上运行,然后可疑事务被再次检测,如果合法就同步到主节点,不合法就清除,该结构有效保证了事务的一致性和完整性。而且,检测与事务运行是并发的,满足了实时数据库系统的实时特性。
  • 摘要:传统的数据发布隐私保护研究假设数据发布者持有的电子化数据是原始的、未经过处理的数据。k-匿名模型提出之后,许多匿名化模型主要针对敏感属性提出了各种约束。然而,隐私保护中另一个重要原则是个人的隐私自治。实际应用场景中,个人有选择和决定隐私约束的权利。用户所提供的数据很可能是不完整的或预先经过处理的。围绕非敏感属性上的约束条件定义了一种新颖的匿名化模型:基于个人隐私约束的k-匿名;并设计了一种自上而下的启发式匿名化算法。实验表明,该算法能很好地处理基于个人隐私约束的k-匿名问题,并具有较少的信息损失。
  • 摘要:为了解决现有数据库可疑用户隔离技术中存在的合法数据更新丢失和数据修复过程中的损坏传播问题,提出了一种基于DBSUIM模型的数据库可疑用户隔离机制。首先,给出包含数据模型与SUIP隔离协议的可疑用户隔离模型DBSUIM,其中,数据模型定义了合法和可疑数据的存在形态,隔离协议给出了合法和可疑用户访问数据的协议规则定义;然后,根据该模型给出基于SUIP协议的用户操作执行算法和可疑用户身份确认时的运行时可疑数据修复算法。实验结果表明,该可疑用户隔离机制在空间、时间性能负载上具有良好的表现,并且在可疑数据修复过程中具有更高的执行效率。
  • 摘要:提出了一种基于脆弱性数字水印的恶意数据篡改检测机制。首先建立了基于脆弱水印的可生存数据库篡改检测模型,并给出了相关算法。利用脆弱水印对数据篡改的敏感性进行异常检测,并判定入侵的位置和等级,进而提供入侵容忍和控制策略。最后通过原型数据库系统NHSecure对基于脆弱水印的入侵容忍机制进行测试,验证了其有效性和优越性。
  • 摘要:为解决传统的支持向量域数据描述(SVDD)方法在分类信息较少的情况下分类不准确的问题,提出一种基于半监督学习的加权支持向量域数据描述方法SSWSVDD:先利用基于图的半监督学习技术从少量已知分类数据中学习大量未知分类数据的隐含分类信息,再通过加权的SVDD方法学习全体数据的分类情况。对UCI数据集的实验表明,在已知分类信息较少的情况下具有较好的分类性能。
  • 摘要:近年来,RFID技术广泛应用于各种领域,如供应链管理、对象识别和物体追踪等。但是,由于受到各种环境因素和射频技术特点的影响,使得RFID应用可能产生"缺失读"和"交错读"现象.它们的存在使得RFID应用难以根据阅读器读取的原始数据作出正确决策。为此,针对"交错读"问题,提出一种基于核密度估计的RFID数据流清洗方法,以清除多读数据。该方法使用核函数估计每个标记对象在窗口中分布密度,并据此判定标签应位于哪个阅读器的检测范围。在根据真实数据分布特征所生成的模拟数据上进行了实验,结果表明所提方法是正确且有效的。
  • 摘要:针对协同设计中数据传输的需求,以去除数据冗余为目标,提出一种基于控制点坐标差分数据的NURBS自由曲线曲面的数据优化压缩方法。该方法的思路是:以权因子为基础整合坐标数据分量,使原数据所具有的几何意义与数据压缩过程紧密联系起来;再利用离散余弦变换,对控制顶点坐标分量的差分值矩阵进行变换;最后进行量化压缩处理,并根据目标压缩率选取量化压缩比。方法在有效压缩数据的同时使传送的压缩数据中携带了压缩复原数据的累计误差.实例应用分析给出了压缩复原数据与原始数据的数据误差,说明在不显著增加误差的基础上此数据压缩方法能有效减少数据量。
  • 摘要:Deep Web中蕴含着大量高质量的数据,然而只有通过Web查询接口对Web数据库提交查询才能获取这些数据,因此,自动获取Web查询接口模式是实现Web数据库集成的关键。将Web查询接口模式的抽取过程看作一个词法分析的过程,通过构建EGLM-FA(元素分组及标签匹配有限状态自动机)来完成对Web查询接口模式的抽取。首先应用Html呈现引擎将Web查询接口所在页面进行解析,利用查询接口Form中的DOM节点及其坐标信息构建相应的NSS(节点空间结构),之后再将所有的NSS组成NSS列表,将NSS列表作为EGLM-FA的输入,进而抽取出Web查询接口的模式。
  • 摘要:要实现Deep Web领域中的数据集成,提供一个高效的数据检索策略是集成系统要解决的首要问题。面对众多的Web数据库,选择最恰当的数据库进行查询,实现以更小的代价返回更多的数据是研究的核心问题。针对此问题,提出了基于Web数据库独立样本的Web数据库特征表示和抽取方法,并基于该特征,提出了一种综合考虑查询相关度、返回数据量和数据冗余度3个要素的数据源选择方法。实验证明,该方法能够达到预期的研究目标,能较好地满足集成系统的需求。
  • 摘要:传统的RDF存储系统直接将三元组存放到含有3列的关系数据库表中。具体查询时,需扫描整张三元组表,并通过连接操作产生最后的结果。虽然存储直观、实现方便,但是由于每个子查询都需要在整个三元组表上进行,查询效率较低。同时,当实例属性比较多时,大量的连接操作也对查询效率造成影响。为了克服这些缺点,在RDF自适应模式存储系统FlexTable系统上,搭建一个SPARQL查询引擎,将SPARQL查询语句映射到SQL语句,同时根据数据字典信息,对转化后的SQL语句进行优化,提高了查询效率。
  • 摘要:闪存以及基于闪存的固态硬盘(SSD)近年来得到了快速发展,从而也带动了闪存相关的算法研究。这些算法不仅包括DBMS层面的算法,也包括SSD内部的控制算法。但是,这些算法的性能验证是目前研究中的一个难点问题,尤其是SSD内部的算法很难在现有的平台上进行实验对比。针对这一问题,提出了一个软硬件集成的闪存数据管理实验平台(FEP)。该平台不仅可以为DBMS层面各类算法提供一个实验环境,也能够为SSD内部算法的验证提供有效的支持。FEP平台的硬件部分由一个自行设计的闪存存储板构成,软件部分实现了闪存驱动和闪存转换层(FTL)算法,并提供了灵活易用的二次开发接口。以4种闪存缓冲区置换算法为例,在FEP平台上进行了实现和实验验证,结果表明,FEP平台可以有效地支持闪存相关算法的实验和结果数据分析。
  • 摘要:随着网上商城购物方式的兴起,对同一商品的不同网上商城之间的优劣进行推荐的重要性日益凸显。借助多属性决策的手段,提出智能网上商城推荐系统SuperRank的框架,并结合自然语言处理技术,整合各网上商城的用户评论进行情感分析,与网上商城页面上的客观数据一起作为系统输入。SuperRank允许用户自主选择关心的属性及重要性排序,使得系统给出的推荐结果既能客观全面地反映网上商城的状况,又能符合用户的评价偏好,实现了SuperRank的原型系统。
  • 摘要:现有的各种基于闪存的缓冲区管理算法针对闪存读写代价的不对称性进行改进,实际中既存在同一闪存读写代价的不对称性问题,也存在不同闪存不对称性之间的巨大差异性问题,而后者一直没有得到足够的重视。文章提出一种基于闪存硬盘(SSD)的自适应缓冲区管理算法FClock,FClock将数据页组织为两个环形数据结构(CC和DC),分别用于存储缓冲区中的只读数据页和已修改数据页。当需要选择置换页时,FClock使用基于代价的启发式来选择置换页,可在未修改的数据页和已修改的数据页之间进行公平的选择,适用于不同种类的SSD。针对数据库、虚存和文件系统中数据页访问存在高相关性的特点,提出基于"平均命中距离"的访问计数方法来调整数据页的访问频率。基于不同SSD和不同存取模式的实验结果说明,FClock的综合性能优于已有方法。
  • 摘要:数据流的模式查询具有很高的领域价值,它不仅需要较高的抗噪能力和实时性,而且查询目标模式还具有可伸缩性,即由多个子模式复合而成,且某些子模式可重复、缺失或倒置。文中提出一种可伸缩模式的查询(SPQ)方法,允许用户定义目标模式并设置可伸缩条件。然后在查询处理中通过模式匹配生成模式流,进而完成满足可伸缩条件的目标模式查询。在真实数据集上进行的实验从查全率、查准率和处理效率上证明了SPQ方法是可行和灵活的。
  • 摘要:针对多核处理器的特点,文章提出了一个符合MySQL接口标准的并行存储引擎MTPower。该存储引擎着重利用多核处理器的并行计算能力提升批量插入过程中的索引产生过程,主要包含存储引擎接口、并行批量线性Hash索引、并行批量B+树插入、支持并行访问的磁盘存储缓冲等部分。测试结果表明,在批量插入记录且需要创建Hash和B+树索引时,MTPower的性能比经典的单线程存储引擎MyISAM最高可以提高6.1倍和4.8倍;在系统中线程总数略大于处理器核数时,MTPower可以达到最佳性能;在处理器核的数量增加时,MTPower的性能也能随之提高。
  • 摘要:从20世纪80年代内存数据库出现时的T树到21世纪初出现的缓存感知的CSS、CSB+树等,都适应了当时的硬件发展趋势,具有一定的性能优势。随着计算机硬件技术的进一步发展,尤其是多核技术的应用与推广,新的多核处理器在提高索引性能的同时又给内存索引结构提出了新的挑战。文中对B+树、T树、CSS树、CSB+树等几个经典的内存索引结构在多核处理器环境下的性能进行了全面的实验测试,对其在多核处理器环境下不同数据输入、不同节点大小等多种情况下的性能构成与差异进行了比较和分析,总结了在多核处理器中影响索引性能的关键因素,为内存索引结构的进一步改进奠定了坚实的基础。
  • 摘要:在目前支持关系及XML数据统一管理的数据库管理系统中,由于XML固有的表达复杂结构数据的特点,以及XQueryXPath查询语言越来越复杂等原因,如果没有对XML数据的树结构以及查询语义有准确的了解,对于一般用户而言,要查询到所需要的信息有一定难度。针对该问题,在已有工作的基础上,设计并实现了一种基于XML标记(Tag)子集的XML查询方法,该方法只需要用户使用类SQL提交针对包含XML数据列的关系表(RXTable)中XML数据的查询,就可以将数据中所有满足条件的XML数据返回,同时可基于该查询结果进行进一步的更精确的查询。
  • 摘要:针对保持结构的XML压缩数据,提出一种专门针对压缩XML数据的查询代数ACX,讨论了ACX逻辑操作符及物理操作符。ACX的部分设计已在关系及XML双引擎数据库管理系统CoSQL RX得到实现和验证。
  • 摘要:随着网络的普及,数据越来越多地出现在了互联网上。由于XML语言的易用性,更多的数据被组织成为XML文档格式,同样由于XML的灵活性,数据多种多样的组织形式给数据的管理带来了很多的不便。尤其在XML上进行数据集成、模式变更等大规模数据操作时,面临着诸多的问题,而目前的实现方法之一是使用模式转换来实现上述操作。已有的工作主要分析了XML上模式转换的特点,并提出了模式转换的规则。但这些模式转换的规则都只考虑了数据的完整性、可靠性,并没有考虑转换之后的数据质量。为此讨论了在模式转换规则之上引入质量保证的必要性,分析了在该规则下可行的质量保证方法,并给出了适合该规则的质量保证方法。理论分析和实验结果都表明了方法的正确性和可行性。
  • 摘要:编码技术是XML查询处理的基础,为适应XML更新需要,近年来提出很多动态编码方法,大致可分为基于位串的编码和基于向量的编码.当XML更新时,动态编码方法应该产生最短位长新编码分配给插入节点。位串编码具有这个性质,而对于向量编码,却是一个难点。以DDE为例,提出了向量编码的最短位长新编码计算方法。该方法将问题建模为整数规划,通过构造所有不可约分数求得最短位长新编码。和原有简单利用向量相加计算新编码相比,优点包括了重用已删编码,降低编码长度,提高查询性能,具有更好查询支持等。
  • 摘要:传统的关系数据库系统(RDBMS)是以查询操作中发生的内存与磁盘交换数据的块数(即I/O)为基础进行查询优化的,然而传统代价模型及查询优化方法并不适合包含高代价谓词的查询。学术界提出了一些优化方法,一定程度上解决了高代价谓词查询的优化问题,但这些方法存在优化空间加大、优化程度有限等问题。以具有视频监控的大型超市数据管理为背景,针对包含视频数据及视频处理的混合查询,以操作结果缓存的方式执行高代价谓词,提出属性势值估算以及基于属性势值估算的查询优化方法。这种优化方法更大程度地降低高代价谓词的执行次数,很好地解决了包含传统数据类型和大对象操作的混合查询的代价优化问题。将这种方法与以往高代价谓词的查询优化方法进行性能比较,结果令人满意。
  • 摘要:连续可见最近邻查询是查询连续空间的最近邻问题,目前的研究基本以二维空间为背景并提出了一些查询算法,但可见性判断方法不能适用于三维或高维空间。以陆地表面的三维数据为研究背景,提出了一种查询地表任意路径的连续可见最近邻方法。该方法以计算步长的方式把整个查询路径分割成若干个连续的查询子路径,循环计算每个子路径的连续可见最近邻直至得到整个路径的查询结果。该方法可以扩展应用于高维空间中的连续最近邻查询。
  • 摘要:CPM是一种较为高效的概念划分网格的思想,用以解决二维空间下的连续最近邻查询问题。在此思想的基础上提出一种采用树形结构来索引概念划分网格的连续最近邻查询算法T-CPM,通过一系列改进步骤,提升了这一算法的查询效率。实验证明,相比经典的算法,T-CPM优化了网格的检索顺序并节省了计算代价。此外,验证了将这一新的方法延伸到基于不确定空间对象的连续最近邻查询问题中,以此给出了一种针对动态不确定空间数据最近邻查询问题的思路和方法。
  • 摘要:并行查询处理,特别是并行连接查询处理技术是并行数据库中的关键技术。然而,目前的并行查询处理方法尚存在着一些局限性,如绝大多数的并行Join算法依赖于Hash方法对数据进行分治,因此只能支持等值Join等查询类型。为了解决这一问题,提出了一种基于伪半连接的通用θ-Join查询处理算法,并给出了基于查询语法树及并行执行计划的并行数据库通用查询处理方法。在此基础上,实现了一个并行分布式数据库原型系统PD-DBMS,实验结果表明,此方法提供了良好的并行查询处理性能。
  • 摘要:利用多核处理器提供的强大计算能力提升数据库系统性能是当前国内外数据库研究的重要问题。利用基于多核处理器上的并行编程模型MSI和Intel处理器上的SIMD(单指令流多数据流)指令有效地加速了数据库查询的Join操作,与串行实现相比其最大加速可以达13倍。同时,还对比不同数据分块大小情况下对算法的影响,找到了优化的数据分块方法。
  • 摘要:不确定数据轮廓查询的研究主要是在假设每一维的属性都有确定的全序关系上进行的.在现实的应用中会出现属性的属性值优先级是不确定的,需要根据用户的偏好来定义属性值之间的优先级次序。而现有的不确定数据轮廓查询算法并不适用。先通过不确定数据预处理算法得到索引ObjectInstanceMap并构造基本偏好次序索引,再在用户偏好轮廓查询算法中利用这2个索引得到用户偏好次序下的轮廓集合,实验验证了算法的有效性。
  • 摘要:随着知识经济的发展和企业灵活应对市场变化的需要,知识已成为企业中重要的资产。以浙江省电力试验研究院为例,其知识的复杂性和庞大的数量已无法用人工来管理,工程师要完成设计常常难以及时找到所需的知识。因此,建立企业知识管理系统成为支撑工作的必要平台。结合浙江省电力试验研究院协同知识管理系统的建设,提出了实现该系统的技术架构和总体设计,包括知识的规范化描述和知识间的逻辑关系描述,其中总体架构中提出了协同知识管理齿轮联动模型。通过系统的数据承载、数据展示和数据联动设计实现该模型,以实现企业知识能够在不同功能模块之间自动便捷的流转。给出了本系统的具体实现,包括系统运行环境配置、文档管理配置实现、协同流程配置管理和技术报告配置管理。系统已经在省电力试验研究院使用,可以较好地支持设计人员和管理人员的工作,为协同办公也提供良好环境。
  • 摘要:认知科学表明基于流形学习的人脸图像检索能准确反映人脸图片的内在相似性和人类的视觉感知本质。提出一种基于相关反馈的人脸高维索引方法--NDL,以提高人脸图像检索的性能。同时在该索引基础上提出一种流形空间下的相似查询--虚拟k近邻查询(Vk-NN), 该查询方法特别为基于NDL的人脸检索而设计。首先通过在一定阈值约束下计算任何两个人脸图片的相似度,建立一个称为邻接距离表(NDL)的二维距离图。同时将距离值用B+-树建立索引。最后, 高维流形空间的Vk-NN查询转化为一维空间的基于B+树的查询。实验表明:NDL索引在流形空间的检索效率明显优于顺序检索,特别适合海量人脸图片的检索。
  • 摘要:图数据结构广泛应用于各种领域的数据建模,由于测量手段和问题特性的限制,数据的不确定性普遍存在。这种不确定性表现在图结构数据中,形成不确定图。之前对于不确定图数据上查询处理的研究,主要是在不确定的图结构数据上查找某一结构确定的图。然而,针对不确定的图数据,其查询很可能也是不确定的。该项工作主要是实现查询过程中的双向匹配,即对于一个不确定的查询,在不确定的图上,得到查询与图的一个可能性最大的匹配组合。这样的研究是具有现实意义的,通过不确定图上对于不确定查询的匹配,可以找到两个不确定结构间存在的最大相似结构,并度量其相似性。
  • 摘要:索引技术是提高海量数据查询效率的关键技术之一。传统索引如B+树等在更新事务环境中具有较好的性能,然而在面向列存储的分析型数据仓库查询环境下,时间空间代价较大。根据列存储数据仓库查询环境的特点,提出一种新型树型索引--RB+树(reduced B+-tree)。该索引对传统B+树结构进行了改进,并结合自底向上创建索引树的方法,使得索引的空间利用率、创建和查找效率得到显著的提高。进一步将RB+树应用于列存储数据仓库中,建立了行号索引、列值索引,特别地为解决星型模型中多表连接问题提出连接索引,有效地提高了列存储数据仓库中元组重构与多表连接的效率。在数据仓库基准数据集SSB上的实验验证了方法的有效性。
  • 摘要:多维数组是科学计算中非常重要的数据结构,但目前主流数据库使用的关系代数很难支持多维数组。因此提出了一个面向科学计算的多维数组代数模型SciArray以及建立在其上的结构化查询语言AQL。SciArray很好地描述了多维数组运算中的数据局部性,为实现并行的面向科学计算的多维数组数据库奠定了基础。
  • 摘要:许多领域的应用要求发生的事件能够得到实时的反应,这就要求应用于其中的主动数据库中的ECA规则推理过程具有实时性,能够在截止期内完成推理给出反应.现有的ECA规则推理算法均没有考虑实时性要求.为了解决这个问题,提出了一种实时ECA规则推理算法RTIAE.作为一种"任意时刻"实时算法,RTIAE算法在ECA规则的有向图结构中通过启发式搜索进行推理,在截止期内尽量给出更多的推理结果.随后,通过实验探讨了不同的参数对RTIAE算法实时性能的影响,并与深度优先算法进行了对比.实验结果显示,RTIAE算法的截止期推理成功率优于深度优先算法.
  • 摘要:随着云计算概念的流行,云存储也在越来越多地被提及。云存储依靠其低成本、可扩展的特点得到了广泛的支持和关注,但是也带来了新的安全问题;大多数情况下,用户并不能完全信任云存储服务提供商,从而需要对数据加密以保证数据的机密性。目前已有的基于密文的访问控制技术中,数据属主(Owner)需要为每一个用户维护和发放数据密钥,这样在用户数目众多的情况下,Owner端会成为应用的瓶颈。针对此问题提出了一种新的访问控制方法AB-ACCS,其核心思想是采用基于密文属性的加密算法为用户私钥设置属性,为数据密文设置属性条件,通过私钥属性和密文属性的匹配关系确定解密能力。因此数据属主只需要通过控制数据的密文属性进行权限管理,而不需要为用户分发数据密钥,降低了权限管理的复杂度,避免了这一应用瓶颈。
  • 摘要:基于邻居(neighborhood-based)的协同过滤是一项很受欢迎的用于推荐系统的技术。它可以分为基于用户(user-based)和基于项目(item-based)协同过滤,它通过用户或项目之间的相似性预测用户对于未评分项目的偏好。然而,传统的相似度方法易受数据稀疏影响。为了解决这个问题,提出了基于心理测量学(psychometrics-based)的相似度方法。实验结果表明,提出的相似方法更适合基于邻居协同过滤,它们可以提高推荐准确性和覆盖度(coverage)。
  • 摘要:高通量微阵列技术与手工表型标定方式间的矛盾导致了基因表达数据的获取与表型确定间的不平衡。然而,已有的表型区分方法大多是有监督的,并且通常忽略了基因间广泛存在的相互作用,根据单个基因的独立区分能力划分样本表型,选择相关基因。从新的视角,基于投影聚类的思想,提出一种考虑基因间相互关系的无监督表型区分算法USPD。通过将基因表达数据转化为具有负间隔约束的序列数据,强化了基因间的相互关系.利用设计的质量函数,采用深度优先方式遍历样本穷举树,无监督地生成样本表型划分。同时采用高效的削减策略,大大提高了算法的效率。通过将算法与现有的以基因表达数据分析为目的的代表性投影聚类算法HARP相比较,证明提出算法的高效性和有效性。
  • 摘要:在数据流分析中,相比于单个数据点或元组,数据流模式具有更重要的实际意义和领域价值,模式的多样性反映了数据流的特征。传统的降载方法一般是对点或者元组进行降载,对数据点的删除破坏了模式的完整性,不利于数据流特征的保持。提出了以模式为粒度的数据流降载方法,构建了高效的数据存储结构,目标在于删除过载数据的同时尽可能地保持数据流的特征。该方法分为4部分:首先经模式提取操作得到一系列的数据流子序列;然后与已有模式进行匹配并对数据模型进行更新;同时,持续监控系统资源,以判定是否需要降载;执行降载时,根据模式频度计算筛选系数,以此选择数据进行删除。通过实验可以验证,该降载方法能够有效地保留模式的多样性,保持数据流的特征。
  • 摘要:目前绝大多数在PU学习场景下的学习算法都只能处理确定数据,然而在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域,数据的不确定性是普遍存在的。基于针对精确数据的PU学习算法POSC4. 5,提出了PU概率信息增益,并在此基础上提出了一种能在PU学习场景下学习不确定数据的决策树算法uPOSC4. 5(Uncertain POSC4.5)。在UCI数据集上的实验表明,uPOSC4.5具有较好的分类准确率和健壮性,且其分类性能优于aUPNB。
  • 摘要:近年来随着社会网络的日益普及,人们在社会网络中的影响和作用正受到越来越多的关注。提出并研究了社会网络中的成员节点提升问题。首先给出社会网络中成员节点提升问题的场景及定义;接着给出了基于直观理解的brute-force提升法;然后针对brute-force法作出了一系列优化并提出基于索引的动态剪枝提升法。真实和合成数据集上的大量实验结果证明所提算法的正确性与有效性。
  • 摘要:Web资源上的复合事件检测已成为人们关注和研究的热点。Flickr作为一个照片共享的Web资源,其中的复合事件检测包括景点特色检测、用户兴趣检测等,从而主动地为用户提供个性化和智能化的服务。提出了一种新颖的、基于主题模型的方法来检测景点的旅游特色,以及同一景点在不同时节旅游特色的差异,并将其表示成一系列标签的概率组合。这种方法可以在没有用户标注的情况下进行自动检测,将非结构化的标签信息抽取成结构化的事件模式。Flickr中真实数据的实验结果表明该方法的可行性和有效性。
  • 摘要:随着网络的高速发展,如何在海量信息中找到用户需求的高质量信息变得非常重要,技术难度较大。网页在搜索结果中排名是否靠前与巨大的商业利润相关联,这使得大量的垃圾网页出现在网络中。过滤Spam页面、给用户提供高质量的搜索结果成为当前Web搜索引擎的面临的一个巨大挑战。大量研究工作显示Spam页面之间存在着勾结的现象,分析Spam页面链接结构特性成为过滤Spam页面的重要方法。根据Spam网页链接结构存在的共性,提出了一种基于链接分析的Web Spam过滤方法。在标准检测数据集上进行实验,并与相关工作进行比较。实验结果表明,提出的方法能有效地对Spam网页进行过滤,提高搜索结果的质量。
  • 摘要:针对采用紧密二分图来抽取社区核的(α,β)密度方法和γ-dense密度方法进行了分析,指出了存在的问题。提出紧密二分图块的概念和采用2步骤构造二分图的方法,减少不必要节点和边的扩展。提出最大紧密二分图块的概念和抽取算法。新算法在4个Web爬虫爬取的数据集下进行了测试并抽取了大量的社区核,人工验证这些社区核,80%均为有效的社区。同时针对Dourisboure等人的方法进行了不同规模数据集的测试,证明了里面包含大量的割点。实验结果的分析表明,新算法是可行的和有效的。
  • 摘要:在数据挖掘领域,传统的单分类和多分类问题已经得到了广泛的研究。但是多标签数据的普遍存在性和重要性直到近些年来才逐渐得到人们的关注。在多标签分类问题中,由于标签相关性的存在,传统的单分类和多分类问题的解决方法,无法简单地应用于多标签分类问题.文中提出了一种基于随机游走模型的多标签分类算法,称为多标签随机游走算法。首先,将多标签数据映射成为多标签随机游走图。当输入一个未分类数据时,建立一个多标签随机游走图系列。而后,对图系列中的每个图应用随机游走模型,得到遍历每个顶点的概率分布,并将这个点概率分布转化成每个标签的概率分布。最后,基于多标签随机游走算法,文中给出了一种新的阈值学习算法.真实数据集上的实验表明,多标签随机游走算法可以有效地解决多标签分类问题。
  • 摘要:频繁项集是通过对大规模数据进行挖掘获取的代表数据模式的知识结构。非可导频繁项集作为频繁项集的有效压缩方式,能够高效深入地挖掘海量数据、稠密数据与数据流当中的规律。针对项集在计算界限值时代价昂贵的缺点,提出了近似可导项集的概念,并基于纵向数据格式实现了挖掘算法MANDI,能够提高支持度计算和项集间操作的速度。另外,为了满足数据流实时、快速的特点,讨论并证明了近似可导项集的增量性质,提出了可动态更新的算法UANDI。通过实验验证了两种算法的可行性和有效性。
  • 摘要:个性化推荐系统能基于用户个人兴趣为用户提供定制信息。此类系统通常使用协同过滤技术实现,其中一种广泛使用的经典模型是基于用户评分相似度的k近邻模型。使用k近邻模型需要预先计算出用户或者项目的k个最近邻居,k值过大时会导致计算量过大而影响推荐产生的实时性,而k值过小则会导致推荐精度下降。为解决此问题,该文中提出了一种新的最近邻度量--相似度支持度。基于相似度支持度,该文提出了数种能够在保持推荐精度和密度的前提下维持合理规模的k近邻的策略。在真实大规模数据集上的实验结果表明,相比传统算法,该文提出的策略能够在保证推荐精度的前提下大幅降低计算复杂度。
  • 摘要:文中为对象代理数据库提出了一种新的索引结构--路径导航索引(PNI),能够克服路径表达式计算开销大的缺点,使对象代理数据库跨类查询与代理对象查询具备高效的查询性能。PNI索引建立在代理层次的路径实例之上,包括Path-Instance-Table,Identity-Index和Attribute-Index 3个组成部分。Path-Instance-Table能够物化存储路径实例,避免查询处理过程中冗余的对象导航遍历。Identity-Index与Attribute-Index用于对路径实例进行关联检索,能够避免对象导航过程中的条件判断。通过实验分析了影响路径表达式计算的不同因素,实验结果表明,利用PNI索引计算路径表达式的方法在多数情况下性能要优于现有计算方法,尤其适用于带谓词的路径表达式计算。
  • 摘要:支持XML的关系数据库系统将XML扩展为基本数据类型,会限制XML并发控制协议在此类系统中的应用,并导致XML及关系数据操作的并发性能下降。针对该问题提出了一种XML与关系数据并发控制协议的集成模型X&R,并基于该模型提出XRSelector协议。X&R模型将XML并发控制协议集成到关系数据库系统中,对用户的数据库操作进行了明确的定义和区分,使不同数据模型的并发操作自动选择适当的并发控制技术进行管理.XRSelector协议能够确保不同数据模型并发控制协议的独立性和整个系统并发控制的正确性。实验证明X&R模型能够提高支持XML的关系数据库系统的整体并发度。
  • 摘要:图的可达性查询被广泛应用于生物网络、社会网络、本体网络、RDF数据库和XML数据库等。由于对数据操作时引入的噪声和错误使这些图数据具有不确定性,已经有大量的针对不确定RDF和XML数据库的研究。文中使用可能世界语义模型构建不确定图,基于该模型,研究了概率可达查询(PR)。处理PR查询是#P完全问题,对此文中首先给出一个基本随机算法,可快速地估算出可达概率,并且该值有很高的精确度。进一步,文中为随机算法引入条件分布(称为"条件随机算法"),采用图的不相交路径集和割集作为条件概率分布,因此改进的随机算法可准确地并且是在多项式时间内处理查询。最后基于真实不确定图数据的大量实验结果验证了文中的设计。
  • 摘要:传统Deep Web数据集成研究侧重满足用户的即时查询需求,对数据分析应用缺乏充分支持,提出一个面向分析的Deep Web数据集成系统DWDIS,能够在较少人工参与下对大量Web数据库进行高质量数据获取、抽取和整合,为分析型应用提供优质全面的结构化数据。DWDIS支持领域模型的自动演化;通过自动识别和理解查询接口,采用查询词采新率模型以较小代价最大限度地获取Deep Web页面;充分利用集成系统已有数据中隐含的数据特征,对Deep Web页面进行有效页面抽取和语义标注;结合Web数据源特征,使用机器学习方法对来自大量Web数据库的数据实现高准确率的重复记录检测和数据融合。
  • 摘要:面对OLAP海量数据查询处理的请求与单机内存容量有限的矛盾,设计了ScaMMDBⅡ系统.ScaMMDBⅡ系统将在单一节点上进行的包含可分布式聚集函数的海量数据OLAP查询操作转换为在多个节点子CUBE上并行执行的OLAP查询以及查询结果的合并运算,以此达到简化系统复杂度和提高查询的并行执行能力的目的;除此之外, ScaMMDBⅡ通过迭代的中值计算方法还能够处理不可分布式计算的聚集函数Median。通过分而治之的思想, ScaMMDBⅡ有效地解决了容量与性能之间的矛盾,并且具有高可扩展性。
  • 摘要:专利文献的管理和分析对于知识产权保护和企业科技创新非常重要。专利个性化管理与服务系统是基于对象代理数据库管理系统的网上专利信息服务系统,它能够提供专利下载工具、检索与统计分析和个性化管理等先进功能。专利下载工具用于集成各国专利局的检索接口,从检索结果中抽取出结构化专利信息;专利检索与统计分析服务通过在本地建立专利数据库和全文索引来实现,能够提供专利各类查询和统计分析服务;个性化服务功能基于对象代理模型创建个性化数据空间来实现,能够自动更新数据空间中的数据,使得用户获得最新的专利信息。
  • 摘要:临床数据共享平台是我国医疗信息化发展的重要方向,在当今医疗数据呈几何级增长的环境下,多中心海量的临床数据如何管理、共享、并有效地查询和检索是一项重要的课题。该系统使用HL7 CDA XML作为描述电子病历的标准,采用关系型-XML混合数据库提供索引和XQuery查询工具。同时为了提高查询效率和并发性能,使用了BerkeleyDB作为Key-Value存储的数据层,并架设了Memcached作为查询数据的缓存层,增强了整体系统的可用性,最终形成了一个标准、通用、高效的临床数据共享平台。
  • 摘要:无线射频识别技术RFID有着重要的应用背景。设计并实现了一个面向无线射频识别应用的复杂事件处理系统REvent,构建了一个仿真环境并在此基础上测试Revent系统的数据预处理与事件检测等功能。对系统框架、关键技术和主要演示过程进行了说明。
  • 摘要:名字二义性降低了文档检索的性能,在数据清理过程中消除名字二义性十分重要。针对名字二义性的研究,提供了一个名字排歧框架的演示系统,名为GHOST。GHOST使用合作者信息作为输入。通常,对于一位特定的作者,其运行一个4步的工作流程--"合作者图的构建"、"有效路径选择"、"相似度计算"以及"聚类"。同时给出了GHOST演示系统的演示方案。整个演示方案可分为4部分--"合作者图和相似度计算"、"聚类过程"、"结果和评测"以及"用户贡献"。在第1部分中,用户可以观察GHOST生成的合作者图并且对每对待解决结点(resolving node)之间的相似度产生一个直观的认识;第2部分演示了聚类的过程;在第3部分,GHOST的结果和对GHOST的评测将被展现出来;第4部分允许用户提供评测数据,来帮助所有名字排歧问题的研究者获得更多的评测数据。
  • 摘要:针对矢量数据在授权和应用中的安全需求以及现有工作中在授权策略上存在的表达能力的不足,高可信空间数据库管理系统 BeyonDB采用一种基于谓词的矢量数据授权模型,并通过查询改写的方法实现矢量数据的访问控制和有效授权。此外,BeyonDB为数据属主提供一个遵循SQL99规范的SQL接口对矢量数据实施授权;同时提供图形化管理界面,更加直观地为BeyonDB矢量数据的授权策略进行管理。
  • 摘要:为了弥补树编辑距离方法时间复杂度高和频繁路径方法丢失过多语义信息的不足,建立XML文档的双向路径约束模型,从而更全面地提取XML文档的结构信息,为更精确的XML相似度计算打下基础。引入自然语言领域中成熟的N-Gram思想,将基于N-Gram的划分方式应用在路径约束相似度计算中,加快了计算效率和精确度。运用正整数和各种权值简化N-Gram信息的提取和运算。实验结果表明,方法提高了聚类的准确率和召回率。
  • 摘要:在处理XML关键词查询时,首先要确定答案结点的语义,即什么样的结点是答案结点。通过两步分析答案结点的语义:首先推导候选答案结点的类型,然后根据答案结点与查询的关系来精选答案结点。在第1步中,将XML结点映射到ER模型中的概念,利用结点的内容特征、出现特征和引用特征等来推导结点类型,并要求答案结点代表了实体;在第2步中,要求答案结点与查询相关且最精确,在此基础上提出了SLCEA的语义。实验证明,按照这种方法识别出的答案结点是有意义的。
  • 摘要:由于不确定图蕴含了指数级的可能图实例,基于确定图模型的频繁图模式挖掘算法通常难以在不确定图集合上高效运行。文中提出了一种不确定图数据集上的基于随机游走的K极大频繁子模式挖掘算法。首先,将每个不确定图转换为相应的确定图并挖掘候选频繁模式;然后,将候选频繁模式恢复为不确定图并生成极大频繁模式搜索空间;最后,通过随机游走以相同概率随机地选择K个极大频繁模式。理论分析和实验结果表明文中提出的算法能够高效地获得不确定图集合的K-极大频繁模式。
  • 摘要:已有道路网中的连续k近邻查询处理算法采用增量式的查询处理机制,当数据频繁更新时性能急剧下降。结合多核多线程技术,提出了一种基于多线程的连续查询处理框架。该框架周期性重计算所有查询结果,将查询处理分为顺序执行的数据更新阶段和查询执行阶段,分别使用任务并行和数据并行的方法执行各阶段的操作。设计了数据更新阶段使用的数据结构,提出了查询处理阶段的k近邻查询处理策略,包含离线预计算和在线k近邻查询处理算法两个部分。对k近邻算法复杂性及多线程处理框架的加速比进行了理论分析。实验结果表明,提出的算法在数据频繁更新下,串行执行时性能优于已有算法,而基于多线程处理框架的并行执行在任何参数配置下性能均优于已有算法;且基于多线程处理框架的并行执行具有较好的性能扩展性,加速比可以达到1.51~1.7。
  • 摘要:在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象。不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合。文中详细地分析了NRA算法的执行行为,确定了增长阶段和收缩阶段中每个文件需要扫描的元组个数。文中发现在海量数据环境中,NRA在增长阶段需要维护大量的候选元组,严重影响了算法的执行效率。所以,文中提出一种新的海量数据上的top-k查询算法TKEP,该算法在查询的增长阶段就执行早剪切,从而大大减少增长阶段需要维护的候选元组。文中给出了早剪切操作的数学分析,确定了早剪切操作的理论和实际剪切效果。据作者所知,该文是第一篇提出在top-k查询的增长阶段执行早剪切的文章。实验结果表明,和传统的NRA相比,TKEP在增长阶段维护的元组数量减少3个数量级,需要的内存量减少1个数量级,TKEP算法获得1个数量级的加速比。
  • 摘要:实现加密数据的高效安全查询是保证可信数据库安全性和实用性的关键,与目前加密数据查询采用的静态密文分段方法不同,论文基于加密数据的分布和用户查询类型、分布规律,提出了一种自适应加密索引AEI,实现面向服务的加密数据查询。AEI通过分析查询服务对查询性能的影响,根据承载服务特性、密文数据分布、用户查询分布采用自适应的加密索引划分策略,获得更好的加密数据查询性能。基于AEI方法可在可信数据库环境下实现密文数据查询,并通过了相关性能测试。实验数据表明,与其它加密数据查询方法相比,AEI方法具有更好的适应性和更高的加密数据查询效率。
  • 摘要:基于purpose的查询技术是关系数据库对隐私数据访问控制的基础,目前大多数研究都仅仅关注在独立隐私保护数据库环境下,如何建立有效的基于purpose的隐私数据访问控制模型。但随着分布应用整合和数据共享需求的日益增长,如何合并独立应用下基于purpose访问控制模型的问题就应运而生。为解决这一问题,文章提出了多应用系统集成环境下基于融合purpose的隐私数据访问控制实现机制。文章首先分析了由于合并独立purpose模型而引起的潜在隐私数据查询泄漏,提出了合并后的purpose树是一棵隐私泄漏风险树,并给出了树结点隐私风险度的计算模型。其次,将隐私泄漏风险树分解成一棵所有结点风险度为0的风险平衡树以及一组由风险度不为0的结点组成的风险路径。这样,一个查询可被改写为先对风险平衡purpose树的查询,再对风险路径查询,以此达到隐私泄漏风险最小的安全查询结果。文章给出了3组实验的结果:(1)对于同一用户同一查询,在不同purpose模型下的查询时间比较。文章提出的模型并没有在查询时间上带来更大的开销。(2)对RPPAAC模型防止隐私数据泄漏的有效性验证.文中的模型可降低由应用整合引起访问控制机制不平衡所带来的隐私数据泄漏风险。(3)不同情况下purpose融合的执行时间比较。文章与相关研究的不同之处是将purpose作为隐私数据的载体、purpose树的路径作为隐私数据的传递通道,引入了显性隐私度和隐性隐私度的计算模型,评估基于一个purpose查询可能带来的隐私泄漏风险,进而提出了多应用系统集成环境下基于融合purpose的隐私数据访问控制实现机制。
  • 摘要:近年来,基于位置的服务获得了越来越广泛的关注,其中最近邻查询是最常用的一种查询方式。测量手段的不准确性以及数据本身的性质导致不确定性在位置数据中普遍存在,这种不确定性会对最近邻查询结果产生影响。空间中障碍物的存在也给空间数据查询带来了挑战。文中研究存在障碍物的空间中不确定对象连续最近邻查询的处理方法,设计了一种剪枝策略大幅降低需要计算的不确定对象数目,并进一步提出了障碍空间中不确定对象最近邻查询安全区域的概念及安全区域生成算法。设计了安全区域的索引存储方法。实验结果表明,文章所提出的方法具有良好的效率和可扩展性。
  • 摘要:对现有最大序列模式挖掘算法候选序列模式过多以及可扩展性差的缺点,提出了一种基于序列匹配的最大序列模式挖掘算法CSMS。算法首先为所有频繁1序列构建位置信息表;然后利用纵向、横向结合搜索位置信息表的序列扩展匹配方法找到潜在最大序列模式;在进行序列匹配扩展的同时,把每个找到的潜在最大序列模式存储在改进的前缀树PStree中,树中每个结点链接到索引Hash表,Hash表中保存了结点的位置信息,对于那些重复的序列可以直接从Hash表中找到其位置信息;最后通过对前缀树PStree进行剪枝,得到由最大序列模式组成的前缀树MPStree。实验结果表明算法CSMS具有较好的时间效率和扩展性。
  • 摘要:随着Web2.0技术的发展,大规模在线社会网络数据的获取成为了可能,这激发了众多研究者对社会网络的研究热情。近年来,社区发现成为社会网络领域的研究热点。研究了社会网络社区发现问题,提出了综合社会行动者兴趣和社会网络拓扑结构的社区发现方法。对于一个包含了社会行动者兴趣信息的社会网络数据集,首先对行动者个人兴趣进行聚类,得到基于兴趣的行动者社区,然后使用行动者社会网络拓扑结构信息,对兴趣社区进行扩展,使之更符合社区形成和发展的规律,从而达到更好的社区发现效果。在Flickr真实社会网络数据集上的测试表明,提出的方法比单纯基于兴趣聚类的方法在有效性上有较大的提高。
  • 摘要:目前,针对不确定数据分类分析的决策树算法,如DTU等具有较高的时间复杂度。因此,在利用决策树算法处理不确定数据时,如何能够在保证准确度的同时降低时间开销成为一个重要问题。基于样本属性相互独立的假设提出了不确定独立信息增益的概念和快速不确定决策树算法FDTU,降低了决策树生成的运行时间。在UCI数据集上的实验表明,相对于不确定决策树算法DTU,FDTU算法具有相近的分类准确度,同时显著地降低了生成决策树所需的运行时间。
  • 摘要:社会网络中的群体关注度问题是研究网络社区中的信息或事件如何引起广大网络用户的关注、并随着信息的传播逐渐变化的问题。分析了网络社区用户对网络中的信息对象的关注特点,并通过统计复旦大学日月光华BBS论坛用户的发帖、回帖数据来验证关于用户群体关注度的分析结论。同时,基于大量数据的统计分析构造出一个群体关注度预测模型,用以预测论坛用户对于新出现的信息或事件的群体关注度演化趋势。这种预测模型的生成和预测方法也适用于其他社会网络平台上的群体关注度分析和预测,因而在网络广告投放、网络舆论监测和控制等方面都具有重要的应用价值。
  • 摘要:信息技术的快速发展促使非结构化数据管理成为一个重要的问题。非结构化数据的主要特点是数量巨大和模式滞后。传统的关系数据管理系统在处理非结构化数据上难以提出有效的解决方案。从"现实的数据总是包含着诸多特征(feature)观点出发,提出了"数据-特征模型",建立特征,特征空间以及数据类型等概念。在此基础上提出了基于特征的非结构化数据演化管理建模框架,同时简述了非结构化数据管理原型系统MYUSD的结构。
  • 摘要:海量文本数据近似复制文本检测在现实生活中具有广泛应用,如相似网页检测。提出了一种基于MapReduce的相似文本匹配算法,给定一个文本集合和相似性阈值,该算法能够有效计算文本集合中不小于该阈值的所有文本对。在真实数据集合上的实验结果表明,与现有工作相比,所提算法能够快速返回相似文本对。
  • 摘要:逻辑回归作为经典分类算法具有良好的分类效果,因此在云计算平台上针对大规模移动数据实现逻辑回归具有很高的现实意义。然而现有的逻辑回归算法不具有处理海量移动数据的能力。利用移动数据l2泛化性特点,提出了一种基于置信域的逻辑回归并行化实现方法(PTLR),在Map Reduce环境下,实现了梯度计算、Hessian矩阵计算和似然函数增量计算这3个关键步骤的并行化,并集成在云计算平台上实际运行。通过在真实的大规模移动数据集上的实验,证明了PTLR算法具有稳定性高、收敛速度较快等特点。
  • 摘要:基于移动传感器与传统的基于固定传感器的交通流采集与分析方法相比,由于不受区域和天气条件的限制,以及经济、灵活、精确等特点,得到了越来越广泛的关注。但现有方法在灵活性、处理效率、精度等方面存在着很大局限性。在数据库内核实现了一种移动对象时空轨迹数据类型,采用密集采集-批量发送的数据采集方式,从而能够精确地描述移动对象在实际路网中的时空运行过程,有效地提高交通流统计分析的准确度。作为其他位置相关信息服务技术的基础,对社会救助、交通控制、警察系统具有很高应用价值。
  • 摘要:太极是一个中国古代哲学术语--即两种模式可以相对统一。利用基于云存储的主从结构和点对点结构各自的优点,融合两种结构,构建了一个双核的云数据库管理系统--太极。系统支持使用SQL语言对云数据库系统中的海量数据进行管理。
  • 客服微信

  • 服务号