首页>中文会议>工业技术>自动化技术与计算机技术>第二十二届中国数据库学术会议
第二十二届中国数据库学术会议

第二十二届中国数据库学术会议

  • 召开年:2005
  • 召开地:呼和浩特
  • 出版时间:

主办单位:中国计算机学会

会议文集:计算机科学

会议论文

热门论文

全部论文

全选(0
  • 摘要:频繁模式挖掘在产生关联规则的过程中是一个必不可少的组成部分.自从Agrawal在1993年提出关联规则的概念之后就出现了很多频繁模式的挖掘算法,这些算法遵循这样的性质:任何频繁模式的子模式都是频繁的,任何非频繁模式的超模式都是不频繁的. 本文介绍一种基于内存索引的频繁模式挖掘算法.
  • 摘要:随着因特网的快速发展,电子文档的数量增长极快,使得文本自动分类对于信息处理的意义变得更加重要,文本自动分类已成为一项重要的研究课题.目前,国内外学者已经提出了多种文本分类方法,如:Bayes、支持向量机、群体智能、神经网络、N-gram等,但仍然有很多问题亟待解决.本文针对文本分类提出了基于最大模糊支撑树的文本分类算法ATCMT,实验结果表明该算法是一种有效的方法.只要文本特征抽取准确、相似性度量科学,并与其语义相结合,那么就可以提高算法ATCMT的准确性.但是文本分类的难点之一是如何正确地提取文本特征,因为在分词中存在少量的语法歧义;难点之二是特征空间的高维性和特征向量的稀疏性.因此,如何消除语法歧义、如何降低特征空间的维数和提高分类的效率和精度,有待于今后进一步深入研究和完善.
  • 摘要:聚类分析是数据挖掘领域中的一项重要的研究课题,它既可以作为一个单独的工具以发现数据库中数据分布的一些深入的信息,也可以作为其他数据挖掘分析算法的一个预处理步骤.目前,高维数据集的高效聚类已成为聚类分析算法的巨大挑战.迄今为止,国内外的研究者已经提出了许多聚类算法,在本文中提出了一种基于最优分割区间和单调递减阈值函数的子空间聚类算法FIS.它在保证精度的同时能够有效改善聚类算法对于存在高维聚类的执行效率.从实验中可以看出,FIS算法是有效的.但同时也应该看到,FIS算法还是不能从根本上克服"维数灾难",这也是值得今后进一步深入研究的子空间聚类挖掘算法的一个关键技术.
  • 摘要:早在上世纪70年代人们就开始关注时态信息的处理和应用,时态关系代数、时态数据模型与查询语言、时态数据库、时态知识表达、时态逻辑等方面已有大量的理论研究成果,时态信息处理已成为许多新一代数据库与信息系统的关键技术.时态信息的主要应用领域包括:地理信息系统、电信信息系统、电子商务、智能决策支持系统、数据仓库与数据挖掘等,特别是时空信息技术和多媒体信息技术的时态应用.但是,由于时态数据库理论与模型还不够成熟,这时期的应用大多都是只借助时态数据库的一些概念,时态信息管理与操作的实现还是采用传统的数据库技术与相关应用领域(GIS,Multi-media等)的技术相结合来完成的,成熟的时态信息处理技术和软件产品还很少见.时态数据类型扩充及时态数据库中间件还有一些需要完善和优化的地方.时态数据库中间件只是在关系数据库模拟了时态SQL的实现,虽然可以为用户提供更便利的时态应用编程,但其执行效率会比纯粹的标准SQL语句差,而且时态数据的索引也无法在关系数据库上实现.基于该平台上进行时态知识表达及时态逻辑推理是下一步研究的重点.同时,时态信息在XML及面向对象数据库中的存储和查询也值得我们关注.
  • 摘要:随着XML标记语言逐渐成为Internet上数据交换的新标准,XML数据的存储、索引、查询成为了数据库技术中的研究热点.XML数据是半结构化的.XML数据查询不仅需要值查询还需要结构查询.为了快速的进行结构查询,快速确定祖先/后代关系以及加快Join操作速度成为XML数据索引研究的关键问题.本文就此问题展开研究,提出了一种能快速确定祖先/后代关系并且能够避免Join操作的XML数据索引结构.
  • 摘要:随着数字技术的进步,产生和积累了大量的媒体数据资料,这些媒体资料中包含着大量的、有用的信息.如何高效地索引和简化音频资料已成为亟待解决的问题.本文主要研究,1怎样构造音频媒体中的特征选择集,2基于粗糙集的特征选择(RSAR),3从有序数据集中求最小约简的算法.
  • 摘要:近几十年,作为数据应用领域的一个重要方向,频繁模式的挖掘引起了广泛的关注,但由于在大数据量上的频繁模式的挖掘结果数量相当大且结果之间存在某些关系,人们开始寻找一种能够将挖掘结果转换成压缩形式的方法来处里庞大的挖掘结果集,闭合模式的挖掘正是基于这种考虑而产生的.同时,随着生物信息学的不断发展,在生物信息学领域产生了大量新的数据,对新数据的分析为频繁模式和闭合模式的应用提供了广阔的空间.但随着新数据的产生,新的问题也随之出现了,其中一个主要问题就是生物信息学的数据很多是行少列多的,而现有的频繁模式挖掘算法或闭合模式挖掘算法难以适应这种行少列多的数据特点.例如,基因芯片组数据(一种生物信息学数据)通常有1000至100000个列,但是仅有100到1000行,目前已有许多挖掘闭合模式或频繁模式的算法,它们的时间开销是随着每行数据的列数增加成指数增长的,因此对于生物信息学数据,许多现有的频繁模式挖掘算法或闭合模式挖掘算法不能表现出较好的计算效率.本文介绍一种在生物信息学数据上挖掘闭合模式的高效算法.
  • 摘要:数字化多媒体信息和资源的数量正在飞速增长,多媒体数据的管理越来越受到人们的关注.而在拥有大量数据的图像数据库中进行有效检索是其中一个具有挑战性的问题,是数据库管理新型多媒体数据类型必须妥善解决的问题之一.本文提出了一种图像检索模型.针对图像的底层特征和上层语义概念之间的差距,在模型中增加了一个概念层来建立图像底层特征和上层语义之间的联系.同时,利用贝叶斯网络的特点,通过相关反馈来提高整体模型的检索性能.实验结果显示本文提出的模型具有较好的检索性能.
  • 摘要:近年来在很多应用领域中出现了一种新的数据模式,其数据不是以传统的有限数据集形式,而是连续的数据流形式出现.数据流中的数据基本元素仍然可能是关系元组,但数据的到达是快速、时变、不可预测和无限的数据流形式,不可能完全存储原始数据,使得传统的数据库技术无法对数据流数据进行有效的管理.本文针对基于数据元素个数滑动窗口和基于时间滑动窗口,考虑其不同特点,提出了两种面向滑动窗口的随机抽样算法-SBWRS算法和TBWSS算法.理论分析和实验结果都表明这两种算法具有较强的实用性和有效性.
  • 摘要:移动对象(MovingObject),在移动对象数据库领域里,就是自身位置随时间不断变化的用户.移动对象数据库(MovingObjectDatabase,MOD)是对移动对象的位置及其相关信息进行表示与管理的数据库,它记录了不同的移动对象在不同时刻的位置,用户可以在其中查询移动对象的过去、现在,以及未来某个时刻的状态.本文针对路网的复杂性特点,以细胞自动机(CellularAutomaton,CA)模拟技术为基础,在此提出了一种时间分段的模拟预测方法PTSS.实验结果表明,当规定某一阈值时,PTSS方法预测所需要的更新率要小于Deviation方法的更新率,远远小于Distance方法的更新率;同时预测精度要远远高于Distance和Deviation方法.
  • 摘要:PostgreSQL是一种对象-关系型数据库管理系统,它强大的功能和代码开放的特点使得它在全球有着广泛的应用.但原有DBMS采用一个服务器进程一份数据字典cache的实现方式.在多用户模式下,这种策略存在两个缺点:一是占用内存太多;二是牵涉到不同进程中的同步问题,当一个进程的cache记录改变了,需要通知相关的其他服务器进程更改其cache记录.在分析了PostgreSQL有关源码和管理机制后,本文提出了在PostgreSQL上共享cache的实现方法,并采用了一种"双水位线"与自适应算法相结合的内存管理策略,这种策略对于其它方面的内存管理具有借鉴意义.
  • 摘要:已有的OLAP操作的研究成果大多基于单机环境.然而随着数据量的激增,已有的串行算法在海量数据面前显得力不从心;此外,并行计算技术已经在并行数据库领域得到充分的认定与发展,PC机群系统又因其价格低廉与完全并行而得到广泛的应用,于是研究基于PC机群系统的并行OLAP操作算法逐渐成为研究人员关注的一个重要问题,本文介绍基于维属性划分存储的并行聚集算法.
  • 摘要:Stacking是Wolpert提出的一个重要学习框架.它通过对多个模型的输出结果进行泛化,利用前一层模型输出的结果作为下一层的学习输入信息,使得前一次的学习能够充分用于后面的归纳过程当中去,发现并且纠正所使用学习算法中的学习偏差,以提高学习的精度.目前,Stacking框架最主要的应用是组合分类器,以取得比组成它们的单个分类器更高的分类准确率.Stacking中每一层的各分类器可使用任何分类算法来构造,因此也适用于组合异构的分类器,本文提出了一种基于投票的类向量方法(Vstacking).从实验结果看,该方法在具有明显类分布倾斜的数据集上的泛化效果要优于Stacking方法,同时在所有的2-类数据集上的泛化效果较稳定,在具有明显类分布倾斜的数据集上取得了较好的分类效果,在泛化精度与效率的折中方面具有较明显的优势.但是应指出的是,Vstacking方法的泛化精度与数据的类分布倾斜(classdistributionskew)是有关系的,即客观存在的各个类的样本比例不平衡的现象影响了分类准确率.对于数据集的类分布均匀的情况,仍需要作进一步的研究.
  • 摘要:DBMS技术的发展,一方面使其应用越来越广泛,但另一方面,为满足各种各样的应用,数据库本身变得越来越庞大,复杂,参数越来越多,在这种情况下,完全靠手工对数据库进行管理变得越来越困难,企业对数据库的总体拥有成本(TotalCostofOwnership-TCO)也大大增加.为解决上述问题,人们提出采用自调优,自管理,自配置的办法来简化数据库的配置,从而减轻DBA的负担和企业的总体拥有成本,本文介绍BPConfigurer:一种快速自动配置多缓冲区的方法,本文的下一步工作是在现有的基础上,对该方法进行改进,以更好地解决多缓冲区环境下的SizingProlem.
  • 摘要:网格计算是分布式计算的一个新的阶段,网格需要解决在动态的虚拟组织中控制和协调对资源的共享.第一代网格的主要目的是将一些地理上分布的超级计算中心连接起来,共享这些超级计算中心的计算资源;第二代网格采用具有标准化接口的中间件来处理规模和异构带来的问题,可以支持需要进行大规模计算和海量数据处理的高性能应用程序;第三代网格采用面向服务的方法,具有自主计算的特征.本文研究基于XML DATABASE的网格数据库物化查询缓存机制.
  • 摘要:实时任务往往具有各种结构上的相互联系,传统的平坦事务模型已经不能满足这种具备结构复杂性的实时任务的需求,这就要求采用具有内部结构的嵌套事务模型.嵌套事务在事务隔离性、事务提交和夭折上具有与传统平坦事务不同的语义,因而在嵌套事务的调度、并发控制和恢复等方面需要提供新的策略和实现技术.目前,国内外对嵌套事务的恢复策略和实现技术的相关研究不多,而针对嵌套实时事务恢复的研究则更是鲜见.本文提出了一个适合于嵌套实时事务的基于日志的故障恢复模式并给出了相关数据结构及实现算法.
  • 摘要:聚类问题是数据挖掘领域的核心问题之一,其目的是将物理或抽象对象的集合分组成为由类似的对象组成的多个类.聚类分析作为一种统计手段在商业和科学领域有着广泛的应用,然而随着科学技术的发展,各个领域积累的数据也在快速增长.现有聚类算法对处理大量数据效果并不理想.面对大量数据,如何快速有效进行聚类分析,同时计算任意形状的聚类结果已成为一个重要问题.本文提出了采用势能的概念来描述数据的空间分布特征,并提出了一种基于势能概念和网格的快速聚类算法CUPE.CUPE算法保持了密度聚类算法发现任意形状的聚类结果和对噪音数据不敏感的优点,同时又使算法具有较低的时间复杂性,因此CUPE算法具有高效性,适合对大量数据甚至海量数据的挖掘.
  • 摘要:各种数据库管理系统为多种形式的数据提供了一种高效、安全管理手段,在社会中发挥着越来越重要的作用.通常商用的数据库会提供各种不同的数据库访问接口,如JDBC、ODBC、OLE-DB等,以满足不同用户操作和管理数据库中存储的数据的需求.接口规范定义了通信伙伴之间进行信息交换的规则和数据格式.由于规范描述语言的模糊性,使得不同厂商或接口驱动提供者可能会有不同的理解.为保证实现的规范符合性,各种接口都提供了规范的符合性测试集.本文研究JDBC接口符合性测试评估方法.
  • 摘要:随着Internet的迅速发展,在网络上产生了大量的电子文档.对这些电子文档进行深层次处理的要求也迅速提高.可扩展的标记语言XML(ExtensibleMarkupLanguage)在网络上得到了普及应用.XML提供了一种灵活的文档结构来描述数据,因此,XML成为Internet以及各种信息集成中的数据交换格式.XML结构的灵活性,是XML与关系数据库的最大差别,XML也被人们认为是一种典型的半结构数据.XML文档的结构用DTD(DocumentTypeDefinition)或Schema来描述,本文提出了描述XML语义结构的Petri网模型.Petri网可以有效地提高路径表达式的查询效率.在XMLDTD上建立的Petri网模型,也可以推广到XMLSchema上.在路径表达式中可以使用通配符"*"和"?",因此,查询中使用的路径表达式灵活.
  • 摘要:XML(eXtensibleMarkupLanguage,可扩展标记语言)是由W3C组织发布的关于数据表示、存储和交换的标准,使用XML可以对结构化和半结构化的数据信息进行标记.基于XML良好的规范性和可扩展性,它在办公自动化系统、Web服务系统和电子商务处理系统等领域中的作用越来越重要.特别是在数据集成系统中,XML作为异构数据源的统一数据模型,为集成后数据的查询、发布和交换提供了便利.本文介绍了使用延迟求值技术构造La-zyXML解析器的方法.LazyXML解析器主要包括预处理和后续处理两个部分.在预处理阶段,系统将XML文档转换为内存中以数组为主的中间表示结构;在后续处理阶段,系统动态地构建虚拟XQuery对象树,提供给用户作为可查询的XQuery数据模型.
  • 摘要:函数依赖是一种常见的数据依赖,反映了数据之间的完整性约束.然而,现实世界存在着大量非精确的函数依赖,例如病理学家希望获得不同饮食习惯与不同疾病的关系,市场营销人员希望知道不同的年龄阶层与商品购买力间的关系等.这些数据间普遍存在的非精确的函数依赖关系为近似函数依赖(ApproximateFunctionalDependencies.近似函数依赖在知识发现、隐私保护和数据推演等方面都有着重要的作用.本文提出了一种基于值等的近似XML函数依赖定义.使用XML近似函数依赖强度和支持度两个指标衡量XML近似函数依赖.提出了XML近似函数依赖约减集的概念,并提出一种抽取文档中XML近似函数依赖约减集的方法.本文还提出了多种优化抽取的策略,实验表明优化后的算法效率有了显著的提高.
  • 摘要:联机分析处理(OLAP)是一种数据分析技术,它通过提供多角度、多粒度的查询和展现数据的功能,使得人们得以灵活地观察和分析数据.本文提出了一种基于单调性对聚集查询结果进行导航的方法.我们根据聚集查询结果在数据立方体格结构上的单调性,将OLAP常用的聚集函数分为两大类,一类满足向下(弱)单调性质,另一类满足向上单调性,分别找到向下(弱)单调聚集查询结果的上界入口集和向上单调聚集查询结果的下界入口集,作为探查结果的导航人口,去掉了结果集中的冗余信息,并分别为每一类聚集查询提供了简单使用的导航方案,使得用户可以从入口集开始方便快捷地进行循序渐进的探查过程.
  • 摘要:信息系统的广泛应用和互联网技术的发展,促进了人们对完整获取分布、异质信息的需求,特别是完整获取半结构化甚至非结构信息的需求,这就促进了信息集成(InformationIntegration)技术的产生.信息集成过程一般包括信息源描述、信息采集、信息过滤与清洗及信息存储等.然而,信息集成技术并不仅仅是为各个信息源提供一个接口就可以简单实现的,更重要的是如何构建全局环境下各信息源之间的互操作性,由于各信息源表示机制的不同以及语义环境的不同,这个过程可能会非常困难,本文主要讨论了基于本体的信息集成机制中语义映射以及基于语义信息查询机制.实现了一个基于复杂映射的本体集成机制,如支持包含映射、组合映射等,探讨了基于全局本体的语义查询机制,主要是扩展了基于TAX的XML查询代数,由于目前常用的XML查询语言如XQuery、XUp-date等均能转化成基于TAX的XML查询代数,因此这种扩展是可行的.基于复杂映射的本体集成,保证了分布式查询能够解决部分语义不一致性问题,并通过细化查询和减小冗余度等方式提高了查询效率.
  • 摘要:万维网是一个海量的、动态的、非结构化的、异构的信息仓库,这些特性为现有的信息处理技术带来了一系列挑战.今年来一系列的研究相继出现和发展,并在某些领域获得不错结果,例如互联网搜索引擎技术(Yahoo,Google)已经成功地商业化.但海量数据的压力和用户巨量点击率,使搜索引擎只能对页面进行较简单的分析,提供给用户的查询方式也是基于传统的,本文探讨模式驱动的面向领域智能Web数据采集引擎.
  • 摘要:从某种角度看,数据仓库是一组视图的集合.这些视图是从数据库或基库中分组聚集而成的.在物理意义上实际存在的视图称为实视图;物理上不存在,当需要时从其他视图或基库中导出的视图称为虚视图.所谓视图的物化即以表的存储形式将虚视图转化为实视图.视图的物化策略对数据仓库的查询响应时间有重要影响.到目前为止,已存在许多物化视图的选择算法,这些算法通过不同的途径实现对物化视图的选择提高系统的整体效率.但总的来说都没有取得理想的效果.可以说,多维数据物化视图选择仍然是一个有待更深入研究的问题.本文探讨DSSMV--多维数据物化视图的动态选择策略,相关工作,相关概念,物化视图动态选择的处理策略,实验与性能分析等.
  • 摘要:语义Web是由万维网之父TimBerners-Lee最早提出来的.语义Web是当前Web的扩展,是Web技术的未来发展方向.它通过结构化Web页面的内容,使Web上的信息都有定义好的含义,从而实现人机以及计算机之间基于语义的信息交换,达到更加自动化和智能化的服务.本体在语义Web框架中处于承上启下的重要地位,是构建语义Web的基础.本体通过对概念的严格定义和概念与概念之间的关系来确定概念精确含义,表示共同认可的、可共享的知识.从而协助人机和计算机之间进行语义交流.本体研究是语义Web领域的一项重要研究内容.本文将该系统应用到中国人民大学的主题语义Web建设中,并开始用它来开发和管理经济学本体,希望在具体的应用中不断丰富和完善系统功能,并最终开发出一个通用高效的面向语义Web的本体库管理系统.
  • 摘要:对象代理模型是针对数据库中管理复杂数据对象的要求,扩充传统面向对象数据模型(OODM)形成的一种新的数据模型.近年来,出现了利用对象代理模型解决工作流、信息集成等领域问题的思想,但这些研究都只停留在理论层次上,未涉及这种模型在实际数据库系统中的实现和性能评估.本文提出,将对象代理模型在实际数据库系统中实现,来定义高效率的半结构视图,方便对现实世界概念的建模,形成一种新型的数据库--对象代理数据库管理系统.为实现对象代理数据库,至少应解决三方面的问题:(1)对象代理数据库语言的定义;(2)支持新模型上的查询;(3)支持新模型的存储方式的实现.文讨论了问题(1),作为这一工作的继续,本文将重点讨论问题(2),给出对象代理数据库数据查询处理的策略.
  • 摘要:对于当前的计算机信息系统来说,海量递增的数据处理需求以及信息服务需求是一个无法回避的严峻挑战.如果仅仅是添加更多的服务器或者不断部署新的服务,那么只是被动地适应现在信息化步伐不断加快的环境,所花费的代价也将不断增多,本文提出了一个基于网格环境的服务自动分配和加载框架,通过服务和执行计算机的动态装配、执行来提高整个系统的扩展性、易管理性和灵活性,提高系统内硬件资源的利用率,并且能够和现有的服务固定的系统融合在一起.
  • 摘要:进入本世纪初,网格技术的应用逐渐从单纯的科学计算领域扩展到企业应用,研究热点也从计算网格、数据网格转向到了服务网格、信息网格.信息网格是利用网格技术实现信息的共享、管理和信息服务的系统,它主要解决广域分布、异构信息源的互连和互操作问题,以满足企业、政府部门等组织信息共享的需求.面对科学研究和商业应用中结构化数据的大量使用,关系数据库已经成为最主要的信息存储机制.那么如何利用现有技术,在网格中更有效地使用数据库,共享更丰富的资源,提供更便捷的检索方式就是迫切要解决的问题.本文探讨网格环境下的数据库检索系统设计与实现.
  • 摘要:在世界范围内众多研究机构的推动下,近十年来,生物数据呈指数级增长.迄今,可利用的在线生物数据源已达500多个.如何将它们整合起来,为生物学家搭建方便而高效的查询分析平台,已成为计算机界研究的热点.本文将利用GeneOntolo-gy,将冗余数据的消除与增量更新相结合,使数据仓库具有更好的性能.
  • 摘要:随着数据库技术的广泛应用,关系型数据库中保存了海量的数据,其中包括大量的用户隐私数据,例如住址、年龄、身份证号码、邮件地址、常用的银行卡号等.用户对隐私数据要求越来越多的保护,特别是电子商务的广泛开展使得这方面的需求越来越突出.数据隐私指用户有自主的权力来决定在什么时候,以什么样的方式,提供哪些数据和其他人进行交流.研究者在Hipocratic数据库的研究中提出限制非授权访问是隐私保护中一条非常重要的准则,用户要求能够根据数据的访问者和数据的用途决定是否将数据提供给访问者.目前的解决方案一般是在应用程序层上对非授权访问进行限制,但是这种方法要将隐私数据提取到应用程序层,这个过程容易导致隐私的泄漏,而且效率很低.因此本文设计并实现了数据访问控制中间件对非授权访问进行限制,给出了数据访问控制中间件的模型和工作原理,包括如何定义访问限制策略的数据结构,修改查询语句控制非授权访问;此外,还改进了查询语句修改算法,提高数据筛选效率;最后采用了一系列实验来验证其实际性能.
  • 摘要:本文中提出了一种针对数据库中敏感信息加密的动态密钥管理方法.通过在记录首部中加入时间戳信息,动态且高效地为每个数据项生成不同的密钥,能方便地实现"一次一密".在此基础上,提出了灵活而便于管理的密钥组织与存储的方式,以及方便有序的密钥更新机制.事实上,这一加密及密钥管理方法已经在我们实验室的一些项目中得到使用.实践证明这是一种高效的,能提升数据库安全性的密钥管理好方法.
  • 摘要:随着Internet特别是数据网格的推广和普及,网上的信息迅猛增加,成了一个巨大的信息库.而提供信息的数据源来自不同的提供者,各个数据源的数据模型、数据结构、内容表示、查询语言以及所使用的概念、词汇都会有很大不同,如何快速、准确地找到自己需要的信息已成为人们日益关心的问题.在Internet这样海量的数据环境下,如何实现数据集成,是一个非常具有挑战性的问题.本文提出了一种利用本体作为全局模式集成XML数据源的方法.我们利用本体所提供的丰富的语义表达能力,结合XML灵活强大的数据描述能力,为数据网格提供了一种有效的数据集成方式.
  • 摘要:数据网格通过将Internet上存在着大量分散的、独立的、异构的储存系统组织成一个逻辑意义上的整体,为用户提供高效的、高可靠的、可扩展的、海量的存储资源.和P2P存储系统如eDonkey、eMule相比,数据网格加强了对存储网络中数据的管理,使之能为用户提供文件系统、Mail服务器等一些复杂的应用服务,本文探讨数据网格中的动态分布式多入口技术.
  • 摘要:近年来,数据挖掘技术逐渐成为了计算机应用领域中的最为活跃的研究热点之一.与此同时,随着企业的市场竞争的日趋激烈和业务环境的不断变化,企业数据中的时间信息的管理问题成了人们普遍关注的重点之一.时态信息处理已成为新一代数据库与信息系统中的关键技术,在电子商务、数据仓库、数据挖掘、决策支持系统等应用中扮演着日益重要的角色.时态数据挖掘是数据挖掘研究的一个重要方面,它是从大量带有时间特征的数据中发现隐含的、人们感兴趣的有用信息和模式的过程,本文研究带有效时间区间的模糊时态关联规则的挖掘问题.
  • 摘要:随着大量XML(eXtensibleMarkupLanguage:可扩展标记语言)数据的出现,XML不再单纯地是为了增强应用程序对从Web上获得的文档的解释和操作能力,它已经逐步成为网上数据交换和数据表示的标准,而如何有效地存储和查询这些XML数据成为学术界研究的一个热点,本文提出了一种新的支持更新的编码的方法,本文提出的支持更新的编码方法不仅可以迅速地对XML文档进行编码、快捷地判断结点间的关系,而且解决了已有方法在更新文档时需要重新编码的问题.最后通过实验分析,我们的算法相对于其他算法有良好的时间性能;并且编码的各个码子之间有很强的相关性,因此通过压缩Bi-nary-tree编码进行存储,压缩后的编码也具有良好的空间性能.
  • 摘要:目前很多领域中出现了数据流的应用需求,例如电信网络、连锁的零售业的销售、科学实验、动态产品加工过程以及传感器网络等,它们连续地产生大量的数据,而又要求根据这些数据实时得到想要的结果.这种应用是传统的数据库管理系统所不能很好地解决的,因为传统的数据库管理系统主要针对持久稳定的数据集进行数据管理,这种持续增长的数据流用稳定的数据集来表示显得不再适合.本文探讨基于时标的滑动窗口模型在数据流查询中的应用.
  • 摘要:频繁项目集挖掘是关联规则挖掘应用中的重要研究内容之一.目前,已提出了大量挖掘频繁项目集的算法,比较经典的算法有Apriori算法、FP-Growth算法等,主要从以下几个方面进行改进:(1)减少扫描数据库的次数,降低I/O负载代价,提高算法速度;(2)有效计算项目集的支持数,避免产生组合爆炸;(3)提出新的数据存储结构.在上述诸多算法中,计算项目集的支持数是发现频繁项目集中最耗时的工作,占据整个计算量的大部分工作.因此,不生成候选项目集或降低候选项目集的数量是减少开销的最好的手段.挖掘频繁项目集的缺点是,要考虑太多的候选项目集(大小为1的频繁项目集的21个候选子集都要考虑).由于最大频繁项目集中已经隐含了所有频繁项目集,因此可把频繁项目集挖掘问题转化为最大频繁项目集挖掘问题,本文使用更简单数据结构--频繁模式链表来存储包含最大频繁项目集的信息,并提出了一种新挖掘算法FPL-DMFI.采用了位串(bitstring)技术和位与操作,同时采用了压缩技术来缩小搜索范围,有效地提高了判断是否是最大频繁项目集的效率.该算法能通过并行投影和压缩技术扩展到大数据库中进行最大频繁项目集挖掘.由于FPL-DMFI算法处理长位串时挖掘效率相对不高,作者下一步的工作着重研究这方面的内容,同时研究最大频繁项目集挖掘算法如何应用于电力系统负荷预测模型中.
  • 摘要:随着信息化程度的不断提高,企业数据库中信息量的迅速增大,如何将离散的数据整合起来,并转化为有用的信息为企业的决策提供支持,成为一个迫切的并且有挑战性的问题.传统的联机事务处理(OLTP)系统已不能满足这个需要,数据仓库以及联机分析处理(OLAP)技术应运而生.本文将进一步研究SN并行结构和多用户的环境对PW-Buffer的影响,提出S-N结构下的缓冲管理策略.还将继续深入研究缓冲页面数量对系统性能的影响,并给出量化的关系.
  • 摘要:粗糙集理论是人工智能领域中处理不确定性的有效方法,已经在模式识别、智能信息处理、控制等领域取得了成功的应用.但是,粗糙集中的许多问题复杂度高,如求取所有约简与最小约简是典型的NP问题等.因此,许多研究者提出将粗糙集与人工智能中的许多问题结合起来,实现优劣互补,解决实际应用中的问题.现已有许多成功的应用,如将粗糙集与模糊集、证据理论等有效地结合起来,解决人工智能、模式识别中的问题.本文研究基于函数依赖关系的约简算法.
  • 摘要:模式匹配就是在作为输入的模式中有对应语义关系的元素间产生一个映射.在许多领域中模式匹配都占有举足轻重的地位:在电子商务中,它可以映射不同XML格式之间的信息;在数据仓库中,它可以把数据源映射到仓库模式中.由于很多原因,模式匹配对于我们来说是一个挑战.最重要的,即使是对于同一概念下的模式同样也可能有结构上的区别和命名的区别,它们可能会表示成不同的数据模型,也可能使用相同的单词来表示不同的意义等.通过对iMAP系统模式匹配的思想以及实际应用的研究,根据实际应用中的情况,本文提出一种改进的模式匹配系统构架ComplexMatch,它不仅能大大提高模式匹配的效率,而且能够在一定程度上提高匹配的精确度(提高的程度与域知识中含有类型不匹配约束情况的多少相关).改进的方法增强了模式匹配自动化程度,特别是复杂模式匹配的自动化程度.根据实际情况的统计,这种改进的复杂匹配的方法与iMAP相比,提高了近60%的效率,在提高效率的同时也相应的提高其匹配结果的精确程度,每提高8%的效率,其精确度要提高1.5个百分点.
  • 摘要:P2P技术使网络普通节点无需服务器的支持可以直接交互,为网络普通节点同时以客户和服务器的身份更主动的参与互联网应用提供了一种应用模式,为构造巨大规模的复杂分布式网络应用提供了有力支撑.P2P网络是一种新型的网络应用体系结构,目前被应用到很多领域,如分布式的信息检索、分布式数据库、webcache共享.基于P2P技术的文件共享应用允许普通用户向互联网上的其它用户共享本地硬盘上的文件,已经成为互联网上的主流应用之一.从用户数量上来看,流行的P2P文件共享软件Kazza和Morpheus的用户数以亿级别计算,超过所有网络用户的一半以上,同时在线用户超百万.从带宽消耗来看,许多ISP主干带宽的60%以上被P2P文件共享占用,而且还在持续增长中,本文针对复杂环境下的分布式文件搜索进行研究,发现了节点兴趣相似度衡量的一种新方法,在此基础上提出一种新型分布式文件搜索方法-FriendSearch.
  • 摘要:在数据挖掘、文档分类和多媒体索引等新兴领域所处理的数据集规模巨大且复杂,表现为数据集的元组数目大、属性个数多,以及属性间关系复杂.这使得数据处理变得相当困难.人们除了需要发现数据集中具有代表性的数据和属性,还希望进一步发现属性之间的相关性.目前,已提出了许多用于发现数据集中属性相关性的方法了改善其性能,本文定义了单基相关属性组和多基相关属性组,根据两种属性组的不同性质,可以优化搜索所有属性相关组的过程,同时还设计了一个低内存开销的高效分形维值计算方法.基于以上两点实现了快速属性相关性搜索算法FACE.算法的时间复杂度和空间复杂度都得到了降低.
  • 摘要:Web服务技术出现已经有四年多了,尽管这项技术非常有潜力但是被采用的比率依然不高.影响它发展的原因有许多,其中一个重要的方面就是Web服务质量(QualityofServices,简称QoS).在Web服务体系中,服务登记机制UDDI只基于Web服务的功能性(Functional)方面.类似于:用户需要获得响应时间小于2s,服务价格小于100RMB这样的Web服务,目前的UDDI无法处理,如何提高注册系统的性能,在较短的时间内返回用户较高质量的服务,在反馈信息过程中增加用户的认证过程,避免单一用户对QoS的操控都是将来值得研究的方向.
  • 摘要:1998年2月,W3C推出了可扩展标记语言XML.随着XML成为Web上进行半结构化数据表示和数据交换的标准,XML数据相关技术的研究成为热点.本文首先给出XML多值依赖的一个定义,定义中采用约束限制范围很好地解决了多值依赖的有效性与属性集范围有关的问题.在此基础上,转化为信息表,利用不可分辨关系对信息表细化,并给出多值依赖的判定定理.根据多值依赖的特点,提出发现多值依赖的两点规则,并给出一个新的有效发现最小非平凡多值依赖的算法.该算法依据规则,有效地减少了属性集的候选空间,有较好的效率.在XML文档集中自动发现最小多值依赖关系可广泛应用于XML模式规范化、XML的存储模式设计、查询优化等.
  • 摘要:稀有类分类是当前数据挖掘的研究热点之一.所谓稀有类是指我们关注的目标类在数据集中所占比例非常小(通常远低于10%).许多实际问题,如网络入侵检测、欺诈检测、疾病诊断等都可看作稀有类识别问题.本文考察了如何使用Bagging技术来分类稀有类,提出了Bagging基于eEP的组合分类算法BeEPRC.通过改进的加大稀有类样本抽样比例方法及多分类器投票策略,BeEPRC对稀有类表现出了很好的分类性能.在UCI机器学习库的多个稀有类数据集上的实验结果表明,BeEPRC不仅对稀有类具有较高的查全率和查准率,而且具有很高的分类准确率.从而证实了基于eEP的分类算法是不稳定的,于是可以考虑对基于eEP的分类器应用Boosting技术来提高分类效果;另外对稀有类样本和普通类样本寻找不同的分类方法也是值得深入研究的问题.
  • 摘要:基于中介模式的Web数据集成系统有两种不同的数据库模式,一个是全局的中介模式,另一个是各数据源的局部模式.用户的查询是针对中介模式的,因此必须将用户的查询改写成对数据源模式的查询.局部视图法(LAV)是描述这两种模式之间的关系的主要方法之一.遵循局部视图法,则各数据源模式是通过中介模式来定义的(由此,数据源就是视图).本文考虑基于LAV的查询改写问题(以下简称查询改写),因为LAV更适合于Web上数据源的自治性和动态性.本文考虑对SVB算法中的视图选择的改进.我们应用语义查询优化技术在下面两个方面改进查询改写算法中的相关视图选择:一是通过发现语义上的冲突,使得某些原来SVB算法认为是相关的视图要被剔除,从而避免算法在第二步生成无效的改写式;二是通过改写视图,使得某些原来SVB算法认为是不能判别相关性的(从而认为是不相关的)视图能够被我们所选中,从而避免丢失有效改写式,我们的算法是仍然是可靠的和完全的.
  • 摘要:在当今科技和信息紧密联系的时代,各研究机构需要彼此共享信息,以促进研究成果的推广,例如医疗机构可以发布医疗记录,用于流行病发展趋势方面的研究等.但是发布数据时会涉及个人隐私,为了保护隐私信息,目前通常做法是发布数据时将姓名,身份证号等敏感信息删除,防止隐私泄露.但是这种方法不能完全保护隐私,例如一种获得隐私信息的途径是将发布数据和外部其他数据源获得的数据进行链接处理,获得可以推演敏感信息的渠道,从而造成隐私泄露.图1给出此类隐私泄露的实例.表T1记录某州某年的医疗记录,需要将这些信息发布给用户(例如病理学家)使用,同时必须包含患者的隐私信息,即为保护隐私将患者的姓名、身份证号等标识符信息删除.本文提出特征类的概念,然后引入一种基于特征类的高效的K-匿名化方法Classfly算法,通过采用在概括过程中处理量小于K的特征类的方法来达到提高数据精度和减少执行时间的目的.大量实验结果显示,Classfly在提高K-匿名化系统的精度和效率方面有着良好表现.目前,Classfly方法还比较简单,能够满足较小的数据库集,当数据量很大时,需要进一步完善Classfly算法,优化其处理数据和概括数据方面的工作,使其达到K-匿名的同时,具有更高的效率.
  • 摘要:战争的胜负影响到人的生死和国家的存亡,正如孙子论断:"兵者,国之大事,死生之地,存亡之道,不可不察也".制约战争胜负的因素历来是政治家、军事家、历史学家关注热点.目前对影响战争因素的研究大多停留在传统工具,因此在传统理论分析基础上利用数据挖掘技术从军史资料中挖掘战争规律是一件有意义的工作.本文只是针对初期对军事数据的挖掘,将来可将数据挖掘应用到军事信息挖掘中去,从战争进行时的海量数据提取出有用数据,对指战员决策进行支持,或对我国周边各国家军事实力进行对比,得到一些建设性意见.同时,该挖掘方法电可以应用到其它模糊数据挖掘中去,如文史挖掘,问卷调查等.
  • 摘要:随着Internet及其应用技术的快速发展,万维网上数据得到了迅猛增长和发展,而如何从中挖掘出有价值的信息已经成为Web研究的一个重要问题.Web使用挖掘,即应用数据挖掘技术去挖掘Web数据中的有用信息.本文提出了一个新的自顶向下的Web访问模式挖掘算法,它基于WAP树结构,采用自顶向下的搜索策略访问WAP树.对于各种实际和模拟的数据集上进行测试,结果表明此算法比WAP-mine有更好的性能.
  • 摘要:软件复用可以大大提高软件生产的效率和质量,是解决软件危机的重要途径之一.实现软件复用,需要具备两个条件:第一,存在大量的可复用软件构件(如COM/DCOM,JavaBean或COR-BA);第二,拥有高效率的软件构件查询技术.为支持软件复用的实践,传统的思路是设计一个中心服务器作为构件库,提供对软件构件的描述、分类、存储和检索等功能.复用者通过向中心构件库发送查询请求来获取所需的构件.过去几年,学术界对此类中心构件库进行了大量的研究,也取得显著的成果.目前,应用较为广泛的中心构件库如ALOAF(AssetLibraryOpenArchitectureFramework),REBOOT(ReuseBasedonObjectOrientedTech-niques)LibrarySystem,Agora,北大青鸟构件库等.但是,随着软件复用的不断深入,这种基于客户端/服务器模式的中心构件库越来越无法满足用户的需求,这是因为服务器的存储容量有限,所存储的构件数量必然受到限制;而且,当服务器负载过大时,构件查询的效率必然大大降低.本文设计和实现了一个基于DHT对等网络的软件构件共享系统.该系统不仅具有无限量的构件存储空间,构件数量规模理论上等于网络中各节点所拥有的构件总和,而且利用索引技术来获得高效的构件查询效率,从而能够很好地克服中心构件库的弊端.本文的研究成果填补了P2P网络技术在构件库研究领域中应用的空白,可为下一步开发真正意义上的基于P2P网络的分布式构件库系统提供了全新的、有益的思路和探索.
  • 摘要:近几年来,数据流的应用(DataStreamAppli-cation)变得越来越广泛.在数据流的应用中,传统的数据与查询模型已经不再适用.在传统的数据库应用中,数据是持久稳固的.通常,数据库中包含的是无序的静态数据集,这些数据的插入与删除操作相对于查询的插入与删除是很少的.用户可以随时加入查询来得到关心的结果.但在数据流中,数据是连续不断的、无界的、并且速度可能是变化的、以一种序列(流式)的形式在线到达的.一些典型的数据流应用如:传感器数据处理、在线拍卖、网络监控、入侵检测控制、电话呼叫记录以及股市信息分析等等.本文介绍了一种在滑动窗口上建立索引的方法,从而提高连接查询处理的效率.对滑动窗口进行划分,并在上面采用了红黑树建立索引,使得能够支持范围查询.由于是把元组的连接属性值作为索引的节点键值,相同的值会加入到一个节点上,因此当元组的连接属性值重复越多时索引会越显出优势.另外,本文中讨论都是以两个流的连接为例,如何将索引的方法扩展到多流连接和异步流连接是将来的工作.
  • 摘要:当计算机信息系统在遭受诸如火灾、水灾等自然灾难或人为破坏时,计算机系统的硬件、数据、系统和服务都会受到不同程度的破坏.当灾难发生在通信、金融或军事系统,如果不能够及时应付灾难,恢复系统功能,将造成不可估计的损失.灾备(DisasterRecovery)系统,简称DR系统,也称为灾难恢复系统,就是通过特定的容灾机制,能够在各种灾难损害发生后,仍然能够最大限度地保障提供正常应用服务的计算机信息系统.灾备系统的负载均衡算法设计与系统的体系结构和应用需求紧密相关,仅就灾备系统而言,根据对灾难恢复时间的要求不同,灾备系统就有七种灾备设计方案.因此研究灾备系统的体系结构,紧密结合应用需求,设计有效的负载均衡和容灾算法,将是今后研究的任务.
  • 摘要:在RBAC领域中,关于RBAC的定义及模型可以参考Sandhu的RBAC96模型和美国NIST的RBAC标准报告.RBAC模型广泛应用于当前的数据库系统存取控制,以提供相对于DAC和MAC较好的安全和管理功能.但现有RBAC都是粗粒度的控制,只能解决表级或列级的查询控制需求,而无法提供细粒度的控制.
  • 摘要:XML的出现给数据库领域带来了很多新的问题,因为XML自身具有强大的功能,将有用信息以XML文档形式发布到Internet上变得至关重要,所以XML数据的发布技术就成为研究的热点.目前已经有了比较完善的发布技术.但是对已发布的XML视图进行后期的变化更新和维护时,多是采用人为的手工操作,即当源模式发生变化时,由相关人员将变化找出,然后决定如何进行相应的变化.很明显,这种方法是费时费力的.本文介绍 一种改进的SF模式匹配算法.
  • 摘要:RBAC的概念在20世纪70年代就已经提出,但是在此后的二十年中没有引起人们足够的重视.直到1996年R.S.Sandhu等人正式提出了RBAC96参考模型,这个模型由RBAC0,RBAC1,RBAC2和RBAC3四个子模型构成,RBAC0是最基本的模型,包括角色的授权(permis-sion)分配和用户的角色分配.RBAC1在RBACO的基础上增加了角色的层次(RoleHierarchy)概念,RBAC2在RBACO的基础上增加了约束(con-straints)的概念.本文介绍一种扩展的RBAC模型及其实现机制.
  • 摘要:实化视图是数据仓库(DataWarehouse,DW)中存储的主要信息实体,它将各分布式数据源的数据实体化.在一个典型的数据仓库系统中,数据源是由不同的信息提供者拥有,并且功能独立于其他数据源.一旦数据源产生更新,DW必须通过视图维护重新演算算法来确保视图有效地进行相应的维护,以保证两者之间数据的一致性.已有的算法如延迟视图维护方法,自维护方法,以及基于增量维护思想的渴求补偿算法、Strobe算法和C-Strobe算法、在线纠错算法、MDVM和PM-DVM等都采用类似斯坦福大学的WHIPS模型为研究平台,是典型的C/S结构.基于这种结构的视图维护模型对于DW计算能力范围之内的顺序更新有较好的响应性能.但由于数据源具有自主性,不能对更新的数目及顺序作任何强制要求.因此这种模型以及基于这种模型之上的维护算法具有其固有的局限性,即并行处理能力十分弱,甚至无法并行处理,在产生大量更新的情形下会导致维护处理出现阻塞,影响数据仓库数据的一致性以及数据质量,本文简要地介绍了现有的视图维护方法和模型方面的现状及其局限性,并提出了基于P2P的主动视图维护模型,该模型充分发掘P2P技术的潜在优势,克服了传统视图维护方法中DW端和DS端负载失衡及可伸缩瓶颈等问题.还介绍了P2PAVM的整体构架与节点的体系结构;阐述了P2PAVM实现的关键技术;并从总执行时间上对P2PAVM进行了性能分析,结果表明P2PAVM在并发处理方面具有优良特性.基于P2P的视图维护是一个新的研究课题,我们将在今后深入研究节点对维护查询的分解、系统的容错机制及安全等问题.
  • 摘要:在移动对象的管理中,移动对象轨迹的预测是一个非常重要的研究方向.传统的移动对象预测运动轨迹一般都采用两种方法,一种是面向移动对象自身具有计算功能,能够随时更新自身运动模型的系统,在移动对象的运动模型发生改变的时候,把更新的模型传送给server端,保持server对移动对象运动轨迹的同步更新,根据最新的运动模型预测未来的轨迹.另外一种方法是移动对象自身没有计算能力,移动对象传送给server的是位置信息,server存储位置信息,利用数据库信息描绘运动模型,然后进行预测.这两种方法都有一定的局限性,对于自身没有计算能力的移动对象,第一种方法无法使用.第二种方法需要存储大量的数据,而且每次在回答用户查询的时候都需要从硬盘读取历史数据,当并发查询较多的时候,系统的负担将是非常大的,效率不高.本文出发点在于解决client端无自计算功能的移动对象管理系统,用户并发查询较多情况下的效率问题,通过在server端使用滑动窗口的技术,避免频繁的I/O,又可以保证轨迹预测的准确性.
  • 摘要:在现代政府办公或企业管理中普遍使用电子信息技术来实现业务流程自动化,这些场合需要详细描述业务流程并严格按照业务逻辑执行各项任务.工作流技术具有精确描述、优化流程、分离业务逻辑和任务、集成异种应用等方面的优势,因此,工作流管理系统(WFMS)在政府、金融、医药、物流等领域得到了广泛应用.之前实现的一种集中式的工作流管理系统已经应用到某金融部门,本文介绍的方法为原有系统提供了一种完善、升级的方向.目前,我们正在以J2EE平台实现系统原型.
  • 摘要:XML已成为Web上数据表示和数据交换的标准.但由于关系数据库管理系统所提供的稳定性和成熟的技术,目前大量的商用数据仍然存储在关系库中.因此将关系数据发布成XML成为数据库领域的重要的研究方向.由于不同用户对生成的映射关系有各种不同的偏好,因此如何将用户的多种偏好量化,使生成的映射关系更贴近用户是需要继续研究的方向.
  • 摘要:随着视频技术的发展,视频数据的创建、存储和发布更加方便,越来越多的领域以视频为形式存储数据并向用户提供服务.当视频数据的数据量大量增加时,无论是为了有效管理还是提供服务,都需要视频数据库.而要实现视频数据库,首先需要一个具有足够表达能力、可扩展的数据模型及相关的查询机制.
  • 摘要:在过去的几十年中,人们在建立符合特定应用需求的细粒度存取控制方法方面作了大量的尝试并取得了很大的成功.也正是由于这些存取控制是面向特定的应用,因而不易在DBMS层实现,只能把安全策略作为应用代码的一部分来实现,而在DBMS层的细粒度存取控制功能被弱化甚至放弃.但是应用层的安全策略,特别是在Inter-net应用环境下,容易被篡改和绕过;而且在应用层,这部分代码自身的安全性也难以得到保证,可能被开发者设置陷阱;另外,对于同类的应用,必须重复开发这部分代码而造成不必要的资源浪费.于是,学术界和产业界开始关注DBMS层的细粒度存取控制(Fine-GrainedAccessControl,FGA-C).本文研究基于查询分解策略的细粒度存取控制模型.
  • 摘要:作为网络环境下的数据交换格式,XML近年来得到了广泛的应用.在许多项目中,XML数据被用作关系数据的半结构化视图.当使用XML表示由关系数据库管理、存储的数据时,为了保持数据完整性方面的语义,要求XML支持关键字(key)与外部关键字(foreignkey).目前关于XML关键字与外部关键字的建议规范有多个.各种XML模式定义语言,比如DTD,XMLData和XMLSche-ma,都支持声明关键字或者类似的对应物.由于半结构化数据迄今为止没有公认的严格的数学模型,与诸多建议的声明规范相比,对XML关键字的抽象研究很少,本文提出的结构特征关键字的XML模式符合XNF.如何将有效关键字对XML模式设计的要求与XML模式设计的规范化相结合,是有待深入研究的问题.
  • 摘要:30多年来,数据库技术发展迅速且得到了广泛应用.一方面,数据建模形式多样,从层次数据库、网状数据库、关系数据库、对象数据库,直到关系对象数据库等等;另一方面,数据规模也越来越大.传统数据库技术的一个共同点是:数据存储在介质中,可以多次利用;但是在20世纪末,一种新型应用对它提出了有力的挑战.这种名为数据流(datastream)的应用模型广泛出现在众多领域,数据流不同于存储在磁盘上的关系数据,而是以流的形式快速、无限、连续、实时地出现.典型的数据流包括无线传感器网络应用环境中由传感器传回的各种监测数据、股票交易所的股票价格信息数据、网络监测系统与道路交通监测系统的监测数据、电信部门的通话记录数据,以及网站的日志信息等.能够处理数据流的系统环境统称为数据流系统.数据流可以被看作是一个允许元素重复出现的无限集合,集合中每个元素具有形式,其中s是数据流的一个数据项(可能是一个元组),t为标识s的时间戳,t的取值可由s进入数据流系统的时间或者数据源产生s的时间确定.由于内存资源有限,数据流无限,有界的内存空间无法存储数据流中的全部数据,因此,数据流系统通过在内存中开辟滑动窗口(slidingwindow)来保存最近一段时间内到达的数据流数据,实时地支持查询请求.与传统数据库系统的查询不同,数据流系统的多数查询在系统中长期处于执行状态.随着数据流源源不断地进入数据流系统,这些查询不断地接收新数据,进行查询处理,产生新的查询结果.本文通过其导出的LTO查询有界内存是否可计算的方法来判定一个SPJ查询有界内存是否可计算.给出了LTO查询有界内存是否可计算的判定定理.最后给出了相关的判定算法.下一步的工作是在此基础上找出更一般的查询有界内存是否可计算与一个有界内存可计算的SPJ查询需要的内存模型.
  • 摘要:许多嵌入式实时应用,如计算机辅助制造、过程控制、网络管理、电信服务、医疗检测等,要求嵌入式系统能提供每周24小时*7天连续服务能力,系统使用率达到99.999%(年平均停止服务时间不超过5分钟).这就要求应用于该环境的嵌入式实时数据库管理系统具有高度容错能力,否则可能带来灾难性后果或重大经济损失.然而,嵌入式实时系统在使用过程中不可避免会由于一些计划(如硬件维护、软件包括数据库、操作系统、应用程序等的升级等)或意外(如硬件故障、操作系统故障、断电、各种软件的Bugs、人为错误等)原因而导致服务终止.因此,必须采取可靠的容错措施保证系统在出现计划或意外终止时仍能继续提供服务,以提高系统的高可靠性.本文讨论,1嵌入式实时内存数据库复制特征,2主从实时弱一致性准则,3日志驱动主从复制模型,4日志驱动弱一致性主从复制策略,5性能测试.
  • 摘要:随着当今信息量以几何级数的速度增长,人们发现其所需要的信息变得非常困难.如何有效的组织、管理和维护海量信息,并为各种用户提供有效的服务(如信息检索)成为一项重要而迫切的研究课题.本文研究应用多本体进行信息检索,基于多本体的信息检索原型系统,基于多本体的概念放宽,今后的研究方向,主要是改进概念放宽算法,特别是增强放宽过程中与用户的交互,由用户决定放宽哪些概念,在什么样的范围内进行放宽,以提高整个系统的查全率和查准率.
  • 摘要:对等计算(Peer-to-Peer,简称P2P),又称为对等网络,自2000年以来迅速成为计算机研究界和工业界关注的热点.在对等网络系统中,每个对等节点(peer,如用Internet连接起来的PC)都拥有对等的功能与责任,即每个对等节点既可以充当服务器向其他的对等节点提供数据或服务,又可以客户机的角色享用其他对等节点提供的数据或服务;并且,节点之间的交互是直接与对等的.同时,在P2P系统中,任何一个对等节点可以自由地加入和退出该系统,形成一个真正的动态网络环境.本文首先对当前基于P2P环境的信息检索技术所面临的问题进行了深入剖析,针对对等网络的特点,提出了一种了新的体系结构,突破目前同类系统大多只能提供文件共享能力,实现细粒度的、基于内容的数据共享与检索,实施灵活的用户管理机制和高效的路由查询策略,采用基于Web的用户界面,集成桌面搜索和P2P网络搜索两大功能于一体.接着本文就其中的关键技术进行深入阐述,并开发实现了该系统,为P2P环境下的信息发布和检索提供了一个良好的平台.
  • 摘要:随着面向服务的应用(SOA)技术的不断推广,Web服务在电子商务中扮演着越来越重要的角色.目前,已有很多应用集成开发环境都支持Web服务开发、调用及其发现技术,例如,微软的.Net技术、Borland公司JBuilder技术都支持Web服务的嵌入查找,并提供Web服务操作的调用接口.但是这些服务发现技术都只能找到单个Web服务,不能实现对这些服务组合的搜索.另外,还有一些支持服务发现的搜索引擎技术,如woogle,….这些服务搜索引擎也只能返回满足查询要求的单个服务.即使在Web服务集中存在多个服务的组合可以满足用户的需求,这些搜索引擎技术同样也不能发现这些组合.综上所述,为了找到那些满足用户需求的组合Web服务,完全有必要研究出一些Web服务组合快速发现的方法,但直到目前,这一研究工作开展的还很少.本文探讨 基于与或树搜索的快速Web服务组合方法.
  • 摘要:据中国互联网信息中心2005年1月发布的<中国互联网络发展状况统计报告>,用户经常使用的网络服务中搜索引擎占65%.网络信息的迅速膨胀使得搜索引擎越来越重要.同时,由于网络上的信息量十分巨大,没有任何一个搜索引擎能够覆盖整个网络,因此用户常常需要使用多个搜索引擎.元搜索正是针对这种情况提出的,它将用户的查询转发至多个搜索引擎,并将这些搜索引擎返回的结果整理返回给用户,从而省去用户熟悉不同搜索引擎的查询要求和在多个搜索引擎之间切换的麻烦.本文介绍 PinkySearch:基于聚类的元搜索引擎.
  • 摘要:随着我国电子政务的不断发展,电子政务中的信息集成越来越受到人们的重视.信息集成是对异构的信息源进行包装,可以为数据检索提供统一的接口,在用户看来就象访问一个数据源.信息集成中引入本体的概念,利用本体表达的丰富语义和推理机制,提高了信息检索的查准率和查全率,实现了海量信息的有效检索.
  • 摘要:早期的图像数据库系统通过对图像进行人工标注实现图像检索功能.然而,传统人工标注存在着效率较低,语义标注的一致性难以保证等问题,图像语义的自动标注正成为新的研究热点.本文提出了一种新的图像标注方法,它通过采用基于熵最小化的图像特征离散化方法,构造出分层的图像描述文档,并且引入文本信息检索中的向量检索模型实现了图像的自动语义标注.实验证明我们的模型使图像标注的效果得到明显改进.
  • 摘要:数据仓库作为支持OLAP应用的系统,其所面对的数据往往都具有很大的规模.为了有效地提高系统的查询效率,人们提出了实体化视图的技术,即通过数据的冗余存储,对常用的聚集数据进行预计算,利用预计算的结果来响应用户的查询.然而在实际应用中,由于计算时间和存储空间的限制,计算并存储所有CubeLattice结构中的视图是不现实的,因此近年来许多人都致力于寻找最优的视图集实体化以来提升系统的性能.选择语义chunk作为实体化视图的基本粒度单位,主要是考虑语义chun特性能使系统在运行的过程中很好地响应用户所提交的查询请求.本文的创新主要在于:在实体化视图的时候选择了语义chunk作为实体化的基本粒度单位;提出了基于查询响应度的实体化视图动态实现;基于查询预测的实体化视图的选择与淘汰算法.本文在对查询进行预测时还提出了最大匹配串的概念并考虑了用户的查询模式.实验证明该算法能够表现出很好的性能.下一步将对基于语义chunk的实体化视图的增量维护,基于语义chunk的系统查询优化以及利用语义chunk的封闭性在进行聚集计算时最优路径的选择作进一步的研究.
  • 摘要:当前数据库管理系统中沉淀了大量的关系数据,将这些有价值的数据外包出去或与他人分享的需求日趋旺盛.比如,Wal-Mart销售数据需要提供给专门的数据挖掘公司,Intel需要将集成电路的制造参数与合作伙伴共享,加拿大电话公司的用户话费记录分析潜在用户市场.因此,为这些关系数据提供有效的版权保护成为人们关心的问题.
  • 摘要:近年来,许多计算机的新兴应用都用图结构建模.如XML文档、Web访问日志、生物数据库、化合物分子图和图像检索等.数据的积累使数据库的相关研究延伸到了上述领域,图查询就是其中的重要问题之一.本文提出了一种图数据库的索引结构.其中,基于边的主索引EDI指导了图数据库在二级存储上的组织,并且实时对应数据库的更新;基于历史查询模式中频繁模式的辅助索引qEDI提高了查询性能.在未来的工作中,我们将考虑如何更好地使用辅助索引提高查询性能,以及辅助索引的实时更新.
  • 摘要:目前在商用数据库管理系统中,权限控制一般只会到自主访问控制的程度,但是在政府、军事等领域,需要更高级别的访问控制,即使对于很多商业企业而言,也有大量数据是关系企业机密的.多层关系模型是实现达到强制访问控制级别的数据库管理系统的理论基础,在多层关系模型中,为了提高安全性,所有数据都附加了安全级别的信息,根据用户和数据的级别对访问进行控制,为了在操作中避免信息的泄漏,多层安全数据库中的操作比传统的数据库操作更为复杂,从而带来了系统性能的下降.因此如何提高安全数据库的查询性能是安全数据库开发的重要内容.本文中,以Sandhu模型为多层安全数据库的基础,考虑到其上的数据库操作需要,提出了一种新的索引方法.分别讨论了在主键和非键属性上建立索引的情况下,索引的建立方法,并且分析了与索引相关的问题--元组在存储块里的排序方式.在未来的工作里,我们仍要朝着更加有效地提高多层安全数据库的性能的方向努力.
  • 摘要:分布式环境下的数据挖掘算法研究取得了很大的进展,但现有的算法本质上是将分布在各站点上的局部数据库看作是单个数据库的水平划分,且不考虑分布在各站点上的数据库存在数据特征分布不一致情况,利用现有分布挖掘算法有时会挖掘出很多无用的规则且很多有用的规则不能获得,这使得进行分布式环境下的预处理研究工作具有十分重要的意义.本文提出基于最大频繁项目集的隐私保持数据库相似性度量方法,该方法采用"CommodityServer"模型,并用"ComputationServer"(安全计算服务站点)隐藏中间计算结果,以此改进双方计算模型,有效地保护用户的隐私数据,为安全进行数据库相似性度量提供了有效的框架.在实际应用中,该模型为分布多库环境下隐私保持数据挖掘的数据准备提供有效的框架,因而具有重要的使用价值.
  • 摘要:近年来,手机的功能日益强大,在手机平台上已经出现多种应用.除了简单地对电话簿,备忘录等资源进行管理之外,还包括各种数据交换,如手机信息在个人电脑上的备份、下载、恢复等.另外,在通信服务提供商的支持下,可以开发以手机作为终端的网络应用,例如将手机作为游戏终端或地图查询以及各种LBS应用的终端设备.目前个人信息管理和移动商务的发展也使得手机上的应用更加丰富.本文介绍手机数据库PhoneDB的存储和恢复技术.
  • 摘要:粗糙集(RoughSet,RS)理论是波兰数学家Z.Pawlak在1982年提出的一种分析数据的数学理论,是一种新的处理模糊和不确定性知识的数学工具.它已经成功地应用于诸如机器学习、数据挖掘、智能数据分析以及控制算法等领域.人们对粗糙集的研究主要是在求属性集合的"核"和"约简"的问题上.针对动态变化的数据库JanG.Bazan等人提出了动态约简的思想,针对有序信息表的概念,Yao.Y.Y.等人提出了有序信息表中的约简思想.而对于一般的信息表,人们通常采用分辨矩阵的方法求出决策表的核和约简,这种方法对于数据量比较少的决策表而言是高效可行的,但对于数据量较多的决策表,计算其分辨矩阵所消耗的时间也多,占有的存储空间也大,从而在此系统上进行挖掘所消耗的时间相当惊人,而且得出的结果往往是约简的超集.所以对信息系统的约简求解最小子集成为了粗糙集理论研究中的一个基本问题.在许多情况下,关系数据库系统中的关系可以通过数据预处理很容易地转化为一个决策表,而且其中的决策属性一般也可以根据实际问题来确定.因此本文提出了一个不需要构造分辨矩阵,不用先计算条件属性的核,而是直接从决策表中计算属性的约简得到约简表的算法,它比用构造分辨矩阵的方法所付出的代价要小.本文提出了一个基于粗糙集理论实现分类挖掘的完整计算步骤,并通过一个实例证明了算法的可行性.此外,随着数据的不断更新,属性的动态增长,记录数的增大,计算的时间复杂度会大大增加,这是需要我们深入研究的课题.
  • 摘要:随着网络和数据库技术的不断发展,以及各类数据的飞速膨胀,大规模的分布式数据库系统逐渐被广泛应用.海量的数据被分散存储在地理位置不相同的局部数据库中,数据拥有者们通过对数据的共享,来进行数据挖掘和分析,从而实现对其的利用.然而,在一些商业、医疗保险等领域,其各个局部站点出于商业、道德等方面的考虑,不希望自己的私有信息被其他站点、或是外部用户所了解.在这种大规模的分布式环境中,如何能够在不泄漏局部隐私数据的前提下进行数据共享,最终挖掘出有用的信息,成为当今数据挖掘研究中一个非常关键的问题.
  • 摘要:作为信息交换和发布的标准数据格式,近年来XML已经得到了广泛应用.如RSS(RDFSiteSummary)技术,它是一种以XML为标准进行站点之间共享内容的简易方式,涉及的应用包括blog最新内容收集和新闻信息集成,将来还可能涉及到新闻搜索、求职信息注册等.对于一个持有大规模RSS文档的数据源,随着用户查询数量的不断增加,其信息检索和发布将成为一大负担.而RSS数据的结构简单,包含大量的文字描述,这样以文本(text)为主的XML数据,经压缩后会获得较高的压缩率.针对以上类似应用场景,本文通过利用用户机器中继(relay)数据来减轻数据源负担;对发布的信息进行压缩来节约网络带宽.
  • 摘要:关联规则具有多种类型,其中包括数值型关联规则,其基本思想是将数值型属性进行离散化,从而将问题转换为类别型关联规则挖掘问题.但是数值型属性离散化存在着锐利边界值问题,即在挖掘过程中,区间的边界值要么过分强调,要么被忽略.因此,人们将模糊集理论]引入到数值型关联规则挖掘中,提出了一些模糊关联规则的挖掘算法,例如:在文中,利用模糊集理论挖掘数值型关联规则算法FARM;在文中,考虑到人们对不同项目的感兴趣程度不同,以及不同项目对数据库的影响程度不同,在此基础上又提出了加权支持度和加权置信度的加权模糊关联规则挖掘算法FWAL.这些算法较好地解决了锐利边界值问题,但算法需要领域专家预先给出相关模糊集及其隶属度函数,以便将数值型属性模糊化.这在很多应用领域是不现实的.为此,本文提出一种基于聚类的构造模糊集及相应隶属度函数的算法GFAM,并在此基础上提出模糊关联规则挖掘算法AMFAR.对于数据库中每一个数值型属性的数据,用DBSCAN[7]聚类算法进行聚类,根据聚类结果构造该数值型属性的模糊集,并为该模糊集定义相应的隶属度函数,隶属度函数的值域为[0,1].
  • 摘要:未来的数字图书馆应用系统应该具备这样的能力:即时响应用户经常变化的需求,提供灵活多变的信息服务.对于现有的基于应用程序架构的应用系统来说,即使只是业务流程中的微小变化,都将可能导致系统不可预测的大量的代码修改,有时该业务变化在原有的架构上甚至是不可实现的.不仅如此,需求的变化还将加剧软件修改和维护人员的成本.未来的应用程序设计需要一种新的软件架构,这种架构能够有效地填补业务需求与软件实体之间的裂缝;并且,这些软件实体应该是松耦合的,以实现最大限度的复用和组合为目的的,可以进行良好的通信和互操作的组件.这样的架构下,需求变化对底层实现的影响被控制在可以预测的范围之内.面向服务的体系结构(SOA,ServiceOrientedArchitecture)能够满足这种需求,它要求程序设计的指导思想应该从"围绕单个的系统或数据记录设计流程"模式转向"以业务为核心设计服务"模式.本文研究 用SOA与Web服务整合数字图书馆应用系统.
  • 摘要:一些科学家在美国拉特格斯大学开会,思考如何把"次序理论"(关于等级关系的一个数学分支)应用于反恐,在网络空间展开反恐斗争.与此同时,一些专家已开始着手编写特殊计算机程序,借助它搜集情报、分析恐怖组织的内部结构等.目前国内对于此类问题的研究刚刚开始,尚未深人展开.但是恐怖分子往往借助Web网站联络、组织和策划恐怖活动,如何从繁多的Web网页中抽取出与恐怖分子有关的重要信息而不是人工提取录入这些信息,这就为我们未来的工作提出了一个新的课题.本文提出的ASRA算法虽然分类准确性比较高,但是运行时间较长,效率和准确性上仍需改进.
  • 摘要:随着计算机技术的发展,在当今的软硬件技术环境下,客户/服务器模型已不能满足需求,其单点故障和热点问题已经变得越来越不可接受.Peer-to-Peer模型(又称P2P模型或对等计算模型)是一种新型的体系结构模型,具有许多优势有待进一步发掘:首先,P2P系统的每个成员均可贡献数据和计算资源(例如,未用的CPU周期和存储资源),新成员的加入可能引入系统中原来缺乏的特殊数据或资源,因此,随着系统成员增加,系统的丰富性、多样性等各种有益的特性得以扩大;其次,P2P系统具有分散性,因此,系统的健壮性、可用性和性能可能随着peer的数量增加而扩展;另外,通过在许多peer间路由请求和复制内容,系统可以隐藏数据的提供者和消费者的身份,使个人的隐私得到保护.因此P2P被认为是未来重构分布式体系结构的关键技术.P2P在搜索引擎、数据流管理、语义网、协作信息过滤等领域具有广阔的应用前景.本文首先分析P2P上连续查询研究现状,在此基础上,提出一种基于super-peer的连续查询策略,通过相似连续查询的聚簇减少重复操作;利用结构化重叠网络连接super-peer,保证了在有限的跳步内能够找到存在的相似的查询;通过对查询聚簇进行微调,在尽量少地影响查询聚簇的情况下,改善负载平衡.将来我们将对该算法中最优的阈值选择进行进一步的研究.
  • 客服微信

  • 服务号