您现在的位置:首页>中文会议>第33届中国数据库学术会议(NDBC2016 )

会议信息

  • 会议名称:

    第33届中国数据库学术会议(NDBC2016 )

  • 召开年: 2016
  • 召开地: 深圳
  • 会议文集: 第33届中国数据库学术会议(NDBC2016 )论文集
  • 主办单位: 中国计算机学会
  • 出版时间: 2016-10
  • 排序:
  • 显示:
  • 每页:
全选(0
<1/6>
117条结果
  • 摘要:由于短文本字数少、数据量大导致实际短文本分类过程中面临特征维度高、特征稀疏、分类准确率差的问题.特征扩展为解决上述问题的有效方法,如主题模型、频繁模式挖掘等算法在特征扩展过程中被广泛研究与应用.但因短文本本身对分类效率要求较高,特征扩展方式使短文本分类过程面临更大的效率瓶颈.针对上述问题,综合考虑短文本分类准确率及效率提升,提出Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法,首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充,其次针对分类过程,提出基于距离选择的层叠支持向量机算法,最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率.实验结果显示,采用本文提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均约得到15%的效率提升,其中特征扩展及分类优化准确率提升分别为10%与5%.
    • 作者:,
    • 会议名称:第33届中国数据库学术会议(NDBC2016 )
    • 2016年
    摘要:本文阐述随着大数据云计算的发展,流数据管理越来越被重视,从早期的流数据管理系统(DSMS)发展到现在的分布式流数据管理系统.但这些系统都重点在于系统功能的实现,而对于系统与用户的交互层面较为薄弱.本论文针对流数据管理系统与用户交互层面,选取了stream系统中的持续查询语言CQL(Continues Query Language)中支持监控的查询语句,结合SQL(Struct Query Language)的语法规则做了相应的简化,设计了结构化持续查询语言CSQL,并通过Antlr开发了词法和语法分析工具.另外,论文设计实现了可远程与系统交互的SDK客户端,提供登陆、查询、监控、删除和异步返回结果等功能.
    • 作者:,
    • 会议名称:第33届中国数据库学术会议(NDBC2016 )
    • 2016年
    摘要:病人的电子健康病历(HER)是指导个性化医疗的重要临床数据来源之一.鉴于原始电子健康病历数据异构性、稀疏性等特点,使得直接使用EHRs去指导疾病风险预测变得困难.为此,提出一种基于病人时序画像图的疾病风险预测方法.首先对每位病人的原始电子健康病历数据进行一致性表示,即提出一种时序画像图的表示形式;其次运用改进的Apriori频繁项集挖掘算法,基于病人时序画像图挖掘频繁特征图;根据图的重构原理,每位病人的时序画像图可由时序特征图重新构成,最终获得针对不同病人的重构系数(即特征向量),此外可将医生信任度融入特征向量中,有效用于执行疾病风险预测.通过对两种真实临床场景的实验验证并与传统方法比较,结果显示该疾病风险预测方法可达到更好的预测效果.
    • 作者:,
    • 会议名称:第33届中国数据库学术会议(NDBC2016 )
    • 2016年
    摘要:基于关键词的最优路径查询是一种基于位置服务的查询,能够拓展现有地图服务中的路线查询功能,为智能交通导航、旅游路线推荐等诸多基于位置的服务提供算法支持.与传统最短路径查询问题不同,基于关键词的最优路径需综合考虑路径覆盖的关键词、路径行程代价以及路径流行度三类因素间的组合优化性,为NP-hard问题.针对这类查询,现有算法采用邻边拓展的方式构建路径,虽然能够在适当规模的有向图以及较少个数的查询关键词下实现对最优路径的高效查询,但在路网对应的图规模较大以及查询关键词个数增多的情况下,算法复杂度极高,不适合实时响应性的路径搜索.为降低查询复杂度,提高算法伸缩性,本文提出基于关键词序列的路径生成算法.在查询过程中算法优先考虑空间兴趣点的关键词属性,以路径拓展替代邻边拓展;通过变量转化,将问题求解的复杂度由阶乘级转化为多项式级;结合贪婪策略下的初始剪枝,进一步降低算法复杂度,提升查询效率.通过实际路网数据集下的实验,验证了算法的正确性以及在查询效率与伸缩性上的提升。
    • 作者:,
    • 会议名称:第33届中国数据库学术会议(NDBC2016 )
    • 2016年
    摘要:从序列数据库挖掘高效用序列是数据挖掘的一项重要任务.尽管大量的高效用序列挖掘算法被提出,可是它们展现了太多的高效用序列,使得用户需要继续从中挑选有用的序列.这不仅需要对大量高效用序列的二次开发建立理论基础,而且需要将二次开发的算法融入到现有的高效用序列挖掘算法中,提高算法的效率及有效性.在高效用项集挖掘中,研究人员对高效用项集提出了一种新的代表形式——闭合高效用项集.有了这个概念,高效用项集的数量被大量减少了.同时,闭合高效用项集在现实生活中是有意义的.受“闭合高效用项集”的启发,本文提出了一种新的高效用序列代表形式——闭合高效用序列,并在理论上证明了在对序列数据库的挖掘过程中效用限制与闭合属性的不同连接顺序产生相同的结果集。本文同时提出了一个有效的算法CloHUS挖掘闭合高效用序列。在CloHUS中原始数据集经过两次扫描被转化为效用列表,搜索空间为一棵字典序列树,三个有效的策略被采用修剪搜索空间.在合成效用值的真实数据集上进行了大量的实验,用于评估CloHUS和高效用序列挖掘算法Uspan的性能.实验结果表明在序列数据库中闭合高效用序列的数量远小于高效用序列的数量,CloHUS在运行时间和内存消耗方面均优于Uspan.
  • 摘要:影响最大化问题是在社会网上找一组具有重要影响力的用户,通过激活该组用户,期望被影响到的用户数量达到最大.然而,已有研究工作往往忽视了影响传播最大化和利润最大化的区别,以及被影响的用户总数随着时间的推移逐渐趋于平稳.本文基于用户动作日志,提出了一个基于时间长度的影响力分配模型IVA-T,根据该模型首次提出了时间最优的利润最大化问题(OTPM),并证明了该问题是NP-hard问题.为求解OTPM问题,提出了一个有效的近似算法Profit-Max,并证明了Profit-Max算法的近似比.在多个真实数据集上的实验结果表明:Profit-Max算法能有效并高效求解OTPM问题.
  • 摘要:旋转森林(Rotation Forest,RoF)是一种运用线性分析理论和决策树的集成分类算法,在分类器个数较少的情况下仍取得良好的结果,同时能保证集成分类的准确性.但对于部分基因数据集,存在线性不可分的情况,原始的算法分类效果不佳.提出了一种运用核主成分分析变换的旋转森林算法(KPCA-RoF),选择高斯径向基核函数和主成分分析的方法对基因数据集进行非线性映射和差异性变化,着重于参数的选择问题,再利用决策树算法进行集成学习.实验证明,改进后的算法能很好地解决数据线性不可分的情形,同时也提高了基因数据集上的分类精度.
  • 摘要:针对当前高分辨率遥感数据的高效存储与高速访问迫切需求,采用分布式架构、对象存储和集群技术,结合遥感数据的空间特性,构建基于数据对象的存储组织模型,设计全分布式的存储管理架构;形成逻辑上的全球覆盖,物理上分散存储,全球遥感数据存储视图的一体化,数据高效共享的分布式集群化遥感大数据存储体系.通过使用此架构,可实现遥感数据资源配置的灵活化,业务区域化特征的定制化与个性化,以及管理系统的智能化。
  • 摘要:本文阐述相似性连接技术是实体识别和数据集成的关键技术之一,是挖掘数据中有价值信息的重要手段.随着大数据发展,传统的集中式相似性连接已经无法满足人们对数据处理时效性需求,利用分布式计算提高相似性连接的执行效率.因此,本文深入地研究了基于Spark的分布式相似性连接处理算法.针对仅使用后缀位置信息过滤方法的不足,提出了利用一条记录前缀与另一条记录后缀间共同元素位置信息来进行过滤的分布式相似性连接PSJoin,提高了相似性连接的处理效率,减少相似性连接的执行时间.同时,针对基于权重的相似度连接算法的过滤问题,结合双缀过滤原理,通过一条记录前缀共同元素之后的第一个元素的权重与另一条记录后缀中元素权重大小的关系,提出了基于双缀过滤的分布式权重相似性连接WTPSJoin.为面向大数据的相似性连接计算提供了两种可靠的解决方案.两种算法在多数据源混合数据集上进行测试实验,实验结果表明,本文所提出的算法相对于已有的过滤算法过滤效果好、执行时间少,同时具有良好的加速比.
  • 摘要:针对现存的公共交通路网中的路径搜索未充分考虑用户的兴趣爱好,提出了公共交通网络下关键词覆盖的最优路径搜索问题,并证明了该问题是NP-hard.提出了一种A*算法,用估计的方法提高路径搜索效率,并采用剪枝策略改善算法性能.基于真实数据集,对所提出的算法与剪枝策略进行了性能测试,验证了算法的有效性。
  • 摘要:在大数据和Web2.0应用的推动下,分布式NoSQL数据库在各个领域的应用越来越广泛.随着数据不断存入NoSQL,上层查询的需求也从简单的点查询向复杂的分析扩展.而NoSQL本身缺乏复杂的查询引擎、索引机制导致了查询性能的低效.本文关注于NoSQL中Top-k范围聚合查询的优化.Top-k范围聚合查询在用户输入的范围内进行分组聚合操作,最终返回按照聚合后的值排序之后的前k个元素.在基准方法的基础上,本文提出了一系列的查询优化技术:(1)ad-hoc场景下的NoSQL-aware方法,利用NoSQL的排序特性减少计算层的任务,性能提升40%左右;(2)二级索引,将用于范围的属性值存放在NoSQL的Row-key中避免扫描全部数据;(3)KVIAR-Tree索引,建立NoSQL环境下基于key-value的范围聚合树进行优化.本文将上述方法进行了实现并在模拟数据和真实数据进行了实验验证,实验结果表明,查询的性能获得了不同级别的提升.
  • 摘要:数据挖掘中所获取的数据维数多,常常导致数据存储所需容量大,知识挖掘所需时间长,预测正确率不高等问题,特征选择是解决上述问题的重要方法之一.本文针对现有特征选择算法最佳特征个数难以确定及分类准确率有待进一步提高等问题,提出一种同时考虑相关性和冗余度的多准则赋权排序的算法(mCRC),mCRC结合两种准则同时对特征进行排序,并利用C-SVM对按重要性降序排好的特征采用顺序前向浮动搜索得出最佳特征子集.实验结果表明,mCRC算法与单独基于互信息或类别可分性赋权排序的特征选择方法相比能在更短的时间内获得分类性能更好的最佳特征子集,为快速并高效地对数据集进行挖掘提供了有力保障.
  • 摘要:影响程度分析分为独立影响程度分析和联合影响程度分析.传统的影响程度分析方法难以兼顾二者,并且在分析的过程中受困于影响因素数目过多以及因素之间复共线性的干扰.部分方法甚至难以应对大规模数据集,这些问题无疑阻碍了方法分析准确率的提升以及广泛应用.于是基于此提出了基于张量分解与重建的多因素影响程度分析方法(MAT),消除了影响因素之间的复共线性,全面而准确的分析了单一因素的独立影响程度和多因素的联合影响程度.通过在真实大规模移动通信数据集上的实验,验证了MAT方法的有效性和准确性。
  • 摘要:众核架构协处理器Xeon Phi成为新兴的主流高性能计算平台.对于数据库应用而言,内存分析处理是一种计算密集型负载,其主要的性能取决于大事实表与维表之间的内存外键连接性能.本文关注于一种相对于缓存相关的分区哈希连接算法和缓存不相关的无分区哈希连接算法的缓存友好型外键连接算法,以适应Xeon Phi协处理器较小的LLC和高并发线程的特点.通过挖掘OLAP模式中的代理键特征,基于键值匹配的哈希探测操作可以进一步简化为事实表与维表之间基于主-外键参照完整性约束的代理键参照访问,因此复杂的哈希表和CPU代价较高的哈希探测操作可以简化为通过映射外键值为代理键向量内存偏移地址的方法对代理向量直接访问.基于代理向量参照访问的外键连接算法能够简单并高效地应用于Xeon Phi协处理器平台,通过更多的核心和高并发线程来掩盖内存访问延迟.实验中对传统的哈希连接算法(无分区哈希连接算法和基数分区哈希连接算法)和基于代理向量参照技术的外键连接算法在Xeon E5-2650v310核处理器平台和Xeon Phi5110P60核协处理器平台进行性能测试和比较,实验结果给出了主流的内存外键连接算法在不同数据集和不同平台上全面的性能特征.
    • 作者:,
    • 会议名称:第33届中国数据库学术会议(NDBC2016 )
    • 2016年
    摘要:在分布式集群系统中,数据根据划分算法存储在集群的各个节点中,这为涉及到大量连接操作的复杂查询处理带来了昂贵的网络通信开销.针对该问题,本系统基于XXX模型,结合集中式、分布式数据库系统查询优化策略的优点,提出了最小通信量查询划分算法和多目标查询优化算法.其中最小通信量查询划分算法将复杂查询划分成多个近似parallelizable without communication(PWOC)的子查询,保证每个子查询在通信量较大的情况下不从其他处理节点获取数据.多目标优化算法基于查询划分的结果之上,将并行性和通信代价同时作为驱动目标,以传统多目标加权算法结合贪心策略作为查询优化的评估依据生成查询计划树.最后,系统基于TPC-H基准生成测试数据,将原始算法与优化算法进行了对比实验,结果表明优化算法可以极大提高复杂查询的效率.
    • 作者:,
    • 会议名称:第33届中国数据库学术会议(NDBC2016 )
    • 2016年
    摘要:在物联网时代,大规模感知数据中蕴含着巨大的价值,然而在感知数据的获取和发布过程中不可避免地存在大量缺失值,降低了数据的可用性.为了更好地解决这个问题,需要实时准确地对缺失值进行估计.本文首先给出问题的形式化定义并对相关概念进行系统的研究;然后根据感知数据的时空相关性和多模态相关性,提出在线陀螺形估计(GMVI)框架.GMVI增量地更新充分统计量,通过构建时空数据质量模型判断时空估计顺序,利用最大化时空似然增益来选择或融合候选估计值,并采用回溯更新策略进行增量再估计,从而最大化信息增益;最后提出相应的分块策略来提高算法的稳健性.分别在真实和人工生成的两组数据集上对提出的算法进行了实验评估,实验结果表明与现存的估计方法相比GMVI可以有效提高感知数据中缺失值估计的准确率和效率。
    • 作者:,
    • 会议名称:第33届中国数据库学术会议(NDBC2016 )
    • 2016年
    摘要:公共交通网络下的最优路径搜索问题在实际生活中有重要的应用.特别地,用户的偏好以及偏好的权重对于路径规划和搜索也相当重要.本文提出了公共交通网络下关键词覆盖的最优路径搜索问题,并证明该问题是NP-hard.本文提出了一种A*算法来提高路径搜索效率,并提出了剪枝策略改善算法性能.本文进行实验对所提出算法与暴力算法在时间性能上做了比较,以及比较剪枝策略的时间性能验证了算法的有效性.
    • 作者:,
    • 会议名称:第33届中国数据库学术会议(NDBC2016 )
    • 2016年
    摘要:随着计算机和Internet的快速发展,网络信息呈爆炸增长之势,人们在享受唾手可得的信息的同时也面临着信息过载问题.为从海量信息中筛选出有价值的信息,学者们提出了许多基于网络的迭代排名算法,但现有关于排名算法的研究主要针对不含时网络构建排名算法,而从时间维度展开的相关研究工作较少.本文提出一种新颖的利用网络时间信息的排名算法HTR,该方法在传统排序算法基础上考虑节点的H-index指标衡量节点在不同时间段的重要性.由于考虑了节点活跃性和时间演化过程,相比传统方法时间均衡性更好且对重要节点的识别准确性更高.该算法分别在二个实际网络(Movielens和Amazon)进行测试,发现挖掘出的电影流行度更好,并且在实际的电影排行榜中出现概率更大,表明了算法的高效性.
  • 摘要:针对目前广泛存在的文档与关系型混合数据,提出一个基于分布式数据库中间件的关联数据存储与查询原型系统.该系统首先以分布式数据库中间件为技术手段,集中不同类型数据库,实现文档型与关系型数据的自适应高效存储.进一步设计混合数据查询机制,扩展SQL语句的查询对象.进而,设计扩展的SQL操作符,例如模糊连接,实现文档数据与关系数据不同类型数据的关联查询.上层接口仍沿用用户熟悉的SQL查询语言,而在功能上实现文档数据与关系数据不同类型数据的关联查询.由于具体执行计划推送到节点执行,本文所提系统对不同类型数据的查询进行自适应执行,例如结合MapReduce执行与关系查询优化,是多源异构数据管理解决方案的有效尝试。
  • 摘要:本文阐述动态信息网络是当前复杂网络领域一个极具挑战的新问题,其动态的演化过程具有时序、复杂、多变的特点.结构是网络最基本的特征,也是进行网络建模和分析的基础,研究网络结构的演化过程对全面认识复杂系统的行为倾向具有重要意义.使用“角色”来量化动态网络的结构,得到动态网络的角色模型,应用并改进多类标分类问题的“问题转换”思想,将动态网络的角色预测问题视为多目标回归问题,以历史网络数据作为训练数据构建模型,预测未来时刻网络可能的角色分布情况,提出基于多目标回归思想的动态网络角色预测方法MTR-RP.该方法不仅克服了基于转移矩阵方法忽略时间因素的不足,并且考虑了多个预测目标之间可能存在的依赖关系,实验结果表明,本文提出的MTR-RP方法具有更准确且更稳定的预测效果.

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号