您现在的位置: 首页> 研究主题> 数据划分

数据划分

数据划分的相关文献在1995年到2022年内共计258篇,主要集中在自动化技术、计算机技术、测绘学、无线电电子学、电信技术 等领域,其中期刊论文153篇、会议论文11篇、专利文献550794篇;相关期刊86种,包括地球信息科学学报、计算机工程、计算机工程与设计等; 相关会议10种,包括第33届中国数据库学术会议(NDBC2016 )、中国计算机学会第一届CCF大数据学术会议、2012地理空间信息处理全国博士生学术论坛等;数据划分的相关文献由684位作者贡献,包括沈婕、窦万峰、袁平鹏等。

数据划分—发文量

期刊论文>

论文:153 占比:0.03%

会议论文>

论文:11 占比:0.00%

专利文献>

论文:550794 占比:99.97%

总计:550958篇

数据划分—发文趋势图

数据划分

-研究学者

  • 沈婕
  • 窦万峰
  • 袁平鹏
  • 金海
  • 姚斌
  • 朱传琪
  • 李飞飞
  • 肖小奎
  • 臧斌宇
  • 于强
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

期刊

    • 雷晨; 毛伊敏
    • 摘要: 针对大数据背景下随机森林算法中存在协方差矩阵规模较大、子空间特征信息覆盖不足和节点通信开销大的问题,提出了基于PCA和子空间分层选择的并行随机森林算法PLA-PRF(PCA and subspace layer sampling on parallel random forest algorithm)。对初始特征集,提出了基于PCA的矩阵分解策略(matrix factorization strategy,MFS),压缩原始特征集,提取主成分特征,解决特征变换过程中协方差矩阵规模较大的问题;基于主成分特征,提出基于误差约束的分层子空间构造算法(error-constrained hierarchical subspace construction algorithm,EHSCA),分层选取信息素特征,构建特征子空间,解决子空间特征信息覆盖不足的问题;在Spark环境下并行化训练决策树的过程中,设计了一种数据复用策略(data reuse strategy,DRS),通过垂直划分RDD数据并结合索引表,实现特征复用,解决了节点通信开销大的问题。实验结果表明PLA-PRF算法分类效果更佳,并行化效率更高。
    • 龙草芳; 肖衡
    • 摘要: 传统方法在加密无线传感网络分布式数据库时,受到网络异构性的影响产生了大量异常数据,导致其存在加/解密速度慢、数据查询复杂度以及解密后数据准确性低的问题。为此,提出一种无线传感网络分布式数据库加密方法。首先通过密度峰值法对数据实施聚类处理,使用机器学习中的支持向量机分类法找出数据库中的异常数据并剔除。然后通过OPES算法对数据库内数据实施转换、桶划分等操作,再通过划分结果建立数据库的加密空间,实现对无线传感网络分布式数据库的加密。仿真分析结果表明:该加密方法提高了无线传感网络分布式数据库中数据查询过程的复杂度和加/解密的速度,且应用该方法可使得解密后数据的准确性达到99.16%。
    • 杨生仁; 孙超; 杜太升
    • 摘要: 物流网络求解最短路径是最常见的一类问题,在小型网络中无需构建模型就能够求解精确解,但在大型网络中,多是构建了模型并进行求解。在求解大型网络的物流配送问题中,精确算法也不再适用,只能通过智能算法求解近似解,在以往的研究中,求解网络最短路径问题很少使用聚类算法,该算法是一种发现数据样本分布特征的算法,以数据间的相似性为根据,将数据划分为不同的类,使不同数据间存在差异性.
    • 蒲强; 陈苗苗; 陶涛; 杜鸿; 龚大刚; 鲜跃荣
    • 摘要: 性状比较的结果数据有助于家蚕优良亲本选择和性状改良工作.人工比较家蚕性状的工作量大,效率低,且易出错.以家蚕茧层率性状比较为例,提出一种基于数据划分的家蚕性状比较方法,把家蚕茧层率数据按比较年季和比较均值分为2类,分别计算性状趋势、性状均值变化率和综合性状均值变化率等成绩,利用线性回归、方差分析等统计方法,比较3个家蚕品种连续10年春蚕期的茧层率.实验结果显示,该方法能够灵活地对任意家蚕品种、任意蚕期数据段比较性状指标,是一种通用的性状比较方法,具有一定的实用性.
    • 豁辉; 苗长伟
    • 摘要: 现代化与科技化的发展背景下,ARCGIS软件的应用打造了更加全面且可自由伸缩的GIS平台,可更加科学地进行数据划分,可在ARCGIS支持下运用使用点的疏密度及符号对数值及图形的变化进行立体化展示,并运用不同的颜色对性质及大小均存在差异的属性数据进行区分,也可用直方图或饼状图进行数据展示,可实现专题数据的图形化。为此,本文从ARCGIS9这一新型GIS软件的阐述入手,对利用ARCGIS编制专题地图的方法展开探讨,并进一步分析了编制过程中应注意的要点问题。
    • 王习特; 朱宗梅; 于雪苹; 白梅
    • 摘要: 离群点检测是数据挖掘领域研究的热点之一,主要目的是识别出数据集中异常但有价值的数据点.随着数据规模不断扩大,使得处理海量数据的效率降低,随即引入分布式算法.目前现有的分布式算法大都用于解决同构分布式的处理环境,但在实际应用中,由于参与分布式计算的处理机配置的差异,现有的分布式离群点检测算法不能很好地适用于异构分布式环境.针对上述问题,本文提出一种面向异构分布式环境的离群点检测算法.首先提出基于网格的动态数据划分方法(Gird-based Dynamic Data Partitioning,GDDP),充分利用各处理机的计算资源,同时根据数据点的空间位置信息进行数据划分,可有效减少网络通信.其次基于GDDP算法,提出了异构分布式环境中并行的离群点检测算法(GDDP-based Outlier Detection Algorithm,GODA).该算法包括2个阶段:在每个处理机本地,按照索引中数据点的顺序进行过滤,通过2次扫描得到离群点候选集;判断候选离群点需要进行网络通信的处理机,使用较低网络开销得出全局离群点.最后,通过大量实验验证了本文提出的GDDP和GODA算法的有效性.
    • 赵翔; 商海川
    • 摘要: Skyline计算是数据管理领域长久以来的一个研究重点和热点.给定一组多维的数据点,Skyline算子从中筛选出在所有维度上都不被其他点支配的数据点;Skyline算子的处理过程称之为Skyline计算.Skyline算子使得用户可以在较小规模的Skyline结果集上选择自己感兴趣的对象,而无须关心那些已经被过滤掉的对象.因此,Skyline计算在多目标决策、数据可视化分析、用户偏好查询等方面应用广泛,典型的应用任务包括但不限于商业营销策略分析,产品能力横向评估等.随着大数据时代的到来,以及分布式网络系统的深入应用和基于云计算平台解决方案的快速发展,各类应用领域数据规模的快速增长已经成为一个关键性技术挑战,面向大规模数据集的并行Skyline算子应运而生,以部分解决大数据给Skyline计算困难;同时,并行Skyline计算的相关研究近年来备受学术界和工业界的广泛关注.由于缺乏关于整个数据集的全局分布信息,并行Skyline计算的高效处理面临着巨大的技术挑战.一般认为,并行Skyline处理的计算框架通常包含三个主要步骤:(1)合理划分给定的大数据集;(2)利用本地计算资源在每个数据分块上分别计算局部Skyline;(3)合并局部Skyline最终形成全局Skyline.其中,针对后两步——计算局部Skyline和合并局部Skyline的现有算法较多,相关研究相对成熟;相较而言,第一步上的相关研究工作则较少,但其效果却直接决定了整体计算的并行化程度,进而能够影响并行计算系统的整体性能.具体地,第一步需要考虑两方面的准则:(1)各个分块上的计算负载是否均衡;(2)如何减小每个分块上局部Skyline的基数.然而,无论采用基于随机划分还是基于网格的方法,现有算法均只能满足上述两个准则之一,不能两全其美.针对该问题,研究探索了如何利用概率模型估计Skyline基数的期望,该概率模型将已有研究的相关结论纳入到了一个统一的框架中.接着,据此提出了一种新的基于排列的数据划分方法,它通过简单的数据点映射即可实现负载均衡,同时生成小于现有其他方法的Skyline候选点集.在理论研究的坚实基础上,在大型人工和真实数据集上实验验证了所提模型和方法的有效性;换言之,在大规模实验研究中,所提方法显著提高了并行Skyline算子的执行效率,在绝大多数参数设定下的表现都优于现有其他同类算法.
    • 杨程; 陆佳民; 冯钧
    • 摘要: 随着知识图谱的日益发展和在各个垂直领域的广泛应用,对于资源描述框架(RDF)数据的高效处理需求日益成为现代大数据管理领域中的新课题.RDF是W3C提出的用于描述知识图谱实体以及实体间关系的数据模型.为了有效地应对大规模RDF数据的存储和查询,很多学者考虑在分布式环境中管理RDF数据.RDF数据的分布式存储所面临的关键问题是数据的划分,而划分的结果很大程度上决定了SPARQL的查询性能.从数据划分的角度,主要围绕两类:基于图结构的RDF数据划分方法和基于语义的RDF数据划分方法展开深入阐述.前者包括多粒度层次划分、模板划分和聚类划分,适用于通用领域查询的语义范畴较为宽泛的场景;后者包括哈希划分、垂直划分和模式划分,更加适用于垂直领域查询的语义范畴相对固定的环境.此外,针对几种典型的划分方法进行对比与分析,为未来RDF数据划分方法的研究提供参考.最后,对未来RDF数据划分方法的发展方向进行了归纳总结.
    • 廖金燕; 洪雪珍; 付贤树
    • 摘要: [目的]研究安吉白茶源产地追溯方法,建立高识别率追溯方法.[方法]对266个来自7大源产地产区安吉白茶和118个来自六大茶叶主产区的非安吉白茶进行近红外光谱检测,预处理方法分别采用SNV和MSC,通过LDA模型识别率比较二者优劣,并通过PCA、K-means聚类和HCA聚类等方法进行模型验证.采用SPSS分析聚类结果与样品地理位置的关系.[结果]MSC预处理效果优于SNV,LDA分析模型识别率可达100%.模型验证显示,经MSC预处理后,PCA方法可在前3个PC下清晰聚类,K-means和HCA聚类方法都可将266个产地内和118个产地外样品成功预测出.SPSS聚类分析显示,7个安吉白茶的聚类结果与样品采集地的地理位置远近存在对应关系.[结论]安吉白茶近红外光谱经MSC预处理,LDA建模可作为安吉白茶源产地追溯方法.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号