您现在的位置: 首页> 研究主题> 高维数据

高维数据

高维数据的相关文献在1986年到2022年内共计610篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、数学 等领域,其中期刊论文434篇、会议论文29篇、专利文献1011798篇;相关期刊224种,包括中国卫生统计、计算机工程、计算机工程与设计等; 相关会议28种,包括2016中国计算机辅助设计与图形学会大会、中国卫生统计(生物统计)2014学术年会、浙江省信号处理学会2013学术年会等;高维数据的相关文献由1456位作者贡献,包括夏佳志、钱江波、刘鹏等。

高维数据—发文量

期刊论文>

论文:434 占比:0.04%

会议论文>

论文:29 占比:0.00%

专利文献>

论文:1011798 占比:99.95%

总计:1012261篇

高维数据—发文趋势图

高维数据

-研究学者

  • 夏佳志
  • 钱江波
  • 刘鹏
  • 余志文
  • 王建新
  • 王彤
  • 奎晓燕
  • 姜斌
  • 孙瑶
  • 李强
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 赵欣灿; 朱云; 毛伊敏
    • 摘要: 传统的数据挖掘算法在面向大规模高维数据的挖掘过程中,存在数据特征捕捉准确率低、节点负载不均衡、数据交互频繁、频繁项集紧凑化程度低等问题。提出基于MapReduce的并行挖掘算法PARDG-MR,结合高维数据特征,设计基于维度粒化算法和负载均衡算法的DGPL策略,并对数据进行预处理,以解决高维复杂数据特征属性捕捉困难及数据划分中节点负载不均衡的问题。通过构建基于PJPFP-Tree树的频繁项集并行挖掘策略PARM,实现频繁项集的并行化分组过程,从而提高数据处理的运行效率。在此基础上,提出基于剪枝前缀推论的整合节点剪枝算法PJPFP,提高频繁项集挖掘过程中的剪枝效率,增强频繁项集的紧凑化程度。在Webdocs、NDC、Gisette 3个数据集上的实验结果表明,相比PFP-growth、PWARM、MRPrePost算法,该算法的运行时间平均缩短了约20%,能够有效提高数据挖掘效率且降低内存空间。
    • 邓廷权; 辛丽颖
    • 摘要: 针对启发式特征选择和特征聚类驱动特征选择方法的不足,研究了决策依赖的特征冗余性问题,提出了一种基于邻域粗糙集的决策依赖特征聚类的高维数据特征选择方法(RDCFS).首先,依据邻域粗糙集模型,设计了一种特征联合依赖度增益度量,刻画数据特征在分类和辨识层面上的冗余性和关联性.其次,构建了一种最优特征簇结构的评估准则和特征冗余图的最优图割划分.再次,给出了一种基于簇信息的特征中心度和特征依存度度量,指导实现高维数据的特征选择.在UCI数据库中选取8组真实数据集作对比实验,实验结果表明本文所提特征选择方法能够获得更紧凑的特征子集,且在分类性能上优于多种现有最新方法.
    • 郇钫策; 江驹; 余朝军; 徐海燕
    • 摘要: 汽油辛烷值不仅影响汽油的经济效益,也关乎汽车尾气排放量,因此精确预测成品汽油的辛烷值对国民经济发展和环境保护都有着重要意义。为从高维的工业汽油数据集中准确预测出辛烷值含量,首先提出了一种互信息法回归(Mutual information regression,MIR)-递归嵌入式特征选择(Embedded feature selection,EFS)融合降维算法对数据特征进行评分,筛选出30个特征作为建模的主要变量;然后基于优化后的自适应集成学习随机森林算法建立了辛烷值预测模型;最后基于多种互补判别准则,与现有方法进行了充分仿真计算对比。结果显示,改进的MIR-EFS融合降维算法将数据维度减少了89.65%,训练时间减少了81.43%,预测数据的均方误差(MSE)、均方根误差(RMSE)、最小误差(Min Error)和回归平方和(ESS)分别为0.017、0.13、0.023和0.28。与现有方法相比,MIR-EFS融合降维算法的复杂度性能与计算结果更优,这表明改进的MIR-EFS融合降维算法能够准确地获取成品汽油中辛烷值的含量,为汽油辛烷值预测提供可参考的算法支持。
    • 李凯; 张可心
    • 摘要: 利用信息熵或模糊熵确定子空间聚类中每个簇的不同特征,较好地解决了高维数据的子空间聚类.为了进一步提高聚类算法的性能,将权向量的负结构α-熵引入到高斯混合模型中,获得了结构α-熵的加权高斯混合的子空间聚类模型,提出了结构α-熵的加权高斯混合模型的子空间聚类算法SEWMM(Structuralα-Entropy Weighting Mixture Model),该算法不仅可以发现高维数据空间中位于不同子空间的簇,而且能够获得子空间中具有不同形状体积的簇.同时,进一步分析了算法的收敛性与时间复杂性.通过选取UCI(University of California,Irvine)标准数据集及图像数据集,对提出的算法SEWMM进行了实验,并与一些典型的聚类算法进行了比较,表明了提出的算法在总体性能上具有一定的提升.
    • 朱徐亚
    • 摘要: 为了解决维度灾难所引起的隐私保护数据发布计算复杂度高、可用性低的问题,提出基于差分隐私采样机制和贝叶斯网络的DPSM-Bayes算法。利用贝叶斯网络模型,将高维联合概率分布转化为多个低维边缘概率分布,结合差分隐私采样机制和更适合高维概率分布加噪的IMLaplace机制,生成可用性更高的高维合成数据集。实验结果证明,在提供相同差分隐私保护的前提下,DPSM-Bayes算法能够有效地处理高维数据集的发布问题,与现有的方法相比发布的数据集具有更高的质量和可用性。
    • 冯利民; 刘波
    • 摘要: 为降低串口通信中故障数据对传输效率的影响,提出基于SOM聚类的故障数据挖掘算法。利用故障数据多为高维模式的特点,将高维原始数据根据距离与颜色属性映射在低维空间内。在低维空间中根据变量关系将数据分为高端越限数据点、低端越限数据点以及双边越限数据点,建立SOM聚类特征分布图,在同等范围内对不同类型数据点划分等级并实施特征离散化。凭借二分图故障挖掘模型模拟多个定向数据源,在每个数据源附近内设定关联规则,通过关联规则查找与数据源存在关联因子的数据点,根据对比阈值判定是否为故障数据。仿真结果证明,所提方法故障挖掘准确率高、耗费时间短,算法具有很好的适用性及使用价值。
    • 夏亚峰; 何佳
    • 摘要: 利用对数似然函数和自适应桥惩罚估计方法研究了高维数据下广义线性模型的参数估计和变量选择问题,利用对数似然函数和自适应桥方法构造惩罚估计目标函数,在适当的正则条件下,证明了自适应桥估计量的相合性和Oracle性质,通过数值模拟和实例分析验证了所提方法的有限样本性质及其优良性。
    • 吴炜明; 王延新
    • 摘要: 大数据背景下,基于罚函数的正则化方法是高维数据变量选择的重要方法.Lasso估计是常用的变量选择方法,而Lasso正则化参数的取值直接影响选择模型的性能,是正则化方法成败的关键.针对Lasso估计,提出一种新的L曲线(LC)准则选择正则化参数.数值模拟和实际应用表明:相比CV,GCV,BIC等准则,LC准则能够以较高的概率选择真实的模型,并且具有较小的模型误差.
    • 褚福洋; 马文辉; 张文晶; 闫继伟
    • 摘要: 伴随着网络技术的持续发展,新时代的数据多数是非结构化类型的数据信息,其特征向量的维数较高,过多的维数会引发维度灾难,通过引入特征选择的模式对于冗余特征进行检测,数据信息的特征子集能够准确获得,实现降维目标。随后由聚类成员质量以及数据差异入手,总结出适于高维数据信息分层抽样的算法。结果表明,此算法具备良好的聚类优势。此研究对后期数据挖掘领域具有非常重大的实用价值。
    • 颜海波; 邓罡; 姜云卢
    • 摘要: 含异常值的数据和高维数据越来越频繁地出现,对现有的稳健估计和多元线性回归估计方法提出了挑战。传统的多元线性回归模型估计对异常值非常敏感,基于MCD估计方法的多元线性回归估计对异常值有一定的抵御作用。但随着数据维数的增加,MCD估计的精度不断降低,稳健性也随之降低,且当数据维数大于样本量时MCD估计方法失效。因此,本文利用MRCD的均值向量和协方差矩阵估计,提出了基于MRCD估计方法的高维稳健多元线性回归模型估计。数值模拟的结果表明,基于MRCD估计方法的多元线性回归模型估计能很好地抵御异常值,且在数据维数大于样本量的情况下,基于MRCD估计方法的多元线性回归估计更为有效。实证分析的结果表明,基于MRCD方法的多元线性回归估计能更好地抵御异常值并得到更好的预测效果。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号