高维数据
高维数据的相关文献在1986年到2022年内共计610篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、数学
等领域,其中期刊论文434篇、会议论文29篇、专利文献1011798篇;相关期刊224种,包括中国卫生统计、计算机工程、计算机工程与设计等;
相关会议28种,包括2016中国计算机辅助设计与图形学会大会、中国卫生统计(生物统计)2014学术年会、浙江省信号处理学会2013学术年会等;高维数据的相关文献由1456位作者贡献,包括夏佳志、钱江波、刘鹏等。
高维数据—发文量
专利文献>
论文:1011798篇
占比:99.95%
总计:1012261篇
高维数据
-研究学者
- 夏佳志
- 钱江波
- 刘鹏
- 余志文
- 王建新
- 王彤
- 奎晓燕
- 姜斌
- 孙瑶
- 李强
- 王丽娟
- 王士同
- 陈谊
- 陈黎飞
- 任艳多
- 刘艺
- 张兴
- 潘景昌
- 王建民
- 胡伟
- 董一鸿
- 衣振萍
- 郝志峰
- 魏昕
- 龙明盛
- 不公告发明人
- 于鲲
- 付聪
- 何震瀛
- 刘斌
- 刘沛
- 印鉴
- 史伟
- 叶奋进
- 叶宾
- 吕天阳
- 吴清
- 吴迪
- 唐世渭
- 姜青山
- 廖松博
- 廖胜辉
- 张兵
- 张梦录
- 李俊丽
- 李利伟
- 李泽安
- 杨冬青
- 杨明
- 杨静
-
-
赵欣灿;
朱云;
毛伊敏
-
-
摘要:
传统的数据挖掘算法在面向大规模高维数据的挖掘过程中,存在数据特征捕捉准确率低、节点负载不均衡、数据交互频繁、频繁项集紧凑化程度低等问题。提出基于MapReduce的并行挖掘算法PARDG-MR,结合高维数据特征,设计基于维度粒化算法和负载均衡算法的DGPL策略,并对数据进行预处理,以解决高维复杂数据特征属性捕捉困难及数据划分中节点负载不均衡的问题。通过构建基于PJPFP-Tree树的频繁项集并行挖掘策略PARM,实现频繁项集的并行化分组过程,从而提高数据处理的运行效率。在此基础上,提出基于剪枝前缀推论的整合节点剪枝算法PJPFP,提高频繁项集挖掘过程中的剪枝效率,增强频繁项集的紧凑化程度。在Webdocs、NDC、Gisette 3个数据集上的实验结果表明,相比PFP-growth、PWARM、MRPrePost算法,该算法的运行时间平均缩短了约20%,能够有效提高数据挖掘效率且降低内存空间。
-
-
邓廷权;
辛丽颖
-
-
摘要:
针对启发式特征选择和特征聚类驱动特征选择方法的不足,研究了决策依赖的特征冗余性问题,提出了一种基于邻域粗糙集的决策依赖特征聚类的高维数据特征选择方法(RDCFS).首先,依据邻域粗糙集模型,设计了一种特征联合依赖度增益度量,刻画数据特征在分类和辨识层面上的冗余性和关联性.其次,构建了一种最优特征簇结构的评估准则和特征冗余图的最优图割划分.再次,给出了一种基于簇信息的特征中心度和特征依存度度量,指导实现高维数据的特征选择.在UCI数据库中选取8组真实数据集作对比实验,实验结果表明本文所提特征选择方法能够获得更紧凑的特征子集,且在分类性能上优于多种现有最新方法.
-
-
郇钫策;
江驹;
余朝军;
徐海燕
-
-
摘要:
汽油辛烷值不仅影响汽油的经济效益,也关乎汽车尾气排放量,因此精确预测成品汽油的辛烷值对国民经济发展和环境保护都有着重要意义。为从高维的工业汽油数据集中准确预测出辛烷值含量,首先提出了一种互信息法回归(Mutual information regression,MIR)-递归嵌入式特征选择(Embedded feature selection,EFS)融合降维算法对数据特征进行评分,筛选出30个特征作为建模的主要变量;然后基于优化后的自适应集成学习随机森林算法建立了辛烷值预测模型;最后基于多种互补判别准则,与现有方法进行了充分仿真计算对比。结果显示,改进的MIR-EFS融合降维算法将数据维度减少了89.65%,训练时间减少了81.43%,预测数据的均方误差(MSE)、均方根误差(RMSE)、最小误差(Min Error)和回归平方和(ESS)分别为0.017、0.13、0.023和0.28。与现有方法相比,MIR-EFS融合降维算法的复杂度性能与计算结果更优,这表明改进的MIR-EFS融合降维算法能够准确地获取成品汽油中辛烷值的含量,为汽油辛烷值预测提供可参考的算法支持。
-
-
李凯;
张可心
-
-
摘要:
利用信息熵或模糊熵确定子空间聚类中每个簇的不同特征,较好地解决了高维数据的子空间聚类.为了进一步提高聚类算法的性能,将权向量的负结构α-熵引入到高斯混合模型中,获得了结构α-熵的加权高斯混合的子空间聚类模型,提出了结构α-熵的加权高斯混合模型的子空间聚类算法SEWMM(Structuralα-Entropy Weighting Mixture Model),该算法不仅可以发现高维数据空间中位于不同子空间的簇,而且能够获得子空间中具有不同形状体积的簇.同时,进一步分析了算法的收敛性与时间复杂性.通过选取UCI(University of California,Irvine)标准数据集及图像数据集,对提出的算法SEWMM进行了实验,并与一些典型的聚类算法进行了比较,表明了提出的算法在总体性能上具有一定的提升.
-
-
朱徐亚
-
-
摘要:
为了解决维度灾难所引起的隐私保护数据发布计算复杂度高、可用性低的问题,提出基于差分隐私采样机制和贝叶斯网络的DPSM-Bayes算法。利用贝叶斯网络模型,将高维联合概率分布转化为多个低维边缘概率分布,结合差分隐私采样机制和更适合高维概率分布加噪的IMLaplace机制,生成可用性更高的高维合成数据集。实验结果证明,在提供相同差分隐私保护的前提下,DPSM-Bayes算法能够有效地处理高维数据集的发布问题,与现有的方法相比发布的数据集具有更高的质量和可用性。
-
-
冯利民;
刘波
-
-
摘要:
为降低串口通信中故障数据对传输效率的影响,提出基于SOM聚类的故障数据挖掘算法。利用故障数据多为高维模式的特点,将高维原始数据根据距离与颜色属性映射在低维空间内。在低维空间中根据变量关系将数据分为高端越限数据点、低端越限数据点以及双边越限数据点,建立SOM聚类特征分布图,在同等范围内对不同类型数据点划分等级并实施特征离散化。凭借二分图故障挖掘模型模拟多个定向数据源,在每个数据源附近内设定关联规则,通过关联规则查找与数据源存在关联因子的数据点,根据对比阈值判定是否为故障数据。仿真结果证明,所提方法故障挖掘准确率高、耗费时间短,算法具有很好的适用性及使用价值。
-
-
夏亚峰;
何佳
-
-
摘要:
利用对数似然函数和自适应桥惩罚估计方法研究了高维数据下广义线性模型的参数估计和变量选择问题,利用对数似然函数和自适应桥方法构造惩罚估计目标函数,在适当的正则条件下,证明了自适应桥估计量的相合性和Oracle性质,通过数值模拟和实例分析验证了所提方法的有限样本性质及其优良性。
-
-
吴炜明;
王延新
-
-
摘要:
大数据背景下,基于罚函数的正则化方法是高维数据变量选择的重要方法.Lasso估计是常用的变量选择方法,而Lasso正则化参数的取值直接影响选择模型的性能,是正则化方法成败的关键.针对Lasso估计,提出一种新的L曲线(LC)准则选择正则化参数.数值模拟和实际应用表明:相比CV,GCV,BIC等准则,LC准则能够以较高的概率选择真实的模型,并且具有较小的模型误差.
-
-
褚福洋;
马文辉;
张文晶;
闫继伟
-
-
摘要:
伴随着网络技术的持续发展,新时代的数据多数是非结构化类型的数据信息,其特征向量的维数较高,过多的维数会引发维度灾难,通过引入特征选择的模式对于冗余特征进行检测,数据信息的特征子集能够准确获得,实现降维目标。随后由聚类成员质量以及数据差异入手,总结出适于高维数据信息分层抽样的算法。结果表明,此算法具备良好的聚类优势。此研究对后期数据挖掘领域具有非常重大的实用价值。
-
-
颜海波;
邓罡;
姜云卢
-
-
摘要:
含异常值的数据和高维数据越来越频繁地出现,对现有的稳健估计和多元线性回归估计方法提出了挑战。传统的多元线性回归模型估计对异常值非常敏感,基于MCD估计方法的多元线性回归估计对异常值有一定的抵御作用。但随着数据维数的增加,MCD估计的精度不断降低,稳健性也随之降低,且当数据维数大于样本量时MCD估计方法失效。因此,本文利用MRCD的均值向量和协方差矩阵估计,提出了基于MRCD估计方法的高维稳健多元线性回归模型估计。数值模拟的结果表明,基于MRCD估计方法的多元线性回归模型估计能很好地抵御异常值,且在数据维数大于样本量的情况下,基于MRCD估计方法的多元线性回归估计更为有效。实证分析的结果表明,基于MRCD方法的多元线性回归估计能更好地抵御异常值并得到更好的预测效果。
-
-
-
潘国涛;
黄德才
- 《2011年青年通信国际会议(ICYC2011)》
| 2011年
-
摘要:
将低维空间中的相似性度量方法应用于高维空间时,由于高维数据存在着稀疏性和空空间现象的特点,高维数据对象之间距离的对比性不复存在。研究适合于高维空间的相似性度量方法已成为高维数据挖掘的主要方向之一。通过对传统相似性度量方法在高维空间中的不适应性进行了分析和总结,在基于维度的思想之上,结合特征选择算法,提出一种新的高维数据的相似性度量方法,并且对其有效性进行分析。通过数值仿真实验, 论证了该相似性度量方法在高维数据聚类中的合理性和有效性。
-
-
-
赵俊琴;
王慧;
王彤
- 《中国卫生统计(生物统计)2014学术年会》
| 2014年
-
摘要:
随着信息技术在科学实验中的广泛应用,高维数据成为研究热点,惩罚类变量选择方法解决了高维统计模型的变量选择和稀疏估计问题,而基于有限样本建立的模型的可靠性和稳定性仍需通过统计推断来检验.针对高维数据统计推断的研究近来受到广泛的关注,一些研究从分割样本(sample spliting)、重复抽样(resampling)、转化KKT(Karush-Kuhn-Tucker)条件出发提出了假设检验和求可信区间的方法,一些研究基于解路径上固定的调整参数,构建假设检验并推导出统计量的精确分布,还有研究讨论了基于解路径得到一系列假设检验中多重性调整的问题.将以经典的高维数据变量选择方法Lasso(Least Absolute Shrinkage and Selection Operator)为例,阐述现有针对线性模型的统计推断方法的原理和思想。
-
-
颜克胜;
李太福;
魏正元;
苏盈盈;
姚立忠
- 《第23届过程控制会议》
| 2012年
-
摘要:
在高维数据分类中,针对多重共线性、冗余特征及噪声易导致分类器识别精度低和时空开销大的问题,提出融合偏最小二乘(Partial Least Squares, PLS)有监督特征提取和虚假最近邻点(False Nearest Neighbors, FNN)的特征选择方法:首先利用偏最小二乘对高维数据提取主元,消除特征之间的多重共线性,得到携带监督信息的独立主元空间;然后通过计算各特征选择前后在此空间的相关性,建立基于虚假最近邻点的特征相似性测度,得到原始特征对类别变量解释能力强弱排序;最后,依次剔除解释能力弱的特征,构造出各种分类模型,并以支持向量机(Support Vector Machine, SVM)分类识别率为模型评估准则,搜索出识别率最高但含特征数最少的分类模型,此模型所含的特征即为最佳特征子集。3个数据集模型仿真结果均表明,由此法选择出的最佳特征子集与各数据集的本质分类特征吻合,说明该方法有良好的特征选择能力,为数据分类特征选择提供了一条新途径。
-
-
LIU Yingfan;
刘英帆;
CUI Jiangtao;
崔江涛
- 《第29届中国数据库学术会议》
| 2012年
-
摘要:
高维数据集合的最近邻查询性能会受到“维数灾难”现象的影响.提出了一种基于联合聚类的HC2高维索引结构.首先通过联合聚类算法同时降低数据尺寸和维数,将高维数据集合聚成若干较低维数的类,然后采用超立方体结构对每个类进行空间区域描述.在基于“过滤-精炼”的查询过程中,计算查询点与各个类之间的距离下界,实现对聚类的有效过滤.为了提高距离下界对真实距离的逼近能力,采用了一种基于统计优化的超立方体区域描述方法SOHC2,能够更加有效地缩小搜索空间,提高查询性能.理论分析和实验结果都表明,SOHC2的查询性能明显优于其他索引方法,适合大规模高维数据的查询;与同类索引结构相比,查询速度能够提高3倍以上.
-
-
-
-