变量选择
变量选择的相关文献在1984年到2023年内共计594篇,主要集中在自动化技术、计算机技术、经济计划与管理、化学
等领域,其中期刊论文512篇、会议论文11篇、专利文献74714篇;相关期刊273种,包括统计与信息论坛、统计研究、重庆工商大学学报(自然科学版)等;
相关会议11种,包括中国卫生统计(生物统计)2014学术年会、全国第四届近红外光谱学术会议、第五届全国环境化学大会会议等;变量选择的相关文献由1390位作者贡献,包括宦克为、赵环、刘小溪等。
变量选择—发文量
专利文献>
论文:74714篇
占比:99.30%
总计:75237篇
变量选择
-研究学者
- 宦克为
- 赵环
- 刘小溪
- 石晓光
- 韩雪艳
- 李太福
- 王延新
- 田茂再
- 苏盈盈
- 赵培信
- 孙通
- 张日权
- 李扬
- 胡文金
- 夏亚峰
- 易军
- 李四海
- 刘木华
- 卞希慧
- 孙凯
- 方匡南
- 程豪
- 童楚东
- 闵顺耕
- 卢一强
- 吴刘仓
- 夏静静
- 姚立忠
- 崔立鹏
- 张天龙
- 张文广
- 张越
- 徐登可
- 李华
- 李慷
- 李泽安
- 李铁克
- 李锋
- 李顺勇
- 杨宜平
- 栗仕强
- 梁昭磊
- 梁龙
- 汤宏胜
- 汪启华
- 王小燕
- 田瑞琴
- 白永昕
- 臧阳阳
- 谢邦昌
-
-
张明;
付冬梅;
程学群;
杨丙坤;
郝文魁;
陈云;
邵立珍
-
-
摘要:
突变是工程实践过程中广泛存在的现象.当系统的状态发生跳跃性变化时,基于微积分的传统数学建模方法精度较低,人工神经网络等机器学习算法无法对突变现象作出合理的解释.基于突变理论的尖点突变模型可以用来解释系统状态的不连续变化,然而在输入变量维度较大的情况下,传统的尖点突变模型复杂度高且精度较差.为了解决这一问题,提出了一种基于变量选择的尖点突变模型的两步构建方法.第一步,利用多模型集成重要变量选择算法(MEIVS)量化待选变量的重要性并提取重要变量;第二步,基于极大似然法(MLE)利用所提取的重要变量构建尖点突变模型.仿真结果表明,在具有突变特征的数据集上,通过MEIVS降维后的尖点突变模型在评价指标上优于线性模型、Logistic模型和通过其他方法降维的尖点突变模型,并且可以用来解释研究对象的不连续变化.
-
-
姚菲
-
-
摘要:
年轻人刚步入社会,租房是必不可少的一项开销,解决年轻人的租房问题是城市可持续发展的必然要求。影响房租价格的变量众多,变量选择是处理高维数据非常重要的一个环节,变量选结果的好坏决定了所建模型性能的优劣。引入BP神经网络模型,对权重施加L1惩罚,多次模拟后设定一个阈值,将权重相加值小于阈值的变量剔除,经检验该方法具有非常良好的变量选择性能。以长沙市中心城区为例,爬取贝壳找房网上5个地区的租房信息,并利用百度地图API获取房屋周边环境信息,得到18个自变量,进行变量选择探究影响房租价格的重要因素。结果表明租赁方式和房屋户型对房租价格的影响最大。
-
-
王小燕;
周思敏;
徐晓莉;
周四军
-
-
摘要:
碳交易作为实现低碳经济的一种途径,既具有环境效益,又具有经济效益。为了研究碳排放权价格的影响因素,选取广州碳排放权交易所的碳配额价格收盘价(GDEA)为研究对象,从6个维度构建了24个指标:国际碳价、国内外经济指标、国外能源指标、国内能源指标、气候环境和宏观政策,并将指标间复杂的相关关系纳入模型来改进指标筛选效果。首先基于复杂网络理论构建了24个指标的图结构,表示它们的复杂联动关系,再建立图结构自适应Lasso方法(G-AdLasso)进行影响因素识别。研究发现:指标之间存在无可忽视的中等或高度相关,依据两两相关关系建立图结构时,上述24个指标可被分为6个团体,体现了指标的内部关系。同时G-AdLasso选择出了10个因素,其中欧盟核证减排量收盘价影响最为显著,欧盟EUA收盘价、迪拜原油现货价、美元兑人民币中间价4个因素对GDEA有正向影响;欧盟CER收盘价、NYMEX天然气期货收盘价、欧洲三港DES ARA动力煤指数、广州工业天然气市场价、广州日最高气温、银行间7日同业拆借平均利率、欧元兑人民币中间价7个因素对GDEA有负向作用;这些因素在上述6个维度上均有涉及,且它们在图结构中具有较高的度,说明G-AdLasso可识别出图结构中较重要的指标。对比不带图结构的自适应Lasso和Lasso方法,G-AdLasso方法选择更少的指标,说明该方法可优化和精简模型。
-
-
吴昊;
赵培信;
黄海霞
-
-
摘要:
利用函数数据的非参数核回归方法以及惩罚绝对偏差估计技术,对函数型部分线性模型的变量选择问题,提出了一种稳健的重要变量选择方法.通过数值模拟仿真显示所提出的方法可以消除异常点对变量选择精度的影响,具有较好的稳健性.
-
-
高启兵;
于欢;
时倩倩;
朱桂梅
-
-
摘要:
针对自适应设计广义线性模型,研究自适应Lasso惩罚最小二乘变量选择方法。在一定条件下,得到自适应Lasso惩罚最小二乘估计的相合性和Oracle性质,该结果将固定设计广义线性模型相关结果推广到自适应设计广义线性模型中。通过模拟可知,自适应Lasso惩罚方法优于Lasso惩罚方法。
-
-
曾维佳;
张日权
-
-
摘要:
Lasso是机器学习中比较常用的一种变量选择方法,适用于具有稀疏性的回归问题.当样本量巨大或者海量的数据存储在不同的机器上时,分布式计算是减少计算时间提高效率的重要方式之一.本文在给出Lasso模型等价优化模型的基础上,将ADMM算法应用到此优化变量可分离的模型中,构造了一种适用于Lasso变量选择的分布式算法,证明了该算法的收敛性;同时,我们通过数值实验,将本文构造的分布式算法与循环坐标下降法和ADMM算法进行了比较分析,结果显示在处理样本集大的稀疏性回归问题时,本文提出的算法的计算时间和误差都小于其他两种算法.
-
-
薛娇;
傅德印;
高海燕;
韩海波
-
-
摘要:
稀疏惩罚分位数回归是高维数据分析中进行变量选择和稳健估计的重要工具。对于具有分组解释变量的问题,期望达到组内和组间稀疏的理想效果,但是许多现有方法未能实现这一目标。文章将自适应Lasso和自适应Group Lasso相结合,构建了一种自适应稀疏Group Lasso惩罚分位数回归(Q-AdSGL)模型,给出了基于ADMM算法的模型求解方法,并讨论了估计量的Oracle性质。通过Monte Carlo模拟研究和实例分析证明了所提模型和算法的有效性。
-
-
秦喜文;
王芮;
张斯琪
-
-
摘要:
乳腺癌基因数据的分类研究在临床医学上具有重要意义。针对基因数据的结构复杂、高维小样本等特点,提出一种最大相关最小条件冗余和深度级联森林结合的基因数据分类方法。选取博德基因研究所乳腺癌基因表达数据集,共98个数据作为样本,每个样本包含1 213个特征基因。首先对数据进行标准化处理,然后利用最大相关最小条件冗余选取特征子集,最后使用深度级联森林对特征子集进行分类。将随机森林、支持向量机和BP神经网络作为对比方法。结果表明,所提出的最大相关最小条件冗余和深度级联森林结合方法的最佳分类准确率达到93.78%,明显优于其他方法。该方法能有效提高乳腺癌基因数据的分类准确率,对基于基因数据的乳腺癌分类具有重要的理论意义与实用价值。
-
-
-
-
摘要:
○胃肠道放射学胃癌上皮间质转化分子亚型的CT预测(DOI:10.19300/j.2022.e0101)Prediction of epithelial-to-mesenchymal transition molecular subtype using CT in gastric cancer(DOI:10.1007/s00330-021-08094-3)D.I.Cha,J.Lee,W.K.Jeong,S.T.Kim,J.H.Kim,J.Y.Hong,et al.摘要目的本研究旨在利用CT影像建立预测模型,并建立包含已知临床病理变量的列线图,从而用于上皮间质转化(EMT)亚型胃癌的个体化评估。方法回顾性分析451例行胃癌(GC)一期切除术和进行了分子亚组分析的病人。首先采用逐步变量选择法进行多变量分析,建立EMT亚型GC的预测模型。利用多变量分析的结果构建一个列线图。
-
-
夏亚峰;
何佳
-
-
摘要:
利用对数似然函数和自适应桥惩罚估计方法研究了高维数据下广义线性模型的参数估计和变量选择问题,利用对数似然函数和自适应桥方法构造惩罚估计目标函数,在适当的正则条件下,证明了自适应桥估计量的相合性和Oracle性质,通过数值模拟和实例分析验证了所提方法的有限样本性质及其优良性。
-
-
向永靖;
何沿平;
郁钟铭
- 《贵州省系统工程学会第六届学术年会》
| 2016年
-
摘要:
随机森林(RF)被广泛用于数据分类和回归问题,随机森林算法是Leo Breiman在2001年提出的.本文主要针对变量选择的两个经典问题进行分析.第一个是找到重要变量为解释变量,第二个是更加严格地去设计一个好的预测模型.其贡献主要是基于随机森林对变量的重要性指标提供一些见解,并且使用随机森林的重要性为解释变量的排名提出一个策略,逐步提升变量引入策略.
-
-
WANG Junxi;
王军玺;
SHEN Zhenzhong;
沈振中
- 《第二届全国岩土多场相互作用及环境土工学术研讨会》
| 2014年
-
摘要:
描述非饱和土固结状态的变量包括基本变量和应力状态变量.目前,基本变量的选取往往被忽视;应力状态变量的选择存在较大争议;固结状态变量的选择缺乏理论依据.基本变量的选择主要针对于描述孔隙流体流动的量,但很难确定两个满意的描述流体流动的物理量;应力状态变量选择的焦点问题在于有效应力与独立状态变量的选用,单、双应力状态变量各有其优点和缺点.在前人研究的基础上,从动量守恒、能量守恒和实际应用等3方面提出了非饱和土固结状态变量的选取应遵守的基本原则.并遵循这一原则,研究发现:以双压强变量、土骨架位移分量作为基本变量是较为合理的选择,并将产生有意义的边界条件;以广义有效应力和吸力作为应力状态变量除了能满足上述选取原则外,还可对原有的基本理论进行扩展与改进.
-
-
梁逸曾;
云永欢
- 《全国第四届近红外光谱学术会议》
| 2012年
-
摘要:
本文从目前近红外光谱分析中最常用的建模方法(包括定量分析与模式识别)入手,对变量选择的重要性和必要性进行了初步探讨.通过比较两个近红外光谱的不同解空间,即所谓组分光谱解空间和波数变量解空间,重点讨论了经典校正与逆校正模型之异同,在此基础上,还进一步讨论了偏最小二乘(PLS)方法的优越性和局限性。通过对不同实际数据分析的解析,说明大部分近红外光谱,其中特别是一些复杂体系的近红外量测数据,正确的变量选择将对近红外光谱建模有着十分重要的作用,有时甚至是必须的。
-
-
-
丁光辉;
陈景文
- 《第四届全国环境化学学术大会》
| 2007年
-
摘要:
本文提出了几种基于偏最小二乘回归分析(PLS)的变量选择方法,并将其应用于PCDD/Fs固相蒸气压的建模中。结果表明:受多重共线性的影响,逐步回归-PLS方法的效果不佳;由于变量投影重要性VIP不是一个优良的搜索方向的判据,且搜索范围有限,PLS-VIP方法常得到局部最优解。向后PLS-VIP-Q方法和向前PLS-VIP-Q方法以Q为主要判据,VIP为辅助判据,对变量空间进行相当广泛地搜索,较前两种方法有较大的可能寻找到最优模型。在本部分的研究中,后两种方法的性能相近,但向后PLS-VIP-Q方法较优。
-
-
-
-
赵俊琴;
王慧;
王彤
- 《中国卫生统计(生物统计)2014学术年会》
| 2014年
-
摘要:
随着信息技术在科学实验中的广泛应用,高维数据成为研究热点,惩罚类变量选择方法解决了高维统计模型的变量选择和稀疏估计问题,而基于有限样本建立的模型的可靠性和稳定性仍需通过统计推断来检验.针对高维数据统计推断的研究近来受到广泛的关注,一些研究从分割样本(sample spliting)、重复抽样(resampling)、转化KKT(Karush-Kuhn-Tucker)条件出发提出了假设检验和求可信区间的方法,一些研究基于解路径上固定的调整参数,构建假设检验并推导出统计量的精确分布,还有研究讨论了基于解路径得到一系列假设检验中多重性调整的问题.将以经典的高维数据变量选择方法Lasso(Least Absolute Shrinkage and Selection Operator)为例,阐述现有针对线性模型的统计推断方法的原理和思想。
-
-
李爱平
- 《第四届中荷代谢组学论坛》
| 2017年
-
摘要:
SIMCA软件是瑞典公司1987年研发,基于Window操作系统,几乎所有操作均可通过菜单栏完成,提供代谢组学数据预处理的方法有Missing value processing,OSC、Spectra filters、Data Transformation、Scaling,有强大的图形显示工具,图形个性化编辑功能,可通过PCA,PLS、OPLS、OPLS-DA module等模块提供最优的解决方案,给出统计量。
-
-
李爱平
- 《第四届中荷代谢组学论坛》
| 2017年
-
摘要:
SIMCA软件是瑞典公司1987年研发,基于Window操作系统,几乎所有操作均可通过菜单栏完成,提供代谢组学数据预处理的方法有Missing value processing,OSC、Spectra filters、Data Transformation、Scaling,有强大的图形显示工具,图形个性化编辑功能,可通过PCA,PLS、OPLS、OPLS-DA module等模块提供最优的解决方案,给出统计量。