特征选择
特征选择的相关文献在1989年到2023年内共计5375篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术
等领域,其中期刊论文4010篇、会议论文223篇、专利文献124431篇;相关期刊965种,包括计算机仿真、计算机工程、计算机工程与设计等;
相关会议186种,包括中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、第十一届全国信息隐藏暨多媒体信息安全学术大会 CIHW2013、第29届中国数据库学术会议等;特征选择的相关文献由11960位作者贡献,包括朱颢东、刘海峰、周红芳等。
特征选择—发文量
专利文献>
论文:124431篇
占比:96.71%
总计:128664篇
特征选择
-研究学者
- 朱颢东
- 刘海峰
- 周红芳
- 刘光远
- 林耀进
- 王晨曦
- 刘磊
- 叶志伟
- 孙林
- 王勇
- 胡学钢
- 谢娟英
- 钟勇
- 张磊
- 张莉
- 李勇明
- 李国正
- 董育宁
- 刘培玉
- 刘守生
- 印鉴
- 张培林
- 李占山
- 李波
- 王斌
- 刘丹
- 张涛
- 徐久成
- 李云
- 王伟
- 王士同
- 王春枝
- 陈曦
- 黄厚宽
- 曾孝平
- 李克文
- 杨宏晖
- 余正涛
- 刘小英
- 接标
- 曹建军
- 李建更
- 李想
- 李静
- 王元元
- 王素格
- 王辉
- 王鹏
- 陈翔
- 高峰
-
-
陈楚汉;
钟杨生;
王先燕;
赵懿琨;
代芬
-
-
摘要:
使用近红外光谱鉴别蚕茧雌雄设备成本较高,挑选有用特征可以减少成本。雌雄蚕茧的近红外光谱存在着共线性的关系,因此提出了一种包裹式的特征选择方法,基于支持向量机的自助重加权采样(BRS-SVM)的特征选择方法。使用NirQuest512近红外光谱仪采集了蚕茧的漫透射近红外光谱。用试验集的全波段建模得到特征重要度热图,并通过热图得到重要特征波段的范围。然后在重要特征波段范围内,分别用BRS-SVM、基于SVM的特征排序方法(MBR-SVM)、基于逻辑回归的特征排序方法(MBR-LR)、递归特征消除法(RFE)、连续投影算法(SPA)和遗传算法(GA)挑选单波段特征和连续波段面积特征,再分别用支持向量机(SVM)和逻辑回归(LR)建立雌雄分类模型。通过特征重要性热力图发现,蚕茧雌雄分类重要区域在900~1 399 nm内,用此波段范围建立SVM模型,试验集准确率为99.40%。用BRS-SVM挑选5个单波段特征,然后再用SVM建模,验证集准确率为93.88%,高出其他特征选择方法5%~12%,测试集准确率为89.56%,测试集准确率高出其他特征选择方法2%~4%。用BRS-SVM挑选27个单波段特征,建立SVM雌雄分类模型测试集准确率为94.97%,准确率达到生产条件要求。用BRS-SVM挑选的14个连续波段面积特征,再用SVM建模,测试集准确率为94.43%。在挑选少量特征情况下,我们提出的BRS-SVM要优于其他方法。用BRS-SVM挑选少量的特征,可以建立性能良好的蚕茧雌雄分类模型,有效减少了成本,具有重要的现实意义。
-
-
朱林杰;
赵广鹏;
康亮河
-
-
摘要:
针对入侵检测中异常点误报率较高的问题,提出了改进KNN与异常点检测算法相结合来处理数据的方法,以降低入侵检测误报率。该方法首先采用卡方特征选择方法进行数据特征选择,其次采用孤立森林、距离、局部异常因子(IDL)结合查找出异常点,然后使用SMOTE平衡数据,使得所有的样本达到一个类平衡状态,再采用KNN分类。最后采用公开数据集NSL-KDD进行对于改进KNN异常点检测方法的有效性验证。实验结果表明,采用改进的KNN分类异常点检测方法进行检测,降低了误报率。
-
-
张田华;
罗康洋
-
-
摘要:
我国证券市场中高送转题材股备受中小投资者的追捧,但市场中也存在着借高送转概念炒作的乱象,如何利用上市公司的财务数据挖掘真正有潜力的股票无疑具有重要意义。采用2158家制造业上市公司7年的财务指标作为研究数据,利用采样、特征选择以及集成学习算法构建上市公司高送转预测模型并进行实证研究。结果显示:采样和特征选择方法均能有效提高集成预测模型的性能;相较于数据集中的冗余信息,数据不平衡问题对模型预测准确率的影响更显著;ADASYN+mRMR+XGBoost组合模型取得了最好的预测结果,高送转样本的分类准确率达到84.96%,建议投资者优先选用该组合模型对上市公司的高送转情况进行预测。
-
-
张昭;
姚志凤;
王鹏;
苏宝峰;
刘斌;
宋怀波;
何东健;
徐炎;
胡静波
-
-
摘要:
葡萄霜霉病对葡萄生产构成严重威胁,尽早防治是治理霜霉病的关键。为了对该病进行早期检测,以PCR检测获取的霜霉病相对生物量作为霜霉病侵染的依据,从暗适应—光适应—暗弛豫3个光合生理状态连续变化过程中,采集80个人工接种霜霉菌叶片和80个健康对照叶片连续6 d的叶绿素荧光图像。对比健康和接种叶片叶绿素荧光动力学曲线、参数图像和参数值的差异,使用单因素方差分析评估叶绿素荧光参数对霜霉病侵染的敏感性,筛选叶绿素荧光参数最优特征子集,使用机器学习分类器构建霜霉病早期检测模型。结果表明,随着接种后天数(day post inoculation,DPI)的增加,霜霉病侵染程度不断加深,健康和接种叶片叶绿素荧光动力学曲线、参数图像和参数值从2DPI开始有显著差异(p<0.05),霜霉病侵染导致叶片光化学猝灭速率减小(Rfd变小),光合效率降低(F_(v)/F_(m)变小),叶片活力和光保护能力衰退(NPQ和qN变小),叶片吸收的光能更多以荧光的形式释放出来(F_(t)和F_(m)变大)。基于序列前向浮动算法优选的叶绿素荧光参数特征子集(qN-L3,Rfd-L2,NPQ-L1和F_(v)/F_(m)-D1)和BP神经网络分类器的SFFS-BP模型对3DPI健康和接种叶片识别准确率为83.75%,全实验周期连续6 d平均准确率达到85.94%。可为葡萄霜霉病光合表型分析和早期检测提供一种快速、准确的手段。
-
-
郭煜涛;
谢丽蓉;
孙代青;
刘文斌
-
-
摘要:
针对仅用时域和频域指标无法准确诊断滚动轴承故障的问题,提出一种基于灰色关联度(GRA)与偏最小二乘(PLS)的故障诊断算法。首先,对原始振动信号进行灰色关联度分析,提取关联度较高的振动信号作为样本信号;其次,通过时域分析和频域分析获得故障特征集,利用基于遗传算法(GA)和Elman神经网络的组合算法(GA-ENN)对故障特征进行提取;最后,利用PLS算法对滚动轴承的故障类别进行识别。实验结果表明,所提方法能有效剔除原始振动信号中无信息变量,并且实现时、频域指标下滚动轴承故障的准确诊断。
-
-
李腾飞;
冯翔;
虞慧群
-
-
摘要:
针对大规模数据集上的特征选择问题,一种变长表示的粒子群特征选择方法(VLPSO)表现出了良好的性能。然而,其完全随机的粒子生成方式导致初始化阶段具有一定的盲目性。同时,VLPSO单一的更新机制和种群间的信息隔离也影响了模型的分类性能。为了解决VLPSO的缺陷,提出了一种基于多行为交互的变维协同进化特征选择方法(M-CVLPSO)。首先,为了改善随机初始化带来的盲目性,采用连续空间上的层次初始化策略,从期望上缩短了初始解与最优解之间的距离。其次,将粒子根据适应度分为领导者、追随者与淘汰者,在迭代过程中采用多种更新策略动态平衡算法的多样性和收敛性。同时,将维度缩减指标加入到适应度函数中,进一步增强了算法在部分数据集上的性能。从理论上证明了该算法的收敛性,并基于11个大规模特征选择数据集在分类精度、维度缩减和计算时间上进行实验分析。实验结果表明,本文算法相较于4种对比算法具有更好的综合表现。
-
-
丁峤;
刘俊延;
刘林云;
杨璐铭
-
-
摘要:
域名系统(Domain Name System,DNS)隧道是一种典型的网络隐蔽通道,攻击者窃取的信息被编码并封装到DNS报文中进行传输。在攻击者具备受控服务器和受控域的前提下,只要被攻击者的网络需要进行域名解析服务,DNS隧道就可以实现,IDS也不会因此触发警报。目前流行的基于载荷和基于流量的检测方法都不够灵活,且误报率高。为了更有效地识别DNS隧道攻击,对DNS报文特征进行分析,提取出5大类共15个特征标记一条完整的DNS会话,选用XGboost分类模型进行分类识别。实验结果表明,实验选用的15个特征可以有效检测DNS隧道流量,对于4种不同隧道软件产生的隧道流量识别率达95%。在此基础上,对所选特征的重要性进行了评估,成功筛选出能够保持分类模型稳定性下的最小特征子集。
-
-
杨震宇;
叶军;
季雨瑄;
敖家欣;
王磊
-
-
摘要:
目前已有蚁群算法优化的特征选择方法,大多采用的是以属性依赖度和信息熵属性重要度作为路径上启发搜索因子,但这类搜索方法在某些决策表中存在算法早熟或搜索到的特征子集包含了冗余特征,从而导致选择精度显著下降。针对此类问题,根据条件属性在分辨矩阵中的占比提出了一种属性重要度的度量方法,以分辨矩阵重要度作为路径上启发因子,设计了一种基于分辨矩阵与蚁群算法优化的特征子集搜索方法。该算法从特征核出发,蚁群依次选择概率大的特征加入特征核集,直至找到最小特征子集算法终止。通过实例验证和UCI数据集实验结果表明,与基于属性依赖度和信息熵属性重要度的特征选择方法相比,在通常情况下,该算法能较小代价找到最小特征子集,并且可以有效减少计算工作量。
-
-
赵延平;
王芳;
夏杨
-
-
摘要:
针对短文本具有特征稀疏、不规范、主题不明确等特点,提出一种有效的基于支持向量机的短文本分类方法。由于汉语中依存语法分析准确率和时间效率不高的问题,针对客户文本咨询的特点,在对短文本分类时,本文并未对句子进行依存语法的分析,而是主要使用句法特征进行分析,找出文本的子串和子序列形成候选特征集,之后利用信息增益、互信息、卡方统计3种特征选择方法进行有效特征选择,最后采用支持向量机方法进行文本分类。将本文所提的模型应用于一组真实数据,实验结果表明,平均正确率可达到84.19%,从而验证该分类方法的鲁棒性和有效性。
-
-
任志航
-
-
摘要:
针对电力客户侧终端网络逐渐开放、设备分散和不易进行安全监测的现状,提出了一种基于LightGBM的高效率网络入侵检测模型。文章在目标编码中引入改进的平滑映射方法,提升了模型的检测效果;利用BPSO算法进行特征选择,设计目标函数,在保障检测准确率的前提下,实现对低价值特征的去除,降低模型的时间开销,并通过设计速度变异策略提升BPSO算法的效率;利用LightGBM算法实现入侵检测和攻击分类,并利用PSO算法实现LightGBM参数的自动选取。基于多个开源数据集的实验表明,所提模型具有较高的自适应能力,在攻击检测上具有较高的准确率、较少的误报和漏报情况,并且可以提升19%的训练和检测效率。
-
-
-
XUE Rui;
薛瑞;
ZHAO Rongzhen;
赵荣珍
- 《2018年全国设备监测诊断与维护学术会议暨第十六届全国设备故障诊断学术会议、第十八届全国设备监测与诊断学术会议、2018年全国设备诊断工程会议》
| 2018年
-
摘要:
为了提高分类器的分类精度,提出一种基于ReliefF算法和粒子群算法(Particle Swarm Optimization,PSO)的混合式故障特征选择方法.首先,对经滤波消噪后的故障信号进行量化故障特征提取,提取出时域、频域、小波包频带能量作为原始的描述故障状态的时频域特征.然后,基于ReliefF的方法对原始特征集进行初始筛选,剔除不相关特征,计算权值向量,并对相对应的特征进行加权;利用PSO在经过精简的特征子空间里进行随机搜索,搜索过程中以支持向量机的分类准确率为适应度函数,选择出最优特征子集.实验结果表明,该方法可以有效地筛选出规模较小且最有辨别力的特征子集,能显著提高分类器的分类准确率及效率.
-
-
Junfang Wu;
吴俊芳;
Xida Li;
李希达
- 《2018粤港澳大湾区智能检测与协同创新青年论坛》
| 2018年
-
摘要:
特征选择是模式识别及机器学习中的关键技术.本文提出了一种基于特征参与模式优化(OFPP)的特征选择方法,该法利用信息熵确定特征的最佳参与模式,即联合或独立,特征间联合的目的是提高对分类的重要程度.对于参与模式为联合的特征,首先确定出它的联合对象,而一对联合特征是作为一个整体参与特征选择,是不可拆分的.通过实验对比了OFPP法与另两种广泛使用的基于信息度量的特征选择方法的性能,实验结果验证了OFPP法在特征选择中的有效性.
-
-
-
-
许召召;
李京华;
陈同林;
李昕洁
- 《第十六届全国软件与应用学术会议》
| 2017年
-
摘要:
如何对以"工业4.0"为背景的物联网智慧医疗系统所产生的医疗数据进行高效而又准确地挖掘仍然是一个十分严峻的问题.而医疗数据往往是高维的、不平衡和有噪声的,基于此,本文提出一种新的数据处理方法——将SMOTE方法与Filter-Wrapper特征选择算法融合——用于支持临床医疗决策.将本文的算法应用于ECG临床医疗决策中,并取得了很好的效果.将本文所提算法用于心电图数据集中,可以得到高效而又准确的病人病症分类结果,在心电图治疗之中起到了辅助作用。本文提出的方法不仅克服了朴素贝叶斯在属性实际应用中因属性独立假设而造成预测不佳的情况,而且避免了C4.5决策树在构建模型时的过拟合问题.
-
-
胡清华;
王煜;
周玉灿;
赵红;
钱宇华;
梁吉业
- 《人工智能领域青年学者研讨会》
| 2017年
-
摘要:
分层分类是一种利用数据类别间层次结构关系进行分类的任务,可以高效地组织和处理大规模数据.近些年来,在这个受到越来越多关注的领域中涌现出许多重要的工作.本文介绍分层分类的定义,并按照不同种类的问题解决策略,对大规模分层分类任务中的几个基本问题的研究进行总结.首先,给出层次结构的形式化定义.其次,分别阐述如何设计分层评价指标、如何构建层次结构、如何利用层次结构信息进行特征选择、如何利用层次结构信息训练分类器以及如何面向层次结构设计停止机制,并介绍具有代表性的相关工作.最后,对大规模分层分类任务进行总结,并展望未来可能的研究方向.
-
-
Yannan Zhu
- 《第22届全球华人计算机教育应用大会》
| 2018年
-
摘要:
自适应学习系统是指能够为学习者提供一种个性化学习服务,实现用户适应系统和系统适应用户的双向适应,而要做到这点,构建学习者模型就显得尤为重要.本文主要通过文献分析法,研究国内外自适应学习系统中关键的模型——学习者模型,并以案例说明学习者模型维度,以期为后续自适应学习系统的设计研究和开发提供帮助.在学习者特征的获取上,采用新的技术和算法,如先进的人工智能技术、贝叶斯网络、遗传算法和模糊评估算法等各种有效的计算机技术和算法。这样,在学习者初始特征获取后,利用各种技术和算法,能够实现学习者特征的动态获取和更新,有利于系统进行动态的学习诊断。在学习者特征分析上,充分考虑到不同学习者的个性化差异,尤其是更加重视学习者学习风格的研究和探索。在现有的学习风格模型的基础上,构建切实符合自适应学习系统开发的学习者学习风格模型,更有助于学习者个性化学习。
-
-
Yannan Zhu
- 《第22届全球华人计算机教育应用大会》
| 2018年
-
摘要:
自适应学习系统是指能够为学习者提供一种个性化学习服务,实现用户适应系统和系统适应用户的双向适应,而要做到这点,构建学习者模型就显得尤为重要.本文主要通过文献分析法,研究国内外自适应学习系统中关键的模型——学习者模型,并以案例说明学习者模型维度,以期为后续自适应学习系统的设计研究和开发提供帮助.在学习者特征的获取上,采用新的技术和算法,如先进的人工智能技术、贝叶斯网络、遗传算法和模糊评估算法等各种有效的计算机技术和算法。这样,在学习者初始特征获取后,利用各种技术和算法,能够实现学习者特征的动态获取和更新,有利于系统进行动态的学习诊断。在学习者特征分析上,充分考虑到不同学习者的个性化差异,尤其是更加重视学习者学习风格的研究和探索。在现有的学习风格模型的基础上,构建切实符合自适应学习系统开发的学习者学习风格模型,更有助于学习者个性化学习。
-
-
Yannan Zhu
- 《第22届全球华人计算机教育应用大会》
| 2018年
-
摘要:
自适应学习系统是指能够为学习者提供一种个性化学习服务,实现用户适应系统和系统适应用户的双向适应,而要做到这点,构建学习者模型就显得尤为重要.本文主要通过文献分析法,研究国内外自适应学习系统中关键的模型——学习者模型,并以案例说明学习者模型维度,以期为后续自适应学习系统的设计研究和开发提供帮助.在学习者特征的获取上,采用新的技术和算法,如先进的人工智能技术、贝叶斯网络、遗传算法和模糊评估算法等各种有效的计算机技术和算法。这样,在学习者初始特征获取后,利用各种技术和算法,能够实现学习者特征的动态获取和更新,有利于系统进行动态的学习诊断。在学习者特征分析上,充分考虑到不同学习者的个性化差异,尤其是更加重视学习者学习风格的研究和探索。在现有的学习风格模型的基础上,构建切实符合自适应学习系统开发的学习者学习风格模型,更有助于学习者个性化学习。