集成学习
集成学习的相关文献在1995年到2023年内共计2247篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术
等领域,其中期刊论文1450篇、会议论文38篇、专利文献232202篇;相关期刊569种,包括计算机工程、计算机工程与科学、计算机工程与设计等;
相关会议33种,包括第十三届全国信息隐藏暨多媒体信息安全学术大会、第十二届全国信息隐藏暨多媒体信息安全学术大会、第二十五届全国信息保密学术会议(IS2015) 等;集成学习的相关文献由6333位作者贡献,包括周志华、焦李成、付忠良等。
集成学习—发文量
专利文献>
论文:232202篇
占比:99.36%
总计:233690篇
集成学习
-研究学者
- 周志华
- 焦李成
- 付忠良
- 马文萍
- 刘洋
- 周钢
- 李伟
- 王爽
- 刘三民
- 刘伟
- 张伟
- 李凯
- 李国正
- 余啸
- 刘兴高
- 刘天羽
- 张泽银
- 张磊
- 李峰
- 李涛
- 王晓丹
- 罗会兰
- 黄亮
- 井溢洋
- 侯彪
- 刘红英
- 刘芳
- 刘进
- 姜远
- 崔晓晖
- 张春霞
- 张玉玺
- 李鹏
- 杨楠
- 王文剑
- 王斌
- 王涛
- 金怀平
- 马晶晶
- 高峰
- 代琪
- 余本功
- 刘余霞
- 刘君强
- 刘振丙
- 刘林
- 刘静
- 周凡
- 姚旭
- 张丹普
-
-
刘星;
赵建印;
朱敏;
张伟
-
-
摘要:
针对装备各类故障样本分布不平衡、现有算法故障诊断精度较低的问题,通过引入p范数约束多核极限学习机和基于AdaBoost的集成学习策略,定义了一种p范数约束下正则化加权多核集成极限学习机的故障诊断模型.首先,在p范数约束下,基于各类故障样本自身规模,分别进行了两种自适应的样本权重分配;其次,在每层分类器的优化中,将多核学习的多源数据融合能力和极限学习机运算高效的特点相结合,同时,将样本的权重W更新融入到多核极限学习机的优化进程;最后,通过Adaboost集成策略,自适应提升富含信息的样本在模型中的权重,从而显著提升故障诊断的精度.以6个UCI公共数据集以及1个实装案例为例,进行了故障诊断实验.结果 表明,与核极限学习机、加权核极限学习机(使用W(1)和W(2)加权方式)以及多核极限学习机(在1范数和p范数约束下)相比,诊断精度有显著提升;范数约束形式对模型的诊断性能影响有限.
-
-
蒋杰伟;
雷舒陶;
耿苗苗;
巩稼民;
朱泽昊;
张运生;
刘芳;
吴艺杰;
王育文;
李中文
-
-
摘要:
糖尿病视网膜病变(DR)已成为全球4大主要致盲疾病之一,及早确诊可以有效降低患者视力受损的风险。通过融合深度学习可解释性特征,提出一种DR自动诊断方法,首先利用导向梯度加权类激活映射图和显著图两种可解释性方法生成不同标记的病灶图像,再通过卷积神经网络提取原图像和两种生成图像的特征向量,最后融合3种特征向量并输入到支持向量机中以实现DR的自动诊断。在1443张彩色眼底图像构成的数据集上,相对于基础ResNet50模型,该方法诊断准确率提高3.6%,特异性提高2.4%,灵敏度提高5.8%,精度提高4.6%,Kappa系数提高7.9%,实验结果表明该方法能有效降低误诊的风险。
-
-
贺指陈
-
-
摘要:
在数据分类分析中,一些特别的类别里往往存在更重要的信息。提出一种基于集成学习,欠采样和代价敏感的类别不平衡数据分类算法(USCensemble),来解决传统算法处理类别不平衡数据分类任务时难以正确识别少数类样本的问题。该算法首先运用EasyEnsemble的算法结构,在前一组数据训练完毕后,运用欠采样方法选取权重大的多数类样本,并将其与少数类样本结合为临时训练数据以此平衡数据集并进行下一轮训练。同时赋予少数类样本更大的错分代价,快速提高错误分类的少数类的样本权重,降低多数类的样本权重,使算法更倾向少数类的正确分类,达到对少数类样本正确识别的目的。在10个uci的数据集生成的分类任务上进行了对比实验,实验结果表明,该算法能更好地识别少数类样本。
-
-
方佳锴
-
-
摘要:
为应对不均衡分类问题,提高分类准确率,提出了一种基于高斯混合模型的混合采样集成方法 GMHSE(GaussianMixture-model-based Hybrid Sampling Ensemble method),首先通过高斯混合模型将数据划分成多个类簇,然后在每个类簇上混合采样获得多个数据子集,最后基于Bagging技术在类簇内和类簇间进行加权投票完成分类预测。GMHSE通过聚类将对数据进行划分,混合采样保障在不丢失数据信息的同时获得均衡数据集,最后利用集成学习进一步提升模型的泛化性能。实验结果表明,相比已有的一些处理方法,GMHSE可以提升不均衡数据的分类性能。
-
-
韦惠红;
李剑;
张文言;
雷建军;
陈璇
-
-
摘要:
提前24 h准确预测PM_(2.5)浓度可以有效的避免严重污染天气对人体带来的不利影响.为了提高深度学习模型PM_(2.5)浓度24 h预测的性能和泛化能力,在传统循环神经网络(RNN)模型上添加支持向量回归(SVR)作为下采样层提取非线性特征并降维;然后添加多核卷积神经网络(CNN)提升特征表达能力;最后利用门控循环网络(GRU)可记忆时间序列中长期信息的优势进行时序预测以保证结果的稳定性.对集成SVR-CNN-GRU模型,以2015年1月1日至2020年4月10日武汉及其周边13城市的空气质量数据和地面气象数据为样本进行实例验证,结果表明,SVR-CNN-GRU在武汉市PM_(2.5)24 h预测上的表现明显优于集成之前的RNN、SVR和随机森林回归方法,而且泛化能力更强,拟合优度达到0.97,能够实现高准确度预测,达到提前24 h预警的目的.
-
-
韩海韵;
杨有龙;
孙丽芹
-
-
摘要:
针对许多多示例算法都对正包中的示例情况做出假设的问题,提出了结合模糊聚类的多示例集成算法(ISFC)。结合模糊聚类和多示例学习中负包的特点,提出了“正得分”的概念,用于衡量示例标签为正的可能性,降低了多示例学习中示例标签的歧义性;考虑到多示例学习中将负示例分类错误的代价更大,设计了一种包的代表示例选择策略,选出的代表示例作为基分类器的训练子集;结合各基分类器的结果,确定包的最终标签。ISFC算法对正包中正示例的比例未做任何假设,同时能够解决正包数量多、负包数量少情况下的类别不平衡问题。实验结果表明,ISFC在药物分子活性预测、图像分类、文本分类任务上都取得了较好的分类效果。
-
-
张田华;
罗康洋
-
-
摘要:
我国证券市场中高送转题材股备受中小投资者的追捧,但市场中也存在着借高送转概念炒作的乱象,如何利用上市公司的财务数据挖掘真正有潜力的股票无疑具有重要意义。采用2158家制造业上市公司7年的财务指标作为研究数据,利用采样、特征选择以及集成学习算法构建上市公司高送转预测模型并进行实证研究。结果显示:采样和特征选择方法均能有效提高集成预测模型的性能;相较于数据集中的冗余信息,数据不平衡问题对模型预测准确率的影响更显著;ADASYN+mRMR+XGBoost组合模型取得了最好的预测结果,高送转样本的分类准确率达到84.96%,建议投资者优先选用该组合模型对上市公司的高送转情况进行预测。
-
-
王方伟;
陈景雅;
谢敏慧;
石宝存
-
-
摘要:
针对交通流数据非线性和时序性特点,综合考虑天气因素与交通流量的潜在关系,提出一种基于主成分分析法(PCA)、灰色关联分析法(GRA)和自适应提升(adaptive boosting,AdaBoost)算法相结合的预测模型.首先利用PCA对样本进行降噪处理,再采用GRA计算各天气因素和交通流的非线性关联度,将灰色关联系数大于0.6的相关性强的特征变量输入到AdaBoost集成模型中,进行了模型简化.实验结果表明:与长短期记忆神经网络(LSTM)、分类回归树(CART)、自回归积分滑动平均模型(ARIMA)以及未被优化的AdaBoost集成模型对比,提出的PCAGRA-AdaBoost模型在预测误差和确定系数等指标方面均优于其他传统算法,体现了较高的预测精度.
-
-
郑承宇;
王新;
王婷;
徐权峰
-
-
摘要:
针对医疗文本语义稀疏、维度过高的问题,提出一种基于迁移学习和集成学习的多标签医疗文本分类算法(Trans-LSTM-CNN-Multi,TLCM)。该算法采用ALBERT(A Lite BERT)模型内部的多层双向Transfomer结构对大型语料库展开训练,获取通用领域的文本动态字向量表示。然后,利用医学领域目标数据集通过迁移学习和模型微调技术实现ALBERT预训练语言模型在医学领域的文本语义增强。在此基础上,将上述通过迁移学习得到的文本语义增强模型输入到Bi-LSTM-CNN集成学习模块,进一步提取医学文本内容的重要信息特征。最后,基于二元交叉熵损失函数构造文本多标签分类器实现医疗文本分类。实验结果表明,通过迁移学习和集成学习的TLCM文本分类算法能有效提升医疗文本的分类性能,在中文健康问句数据集上整体F1值达到了91.8%。
-
-
蒋锋;
张文雅
-
-
摘要:
机器学习方法在处理复杂数据、构建高精度模型方面具有显著优势,在不同领域的研究中都得到了广泛应用。数字经济时代为经济领域带来海量数据的同时,也对经济研究提出诸多挑战。机器学习方法能充分挖掘数据中的非线性、非平稳信息,有效提高经济分析结果的精度。机器学习与经济问题的融合改变了传统经济学的研究范式。文章对近年来机器学习方法在经济研究中的应用进行回顾,从通货膨胀、汇率与货币、GDP、劳动力市场、社会稳定、政策评价等角度进行总结,比较了常用机器学习方法的优缺点,并展示了模型的评价准则,如均方根误差、F1-得分、AUC值等。
-
-
WANG Ruijie;
王锐杰
- 《2018中国保险与风险管理国际年会》
| 2018年
-
摘要:
近几年,随着保监会对保险资金投资渠道逐步放开的同时,相应对保险公司的资产负债管理监管力度也不断加强.经研究总结目前各大金融机构的资产负债管理模型,作者发现大部分关注于模型中的“最优解”算法设计,忽视了情景生成技术的研究开发,使得模型得到的最优解缺乏可信度.因此本文着力于研究资产负债的情景生成技术,以期提高资产负债管理模型的应用度.本文分为四个部分,通过运用对比分析、模型构建、实证分析等研究方法,作者创新性地提出观点:基于集成学习情景生成技术的资产负债管理模型在保险公司资产管理方面具有良好的应用前景.第一部分系统梳理了国内外资产负债管理及情景生成方面的理论及方法,作者发现目前资产负债管理模型中均存在情景生成技术薄弱的问题.主要因为现如今常用的情景生成技术对未来情景预测可行度不高,使之资产负债管理效果不佳.因此本文为了提高未来不确定性的情景预测能力,结合运用了近几年在计算机科学领域获得广泛应用的集成学习算法.第二部分系统介绍了集成学习的理论及方法.该方法主要包括Bagging分析法和随机森林算法.通过比较分析两种方法的未来情景预测情况与实际情景的偏差,作者发现在不确定环境下随机森林算法对未来情景生成方面更优于Bagging分析法.第三部分首先基于集成学习法中的随机森林算法搭建了资产负债情景生成技术.然后以此为基础构建了资产负债管理模型.其中资产负债管理模型采用了现阶段技术成熟的含判定规则的多阶段随机资产负债管理模型.具体而言,目标函数采用了多目标的目标函数;最优解求解方法采用了Tabu搜索算法.第四部分进行了实证分析.文章首先收集得到了X保险公司2010-2015年资产负债相关指标的历史数据.然后通过上文构建的资产负债管理模型模拟得到了2016年该公司的资产负债管理方案.接着运用传统情景生成技术对该公司2016年的资产负债管理方案进行了计算.最后依据保监会资产负债管理能力等级对不同方法下的资产负债管理办法进行划分比较,得到结果是:基于集成学习情景生成技术的资产负债管理能力相比传统方法更优异.本文的最大创新之处就是将集成学习算法中优异的随机情景预测功能运用到资产负债管理模型的情景生成技术环节,极大地提高了资产负债未来情景预测能力.
-
-
-
徐禹洪;
黄沛杰
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
针对现有文本分类方法在即时性文本信息上的挑战,考虑到即时性文本信息具有已标注数据规模小的特点,为了提高半监督学习的分类性能,本文提出一种基于优化样本分布抽样集成学习的半监督文本分类方法.首先,通过运用一种新的样本抽样的优化策略,获取多个新的子分类器训练集,以增加训练集之间的多样性和减少噪声的扩散范围,从而提高分类器的总体泛化能力;然后,采用基于置信度相乘的投票机制对预测结果进行集成,对未标注数据进行标注;最后,选取出适量的数据来更新训练模型.实验结果表明,该方法在长文本和短文本上都取得了优于研究进展方法的分类性能.
-
-
张桂东;
王瑞;
马双斌;
李欣蕊;
郭倩
- 《第六届全国网络安全等级保护技术大会》
| 2017年
-
摘要:
针对入侵检测模型在多数样本类和少数样本类攻击样本识别检测的不均衡性,提出用集成学习构建入侵检测模型,结合Random Committee算法和Stacking集成学习框架,BayesNet和RandomTree作为个体分类器,通过特征选择提升模型性能的研究.通过实验仿真,证明提出的模型是可行的.
-
-
XU Xiaoyu;
徐潇雨;
SUN Yifeng;
孙怡峰;
Sun Yi;
孙艺
- 《第十三届全国信息隐藏暨多媒体信息安全学术大会》
| 2016年
-
摘要:
为检测图像是否隐藏秘密信息,提出一种结合集成学习与深度学习的分类器.分析得出基于FLD(Fisher Linear Discriminant)的集成分类器对待检测特征的处理过程等同于一个三层神经网络.参照集成分类思想,使用多个卷积核结合所提RandomPooling方法,由特征空间提取多个相互独立的随机子集并对这些子集完成不同的卷积处理.探究深层网络结构和参数,提高检测率.实验表明,SRM特征加上所提分类器在检测嵌入率为0.4bpp的hill隐写算法时,检测性能接近SRM特征加上集成分类器.
-
-
-
Tao Chen;
陈涛;
Li Zhu;
朱丽;
Ruiqing Niu;
牛瑞卿
- 《第五届高分辨率对地观测学术年会》
| 2018年
-
摘要:
以三峡库区秭归至巴东段为研究区,从多源空间数据中提取9个致灾因子作为区域滑坡易发性分析的评价指标,基于Boosting集成学习原理,训练和构建梯度提升树(Gradient Boosting Decision Tree,GBDT)模型,利用训练好的GBDT模型对研究区进行滑坡易发性分析与评价,并与随机森林模型和信息量模型进行对比分析.通过受试者工作特征曲线和曲线下的面积对三种模型进行精度评价,结果表明GBDT模型预测精度为98.9%,高于其它两种模型,表明该模型在滑坡易发性评价中具有较高的预测能力.
-
-
-