您现在的位置: 首页> 研究主题> 特征工程

特征工程

特征工程的相关文献在2006年到2022年内共计276篇,主要集中在自动化技术、计算机技术、电工技术、无线电电子学、电信技术 等领域,其中期刊论文181篇、会议论文1篇、专利文献302235篇;相关期刊142种,包括福建质量管理、情报杂志、电子科技大学学报等; 相关会议1种,包括第三届学术计算语言学研讨会等;特征工程的相关文献由884位作者贡献,包括张德辉、刘挺、周国栋等。

特征工程—发文量

期刊论文>

论文:181 占比:0.06%

会议论文>

论文:1 占比:0.00%

专利文献>

论文:302235 占比:99.94%

总计:302417篇

特征工程—发文趋势图

特征工程

-研究学者

  • 张德辉
  • 刘挺
  • 周国栋
  • 张进
  • 徐以旭
  • 王岩
  • 付开华
  • 何丹丹
  • 何彦青
  • 余舟华

特征工程

-相关会议

  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 胡小宁
    • 摘要: 云数据中心的分布式应用故障具有复杂性、随机性等特点,导致应用的运行与维护(简称:运维)管理任务难度大、效率低。为此,提出一种云数据中心应用故障预测方法,构建基于门控循环单元(GRU,Gated Recurrent Unit)循环神经网络(RNN,Recurrent Neural Network)的云数据中心应用故障预测模型,对云数据中心的应用监控数据进行分析处理并预测将要出现的应用故障。试验结果表明,本方法预测精确率满足应用运维管理中故障提前发现和处理的相关要求,在降低应用运维管理难度和提升运维效率方面具有一定的实用价值。
    • 康文豪; 徐天奇; 王阳光; 邓小亮; 李琰
    • 摘要: 为解决风电历史数据挖掘不充分导致的预测精度不高问题,提出一种基于特征工程、蝠鲼觅食优化算法(Manta Ray Foraging Optimization,MRFO)和极端随机树(Extremely Randomized Trees,ET)模型的短期风电功率预测方法。首先对时间特征提取小时属性特征,并通过对风速、风向和温度等原始气象特征进行特征创造,从而充分挖掘历史数据的隐含信息,同时通过PCA方法降低数据维度。其次,将降维后的数据输入ET模型,并利用MRFO优化ET模型的参数;最后,以新疆某风电场实测数据进行了算例仿真。结果表明:与5种典型机器学习模型相比,ET模型具有更高的风电预测准确度。与单一ET模型相比,特征工程-ET模型较大程度地提高了预测精度,验证了特征工程方法的有效性。在同等条件下,特征工程-MRFO-ET模型比使用特征工程-ET模型均方根误差和平均绝对误差分别降低了29.46%和36.54%,而拟合优度系数提高了3.97%。与此同时,特征工程-MRFO-ET模型也比特征工程-GA-ET模型和特征工程-PSO-ET模型拥有更高的预测精度。研究成果可为解决短期风电功率预测问题提供了一种新的思路。
    • 金晟; 苏盛; 薛阳; 杨艺宁; 刘厦; 曹一家
    • 摘要: 配电系统窃电是造成电网非技术损失的主要原因,是供电企业运营管理中长期面对的痼疾。用电信息采集系统采集的海量用户数据使得开展数据驱动的用电异常检测、准确识别窃电用户成为可能。受用户用电行为多样性影响,数据驱动的窃电检测方法的误报率在某些场景下尚难以满足实践需求,严重制约了该类方法的工程应用。首先,介绍了窃电实现手法;然后,梳理了在实践中得到工程应用的窃电检测方法以及数据驱动窃电检测方法的基本思路和局限性;在此基础上,结合工程应用对窃电检测评价指标的差异性需求,分析指出提取的可用信息不足、特征指标项灵敏性和可靠性不高是阻碍数据驱动窃电检测方法走向工程实用的主要原因。最后,从算法设计、状态空间细分以及特征指标项设计选择等不同层面对低误报率窃电检测进行了展望。
    • 陈晨; 李勇男; 王铭戬
    • 摘要: [研究目的]在GTD海量恐怖主义活动数据中,存在特征影响恐怖袭击目标实现,使用机器学习方法建立恐怖袭击预警模型,可为反恐预警提供决策支持。[研究方法]通过预测恐怖袭击目标实现风险,可发现恐袭预警重要性特征。对135维GTD特征进行特征筛选、归一化、独热编码、卡方检验、PCA降维,利用Lightgbm算法在内四种机器学习算法测试评估,并根据Lightgbm算法特征重要性,控制变量并重复实验得到重点及突增点特征。[研究结果]综合评价指标,证明Lightgbm算法在表现上优于其他机器学习算法,在保证样本类别1∶1均衡的前提下,910次实验其平均准确率为0.7986,召回率为0.7852,f1值为0.7832,平均运行时间为3.57s。Lighgbm算法在GTD数据上可有效提高分类效果,attacktype突增点特征及前十四顺位特征应作为重点特征辅助预警决策。
    • 王小可; 陈泱霖; 王娅; 张栋
    • 摘要: 有序、高效的运营是现代化公共交通系统应具备的主要特征之一。然而大量实测数据显示,公交线路上普遍存在着车辆偏离调度聚集行驶以及在站点处密集到达的聚簇现象,影响了乘客的出行体验,也造成了运力的浪费。本研究从数据驱动的角度出发,提出了基于特征工程的常规公交车辆聚簇行为预测的思路,并结合青岛市322路公交车实际运行数据完成了理论模型验证。结果表明,基于“本站前序班次的车头时距”以及“上游三个站点的车头时距的方差”两个特征的Logistic回归模型可以较好地预测公交车辆聚簇行为的发生,对于缓解公交车辆运行过程中的聚簇现象具有较强的现实意义。
    • 张少伟; 王鑫; 陈子睿; 王林; 徐大为; 贾勇哲
    • 摘要: 实体关系联合抽取作为信息抽取领域的核心任务,能够从非结构化或半结构化的文本中自动识别实体、实体类型以及实体之间特定的关系类型,为知识图谱构建、智能问答和语义搜索等下游任务提供基础支持。传统的流水线方法将实体关系联合抽取分解成命名实体识别和关系抽取两个独立的子任务,由于两个子任务之间缺少交互,流水线方法存在误差传播等问题。近年来,实体关系联合抽取成为新的研究趋势,其可以建立统一的模型使得不同子任务彼此交互,进一步提升模型性能。对有监督实体关系联合抽取方法进行综述,根据抽取特征的不同方式,可将实体关系联合抽取分为基于特征工程的联合抽取和基于神经网络的联合抽取两种类型。首先,介绍基于特征工程的联合抽取,包括整数线性规划、卡片金字塔解析、概率图模型和结构化预测四种方法,这四种方法都需要采用相对复杂的特征工程方法。然后,介绍基于神经网络的联合抽取,这类方法可以自动抽取特征信息,已逐渐成为联合抽取的主流方法,其主要包括共享参数和联合解码两种类型。接着,介绍有监督实体关系联合抽取常用的七个数据集以及评价指标,并对不同的实体关系联合抽取方法进行了实验对比分析。最后,展望实体关系联合抽取的未来研究方向。
    • 陈丽琼; 王璨; 宋士龙
    • 摘要: 即时软件缺陷预测是保障软件安全与质量相统一的必要途径,在软件工程领域受到越来越多的关注.然而,现有数据集存在特征冗余和特征相关性低的情况,极大影响了即时软件缺陷预测模型的分类性能和稳定性.此外,分析缺陷数据特征对模型的影响尤为重要,但如今对软件缺陷预测模型进行解释性研究较少.针对这些问题,文章基于6个开源项目的227417个代码级变更的大规模实证研究,创新性地选择了SHAP+SMOTEENN+XGBoost(SHAP-SEBoost)构建即时软件缺陷预测模型.首先通过SHAP(SHapley Additive exPlanation)模型可解释器分析初始数据集特征,并根据分析结果对数据集进行相应的特征选择与组合.然后,利用SMOTEENN对类不平衡的缺陷数据进行正负样本均衡化,使用集成学习算法XGBoost对实验数据进行预测建模.最后,使用SHAP对本文模型进行可解释性分析.实验结果表明SHAP-SEBoost有效地提高了分类性能,与基线模型以及近年优秀模型相比AUC平均提高11.6%,F1平均提升33.5%.
    • 汤占军; 肖遥; 李英娜
    • 摘要: 风机叶片结冰的现象严重影响风电发电效率,若在结冰状态下风机仍照常工作,不仅会影响经济效益,严重时还会直接损坏叶片等设备引发安全事故。传统手段通过人工观察、安装设备等方法效率低下。为此提出一种使用SVMSMOTE过采样与RFECV算法结合的特征工程,并采用全连接深度神经网络模型提前准确预测叶片结冰情况,以便及时采取相应措施,保证设备与人员的安全,提高发电效益。实验结果表明,深度学习模型经过训练后测试集准确率达到99.13%,比无特征工程条件下相同模型准确度提高了1.56%;此外,当该模型泛化应用到另一风机数据集时,故障诊断的准确度也达到92.3%,证明了该方法的有效性,该模型与KNN、SVM等传统机器学习模型相比,准确度、召回率等重要指标表现更好,为风机叶片结冰的诊断问题提供了一种新的解决思路。
    • 贾志强; 李涛; 乐金祥
    • 摘要: 消费行为预测在营销活动中具有重要的价值,其预测效果主要取决于特征工程与算法建模。通过特征提取与新特征发现,提出定长与变长滑动窗口相结合的特征提取方法和基于先验知识与矩阵分解的特征交叉方法。特征提取方法考虑样本不平衡和用户消费习惯,提取更多的样本数据并给特征加上时间属性,而特征交叉方法考虑商品与用户之间隐含的关联关系,提取有关联的新特征。对于单一模型预测效果较差的问题,采用stacking策略构建集成学习模型,以XGBoost、随机森林和梯度提升决策树作为初级学习器对特征进行变换,以逻辑回归作为元学习器对用户消费行为进行预测。实验结果表明,该特征工程方法在多个模型算法中均能明显提高精准率,该集成学习模型预测效果要比单个模型更好。
    • 陈长友; 傅钰雯; 涂沛驰; 舒文; 杨健晟
    • 摘要: 利用火焰颜色建模测量火焰当量比是燃烧诊断技术的一个新兴研究方向。目前的建模方法主要利用RGB(Red-green-blue)模型中蓝色/绿色特征(B/G)作为模型输入,但通过单一颜色比值简单拟合得到的颜色-当量比模型存在较大的不确定性及测量误差,因此本文提出利用多颜色模型下的多颜色特征参数作为模型输入。首先,采用数字火焰颜色分布(Digital flame colour distribution,DFCD)技术对采集甲烷燃烧预混火焰图像进行处理并获取火焰图像目标区域(Region of interest,RoI)。其次,综合分析火焰颜色特征变量构建特征工程,设计并提取火焰目标区域的不同颜色模型下的多颜色特征,共计36维火焰颜色特征,利用Spearman秩相关性分析与随机森林(Random forest,RF)算法筛选出表征燃烧当量比更深层的颜色特征,得到16维优质特征子集。最后,通过优化持向量机(Support vector machine,SVM)参数选择,并采用网格搜索方法(Grid search method,GSM)寻求最优参数优化SVM,进一步利用特征工程构建得到的特征子集训练SVM以建立预混火焰燃烧当量比软测量模型。将该算法与传统的BP神经网络和极限学习(Extreme learning machine,ELM)算法进行对比,实验结果表明,本文方法具有较好的回归预测效果,均方误差(Mean square error,MSE)低至0.023。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号