首页> 中文会议>2011年中国卫生统计学年会 >随机森林回归分析方法及在代谢组学中的应用

随机森林回归分析方法及在代谢组学中的应用

摘要

目的:探讨随机森林回归处理非线性、共线和具有交互作用数据的性能,并将随机森林回归应用于高维代谢组学数据的代谢网络构建.方法:通过模拟试验验证随机森林回归在线性、交互和非线性(多项式和指数)关系及不同的样本含量条件下回归分析性能,并同多元线性回归分析相比较.针对卵巢癌良恶性肿瘤鉴别的代谢组学数据,在随机森林判别分析确定的51个生物标志物的基础上,应用随机森林回归分析探索生物标志物之间的复杂的相互关系.结果:模拟实验结果显示:若自变量与应变量间为线性关系,随机森林回归模型的效果与多元线性回归模型相近;对于具有交互作用及其他非线性关系的模拟数据,随机森林回归模型的效果明显优于多元线性回归模型.实际卵巢癌代谢组学数据分析显示:代谢组学数据具有共线性和交互作用等复杂的非线性关系,设定羟丙酮酸(V2409)作为靶向标志物,应用随机森林回归在其他50个代谢标志物中筛选出5个最具有潜在调控作用的代谢物质,进而根据这6个代谢标志物建立了贝叶斯调控网络,结果理想.结论:随机森林回归作为一种非参数回归技术,在能够保证具有一定数量的样本含量(n>100)的情况下,对复杂数据具有优良的性质,能够在高维数据中有效地分析非线性和具有交互作用的数据,同时对共线性问题不敏感,可以有效地应用于高维代谢组学数据的代谢调控网络分析.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号