摘要:随着大数据时代的到来,各大互联网公司对于数据的重视程度前所未有,各种业务对数据的依赖越来越重,现今的数据处理系统大体上可以分为批处理和实时处理两种,并且各项业务对实时性的要求越来越高.此外随着云计算的普及,越来越多的客户选择使用基于云的服务以避免冗余的设施购买费用和繁杂的系统设计与维护,从而将精力集中在自己的专业领域.本文通过对当前实时计算框架的深入分析,构建基于互联网公司大数据高性能分析系统,该系统具备良好的鲁棒性、扩展性、兼容性,并且能依据数据特征自适应的选择处理引擎.实验证明,相比纯Hadoop构建的大数据处理系统,本系统可以在数据计算方面提高至少50%,至多30倍的加速,此外通过基准测试工具能提高15倍的性能,并且在大量批处理的ETL 计算中也能达到40%的性能提升,该大数据系统已经良好运行半年,广泛服务于网易公司的各方面业务.