摘要:高性能并行计算的唯一目的就是追求尽可能高的极限性能,这一尝试包括使用最先进的超级计算机,最快的并行算法,也包括选择更合适的编程模型与最大化程序性能的优化方法。现代网络支持RDMA以及PGAS语言,如UPC,支持远端CPU无意识的单边通信,这些特性促进了高效重叠通信与计算的优化,可以显著提高通信受限程序的性能。但是通常传统并行程序,主要是MPI程序,多使用大块通信和计算,这样重叠优化的空间很小,我们通过把粗粒度的通信和计算分裂成细粒度来获得更好的重叠。本文在支持RDMA的Infiniband网络上使用UPC高效的单边通信来实现 重叠优化,针对带宽受限的NAS FT程序进行细粒度化,并尝试参数化细粒度版本寻找最优的粒度追求极限的优化性能。在曙光4000A系统上实验表明,相比粗粒度阻塞通信的UPC版本,最优粒度的重叠优化FT 版本在8处理器上A、B规模分别获得了48.75%和80.34%的性能加速。