首页> 中文学位 >毫米波MIMO系统接收机算法的并行化设计与GPU实现
【6h】

毫米波MIMO系统接收机算法的并行化设计与GPU实现

代理获取

目录

声明

摘要

插图目录

表格目录

本论文专用术语的注释表

第一章 绪论

1.1 论文的研究背景

1.1.1 毫米波无线通信技术的发展

1.1.2 基于GPU高性能并行计算的研究现状

1.2 论文的内容安排

1.3 数学符号约定

第二章 IEEE 802.11aj SC-MIMO物理层收发机关键技术

2.1 引言

2.2 发射机模块

2.2.1 扰码器

2.2.2 LDPC编码器

2.2.3 块补零

2.2.4 流解析

2.2.5 星座映射

2.2.6 空间扩展

2.2.7 脉冲成型

2.3 接收机模块

2.3.1 均衡检测

2.3.2 LDPC译码器

2.4 本章小结

第三章 MIMO接收机均衡检测算法的并行化优化设计

3.1 引言

3.2 系统模型

3.3 低复杂度复数矩阵求逆算法方案

3.3.1 Givens旋转变换

3.3.2 SDF-SGR算法方案设计

3.3.3 回代算法

3.3.4 矩阵求逆

3.4 复杂度分析

3.5 仿真结果

3.6 本章小结

第四章 基于混合多核架构的大维矩阵求逆算法实现

4.1 引言

4.2 混合多核架构模型

4.2.1 CPU线程与GPU线程

4.2.2 多核与众核

4.2.3 外部存储器

4.2.4 缓存

4.2.5 主机与设备

4.2.6 线程结构

4.2.7 CUDA软件体系

4.2.8 CUDA存储器模型

4.3 基于混合多核架构的快速并行化矩阵求逆实现方案

4.3.1 CUDA初始化

4.3.2 调用device端的kernell进行并行计算

4.3.3 在host端计算上三角矩阵U的逆矩阵

4.3.4 调用device端的kernel2进行并行计算

4.4 仿真结果

4.5 本章小结

第五章 基于IEEE 802.11aj的包编码的译码方案设计及GPU实现

5.1 引言

5.2 基于LDPC码的包编码方案

5.2.1 码块分割方法

5.2.2 LDPC编码

5.2.3 数据包编码

5.2.4 比特选择方法

5.3 LDPC译码方案

5.3.1 置信传播(BP)译码算法基本原理

5.3.2 解比特选择

5.3.3 分层修正最小和译码算法

5.3.4 Min-Sum算法计算错误码块的软比特信息

5.4 基于GPU的包编码译码方案实现

5.4.1 CUDA初始化

5.4.2 调用device端kernell函数进行解比特选择

5.4.3 基于分层修正最小和算法对每个LDPC码字译码的并行化实现

5.4.4 host端基于Min-Sum算法更新错误码块的软比特信息

5.5 仿真结果

5.5.1 译码性能仿真

5.5.2 GPU并行实现性能仿真

5.6 本章小结

第六章 全文总结

附录

参考文献

作者攻读硕士学位期间的研究成果

致谢

展开▼

摘要

移动互联网的蓬勃发展,驱动着对新一代移动通信技术的需求,5G是面向2020年以后移动通信需求而发展的新一代移动通信系统,5G系统的核心技术之一就是毫米波技术。毫米波波长短,因此发射和接收模块集成度高,非常适合MIMO架构。然而随着MIMO系统配备的天线数目的增加,MIMO系统的实现复杂度也不断增加,算法并行化成为缓解这种矛盾的重要手段;另一方面,由于GPU在并行计算方面的巨大优势,基于GPU实现的通信并行算法的研究也是当前通信领域的研究热点。本文面向新一代移动通信系统,对毫米波MIMO接收机的算法并行化设计展开研究,论文主要工作和创新点如下:
  首先,研究了MIMO接收机均衡检测模块的并行化优化设计。提出一种低复杂度的快速并行矩阵求逆方案,该方案基于改进的Givens旋转算法,可以有效地避免Givens旋转过程中的开方运算以及除法运算,从而降低复数矩阵求逆问题的复杂度。相比于传统的矩阵求逆算法,该算法在降低除法复杂度方面有显著改善,尤其相对于经典的SGR算法,提出的复数矩阵求逆方案可以节省的峰值乘法操作达到14.3%,可以节省的峰值除法操作更是接近60%。基于MATLAB的仿真结果表明,对于数百维甚至上千维的大维矩阵,提出的算法方案仍然适用,说明对于大规模MIMO(MassiveMIMO)接收机,该算法依然具有实用性。
  然后,基于混合多核架构平台,对该复数矩阵求逆方案进行了并行化实现。基于CUDA平台的实现结果表明,随着矩阵维数的增加,并行化实现体现的优势越来越明显:当矩阵维数超过500×500时,基于混合多核架构并行实现的CMI算法耗时在102毫秒量级,而基于CPU串行实现的CMI算法耗时在104毫秒量级,此时,并行算法实现能获得超过20×的加速比,吞吐率能达到lgigaflops/s。
  接着,研究了针对数据包编码的迭代译码方案。TGaj工作组提出的数据包编码方案,是一种新的改进的LDPC编码方案,针对这种包编码的译码研究并不多,本文提出一种基于分层修正最小和算法的迭代译码算法。采用分层修正最小和译码算法对每个LDPC码字译码,然后基于Min-Sum算法计算错误码块的软比特信息,并返回迭代译码,直到达到最大迭代次数或者所有的LDPC码块均译码正确,则译码结束。仿真结果表明,不同调制方式下,经过包校验的迭代译码算法均能取得增益:QPSK调制下,随着码率和码字个数的不同,可以取得0.3~1.0dB的增益;在16-QAM以及64-QAM调制下,随着码率的不同,分别可以取得0.5~0.55dB和0.55~1.1dB的增益。
  最后,基于GPU并行架构,对该译码方案进行了并行化实现。实现结果表明:基于GPU平台的并行实现相对基于CPU平台的串行实现在运行时间上有很大的优势。当译码迭代次数在30次、码字个数等于10、25以及50时,并行实现相对串行实现的运行时间均能获得4×的加速比;运行时间加速比跟迭代次数呈正相关,而随着码字个数的减少,呈下降的趋势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号