新闻动态

祝贺李秀红通过博士论文答辩

2019-06-01

2019年5月31日,高能效计算与应用中心在理科5号楼410会议室组织了李秀红同学的博士学位论文答辩。李秀红同学的指导教师为中心特聘研究员梁云博士,中国科学院计算技术研究所冯晓兵老师、清华大学翟季冬老师、北京大学数学学院姜明老师、中心梁云老师、罗国杰老师、孙广宇老师,作为评委参加了答辩。

  李秀红同学以“面向不规则应用的GPU优化技术”为题进行了答辩,就博士论文研究背景和意义,以及针对该问题提出的创新技术等方面做了清晰汇报,并且就各位评委提出的问题进行了清楚准确的回答。评委们一致认为,李秀红同学在答辩过程中,思路清晰、表述流畅准确,对评委的提问也做出了准确的回答。评委们一致同意通过李秀红博士学位论文答辩,并建议授予其理学博士学位。

  李秀红同学在读期间以一作身份发表学术论文5篇,包括体系结构领域顶级会议PPoPP和ICS等。他在GPU高性能计算方面的创新成果获得了答辩委员会的一致认可。李秀红同学在中心读博期间获得过国家奖学金、北京大学学习优秀奖等,在商汤科技公司实习期间获得过商汤科技实习生之星称号。

附:论文摘要

  近年来,大量的新型应用不断涌现出来,这些应用对计算设备的计算能力也提出了更高的需求。传统中央处理器 CPU 的体系结构侧重在通用性上,难以充分发掘应用 本身的并行性,以高并行性和众核结构为主要特征的通用图形处理器 GPU 应运而生。 GPU 将 CPU 上原本用于复杂逻辑和片上缓存的芯片资源重新设计为大量的计算核心, 使其成为一种众核处理器,然后通过成千上万的线程并行执行来获得非常高的计算能力和访存带宽。因此,GPU 非常适合拥有大量数据并行性、访存连续且规则的应用。 对于数据并行性不够或者访存行为不规则的应用,虽然仍然可以使用 GPU 进行加速,然而充分利用 GPU 的计算资源和访存资源从而达到极致的性能却非常困难。

  本文首先指出应用本身的特征与 GPU 的体系结构特征之间的不吻合是 GPU 上不规则应用的根本原因。因此,本文的核心是深入分析 GPU 的体系结构特征,指出不规则应用在 GPU 上优化的症结所在。围绕这一核心,本文提出了一整套线程级并行性管理方案。本文从三个方面分析了与 GPU 系统结构相关的不规则应用的特征:缺乏并行性、访存不规则和资源利用不均衡。首先,当应用规模较小时,与 GPU 具有大量线程并行性这一体系结构特征不符,从而导致无法充分利用 GPU 的计算能力。我们称这一问题为并行性不足问题,为此本文提出了一种针对相同类型小任务的批执行技术,并且以小矩阵乘法为例介绍了统一线程结构和分块决策算法。其次,当应用具有零散、 不对齐的访存模式时,与 GPU 的访存聚合这一体系结构特征不符,从而导致无法充分利用 GPU 的高带宽能力。我们称这一问题为不规则访存问题,为此本文提出了一种线程映射的技术,通过统一的图算法可以建立线程与任务之间的映射关系来减轻不规则访存带来的性能损失。最后,由于应用自身对计算资源或者访存资源会存在不同程度的偏好,考虑到 GPU 上同时配备了大量的计算和访存资源这一特征,因此单一的应用往往无法充分均衡地利用 GPU 的资源。我们称这一问题为不均衡资源利用问题,为此本文提出不同任务的并发执行技术,通过不同应用资源互补来实现 GPU 资源的均衡充分利用。

  事实上,这三个技术不仅围绕着同一个核心:GPU 体系结构特征与应用特征的不 吻合;而且拥有相同的优化层次:线程级并行性管理。首先,我们通过批执行技术,来提高线程并行性;然后,我们通过线程映射,针对性地改变线程与任务之间的对应关系;最后,我们通过多任务并发执行技术,对不同的任务进行线程分配以调控资源的互补利用和冲突缓减。因此,这三种技术有着紧密的关联。而且,这三种技术是非常通用的,并不是只能针对某个应用。最后,本文最后以深度神经网络为例,将这三种技术协同应用在深度神经网络性能优化方面,进一步验证了这三种技术的通用性和关联性。