新闻动态

祝贺谢小龙通过博士论文答辩

2018-06-10

    2018年6月7日,中心在理科5号楼410会议室组织了谢小龙同学的博士论文答辩。谢小龙同学的指导教师为中心特聘研究员梁云博士。中心罗国杰老师、孙广宇老师、梁云老师、许辰人老师,中国科学院计算技术研究所冯晓兵、清华大学刘勇攀等作为评委参加了答辩。

   谢小龙同学以“面向GPU存储系统的跨层次优化技术”为题进行了答辩汇报。此次答辩会上,谢小龙同学认真讲解了博士论文的研究意义与学术贡献,并就各位评委提出的问题进行了清楚、细致的回答。评委们一致认为,谢小龙同学在答辩过程中,准备充分、表述清楚,对评委的提问做出了准确的回答,评委们投票一致同意,通过谢小龙博士学位论文答辩,并建议授予其理学博士学位。

   谢小龙同学在读期间发表学术论文9篇,包括体系结构领域顶级会议MICRO, HPCA等。他在体系结构领域的突出成果获得了老师们的一致认可。谢小龙同学在读期间获得了CECA最佳研究生称号。

附:论文摘要

相比于CPU,GPU作为一种众核处理器,牺牲了复杂的硬件逻辑结构和大容量片上缓存,从而节约了大量芯片面积。因此,同样芯片面积的情况下,GPU可以提供更高的访存带宽和更多的计算单元,从而实现更高的性能。但是,GPU的高性能并不是免费的。由于GPU的发展时间较短,研究人员和开发者对于GPU体系结构的了解并不多。GPU的特殊架构使得开发者需要手动地在代码中向底层硬件暴露数据和指令并行性。同时,GPU允许开发者对缓存、寄存器、共享存储等芯片资源进行手动控制。复杂的体系结构和编程模型为GPU的设计者和开发者带来了巨大的挑战。

   

尽管GPU提供了大量的计算资源,但是充分利用GPU的硬件资源、实现性能的最大化并不是一个简单的任务。本文发现,大量的应用性能的瓶颈是GPU的存储系统。为了提升GPU的计算能力,学术界和产业界需要对GPU存储系统的优化问题展开研究。由于GPU存储系统提供了不同类型的资源,不同类型的资源所适合的应用场景不同、使用方法不同,涉及到了算法、编译、体系结构等多个层次。因此,本文指出传统的单一优化手段往往无法实现最佳的存储系统优化效果。本文提出,为了实现GPU存储系统性能的最大化,必须进行跨层次优化。

 

本文的第一部分是绪论部分,主要描述研究背景、总结相关研究,并说明本文的研究意义和开展相关研究的必要性。在本文的第二部分、第三部分和第四部分,分别展示如下三项主要创新点和贡献:

本文的第二部分指出与CPU的缓存系统相比,GPU的缓存系统存在的性能问题,并针对GPU缓存提出了准确的分析型模型。基于该模型,本文提出在编译层和体系结构设计层对GPU缓存系统进行跨层次优化,从而实现最佳的缓存效率。

本文的第三部分对GPU的优化工具链进行分析,指出仅仅在编译层优化寄存器分配问题,会导致GPU的缓存性能、并发度管理等体系结构层问题无法得到最优解。基于该观察,我们提出在编译层和体系结构层对GPU的缓存、寄存器文件和共享存储管理进行综合优化。

本文的第四部分讨论GPU在加速访存密集型稀疏机器学习应用时的优势和挑战。我们将该类应用的优化工作划分为负载划分、并行化、核函数优化三个步骤,然后在算法设计、编译、体系结构等多个层次对每个步骤进行优化,从而实现远比传统解决方案快(最多28.2倍)的系统吞吐率。

本文对GPU的应用分析、算法设计、编译优化、体系结构设计等均有贡献。