新闻动态

祝贺中心博士生王鹏顺利通过博士论文答辩

2016-12-22

       2016年12月22日,中心在理科5号楼410会议室组织了王鹏同学的博士论文答辩。王鹏同学的指导教师为中心主任丛京生教授与孙广宇老师。中心罗国杰老师、孙广宇老师,北京大学信息科学技术学院代亚非教授、肖臻研究员,清华大学计算机系舒继武教授,清华大学电子系刘勇攀副教授等作为评委参加了答辩。

       王鹏同学主要针对大数据时代数据中心存储系统的软硬件协同优化开展了一系列原创性研究。此次答辩会上,王鹏同学认真讲解了博士论文的研究意义与学术贡献,并就各位评委提出的问题进行了清楚、细致的回答。评委们一致认为,王鹏同学在答辩过程中,准备充分、表述清楚,对评委的提问做出了准确的回答,评委们投票一致同意,通过王鹏博士学位论文答辩,并建议授予王鹏同学理学博士学位。

       王鹏同学在读期间已发表学术论文8篇,包括北京大学为第一单位的首篇ACM EuroSys论文(计算机系统领域顶级会议)。他在数据中心存储系统研究中获得的突出成果得到了老师们的一致认可。王鹏同学博士在读期间先后获得博士研究生校长奖学金、中心2013-2014年度最佳研究生等奖励。

 

 

附:论文摘要

       近年来,大数据技术迅猛发展。在这种背景下,数据中心对存储系统的要求不断提高,存储系统的重要性日渐突出;与此同时,存储界在近年来也发生了巨大的变化,各种新型存储硬件不断涌现。然而,传统的存储系统在设计时没有针对新型存储硬件做出优化,没有充分利用这些硬件的特性,因此硬件的潜能并没有得到充分挖掘。另一方面,数据中心对大规模分布式存储系统的需求也引导着新硬件设计的方向,如何在体系结构上契合存储应用的需求也成为了一个日趋重要的课题。从这两点出发,本文围绕着数据中心中若干种典型的数据存储系统从软硬件协同优化的角度展开研究。

       本文的研究内容及创新点如下:

       1. 开放通道式固态盘上的LSM树键值存储(LOCS)。LOCS充分考虑LSM树键值存储访问模式的特点,利用百度公司提供的开放通道式SSD提供的接口,首次将LSM树结构的键值存储和开放通道式SSD进行了整合,通过对键值存储的请求的分配和调度,显著提升IO吞吐性能。

       2. 固态盘数据运算本地加速(Active SSD)。本研究以大规模 Web 数据分析系统作为应用场景,通过从 CPU下放特定计算任务至 SSD控制器本地处理元件的方案来提高存储系统的能效。本研究基于Web数据分析中计算任务的特性,设计了 Active SSD,解决了有关其中正常数据存储和本地计算之间的干扰问题。

       3. 支持混合部署的分布式文件系统(InterFS)。InterFS是一个支持混合部署的分布式文件系统,旨在充分利用数据中心在线集群中的存储资源。InterFS采用了智能资源隔离、峰值负载避让和基于区域的副本放置方案等策略,有效解决了数据中心在线集群存储容量低利用率的问题。InterFS可以与其他资源密集型服务进行混合部署而不会产生干扰,充分满足了数据中心中小规模长尾应用程序的存储要求。

       4. 内存键值存储系统的预取优化。基于哈希索引的内存键值存储(IMKV)的访存模式存在着一定的规律性,即一个访问索引的内存访问后总是跟着一个对值数据的访问。本研究针对这种数据访问模式,通过预取技术来提升性能。

       5. 针对内存数据库的行列对称访问内存(RC-NVM)。数据库工作负载可以分成以行访问为主的 OLTP 和以列访问为主的OLAP 两类。内存中一般按行存储数据,有利于OLTP 应用。然而,对于以列访问为主的 OLAP 应用则导致了跨步内存访问现象,大大降低了访存效率。本研究提出了一种称为 RC-NVM 的新型存储器架构,在硬件上同时支持内存数据库的按行、按列访问。实验结果表明,RC-NVM能取得更好的性能。

       存储系统的优化是一个复杂的问题。本文发现,同时对软硬件进行协同优化是一种行之有效的手段:存储系统软件需要根据硬件来优化,存储硬件需要根据上层软件的需求而进行设计,二者相互配合,才能达到最好的效率。本文提出的一系列软硬件协同优化方法为数据中心新型存储系统的设计提供了一条重要的研究思路,并且通过实验进行了验证。本文相关内容多次在系统领域的国际重要会议上发表,有望推动当前数据中心高效存储的发展。