向全球快速扩散的中国超算,让中国速度有了新的联想


美国著名高性能计算专家、美国印第安纳大学计算机教授、美国橡树岭(Oak Ridge)国家实验室访问学者Thomas Sterling在2018年6月23日接受美国媒体采访时表示,近期中国在全球高性能计算市场取得主导地位这一现象非常值得关注。他表示,中国已经展现了显著的创新能力,已经部署的高性能计算系统也很具有竞争力。此外,中国正在快速学会如何把这些超级计算机系统应用到现实世界中,解决实际的问题。

2018年6月25日,在2018年超级计算机大会(ISC)大会上公布了新一届全球高性能计算TOP 500(也称:超算TOP 500)榜单。尽管一度蝉联了TOP 500榜首的中国“神威·太湖之光”在今年让位给了美国橡树岭国家实验室的超级计算机SUMMIT,但中国的超算系统规模已经成功扩大到了全球。今年,联想以117套的份额成为首家在该榜单中问鼎全球第一的中国厂商,这也意味着联想成为了全球最大的TOP 500超算平台提供商。

实际上,去年联想曾设定目标到2020年成为TOP500超算系统提供商,现在提前两年实现了这一目标。TOP 500超算系统中约每四套系统中就有一套来自联想,这意味着中国正在成为全球创新的主力技术供应商。

中美争霸全球技术制高点

世界超级计算机TOP 500榜单,每年发布两次排名,每年6月份在德国召开一次全球超级计算大会并发布一次排名,11月份在美国开一次全球超级计算大会并发布一次排名。

在最新发布的2018年6月TOP 500榜单中,来自中国技术厂商提供的500强超级计算机系统达到了206套、美国降到了124套;而在2017年11月的榜单中,来自中国技术厂商的数量由6个月前的160套升至202套、美国则由169套降至143套。而在2018年6月TOP 500榜单的中国席位中,联想提供了117套,占据首位。


(上图为联想首席科学家祝明发)


其次,越来越多样化的选择和商业模式,让企业与消费者之间不再是买与卖的简单联系——企业必须要感知消费者,要“懂”消费者。比如卡西欧中国代理商的线下智慧门店,在6平米的店面中,通过屏幕捕捉消费者的视觉和触觉数据并推送产品信息,还可以追踪消费者的购买记录、分析消费者的购买偏好,从而更贴心的推送。由此可见,如果企业可以率先抓住数据的力量,就可以占得市场的先机;如果企业不正视、甚至逃避数据洪流,那么无异于“坐以待毙”。因此,企业数字化转型是时代的选择,也是企业的“自我升级”。

联想首席科学家祝明发表示,全球超算TOP 500榜单目前主要是中美国两强竞争,体现在榜首的竞争、市场份额的竞争和应用的竞争。在这三者中,市场份额又占有很重要的地位,标志着整体水平。2018年6月的榜单,除了中美两强外,日本达到了36套、英国22套、德国21套。这意味着中国在全球超算应用和市场份额占比越来越多,美国份额相对在缩小,而欧洲和日本的份额缩小更快。

企业需要修建自己的“都江堰”来驾驭数据洪流,抓住数据带来的机会。云计算的“都江堰”能高效存储、计算海量数据,而混合云则兼顾了私有云安全、高可控的特性,也能获得公有云高可扩展、成本较低的优势,所以对于业务不断扩张的企业来说,搭建混合云平台是驾驭数据洪流的良方,帮助企业走向智能。

全球超算TOP 500的整体趋势是中国厂商越来越强,变成了中美共同占据TOP 500的绝大部分。而中国厂商从一开始的边缘者变成了领导者,并且这个趋势一直在强化,而并不是在2018年突然变强了。联想数据中心业务集团中国区企业级营销产品营销总监李炜表示,TOP 500榜单背后是高性能计算对国家经济实力和基础设施应用以及创新等方面的折射。中美在科技的重视度和高性能计算上的垄断,正逐步拉开与欧洲和日本的差距,中国在赶超美国的趋势也越来越明显。

联想超算再创造中国速度

在全球超算TOP500历年的榜单上,中美两国在1993年时存在不小差距,而这个差距在2016年6月迅速缩小。在2016年6月的全球超级计算机500强榜单中,来自中国的联想集团在500个席位中夺得了92个席位,成为在超算、高性能计算领域排名全球第二的厂商。此后至今两年,联想连续四届获得TOP500中国第一、全球第二,再定义了“中国速度”。


(上图为联想数据中心业务集团中国区企业级营销产品营销总监李炜)


2001年4月,在祝明发的带领下,联想成立了高性能服务器事业部,相继研发出中国第一个万亿次、四万亿次、十万亿次、百万亿次的超算集群,从深腾系列到GPU+CPU异构架构HPC,再到LiCO智能超算平台和温水水冷技术,联想一直在高性能计算领域持续投入。联想在2002年7月成功研制世界上第一个实际速度超过1万亿次的大规模机群系统深腾1800;2008年研制成功深腾7000,是当时世界上最先进的机群服务器之一;2009年研制了GPU+CPU异构架构的HPC,计算能力超过两百万亿次;2014年收购IBM X86后再上台阶。

以联想HPC和工作站P系列为代表的联想企业级产品,服务于中国载人航天工程实验室和主要研制单位,在轨道计算、模拟仿真、航天器设计等关键事件中,承担了大量重要的计算工作,为载人航天工程总体顶层决策提供了有力技术支撑。2016年11月,神州十一号返回舱送出,结束连续33天在轨运行,比神州十号提高了一倍多。神十一载人航天工程任务,飞船飞行高度393公里,比神舟十号提高了50公里,轨道计算尤为重要。联想为中国载人航天工程总体仿真实验室,提供了一套以联想HPC和工作站为核心的仿真系统,使实验室拥有了可靠的计算能力,为飞船和轨道的各种不同状态进行精确计算。事实证明,联想提供的计算能力,做到了毫厘不差。

在2018年6月的全球超算大会上,联想发布了第三代水冷服务器,联想内部代号叫“海王星”。第三代水冷服务器的出现,是因为服务器计算力越来越强,例如现在一台服务器相当于过去40个机柜的计算能力。那么,如何让一台服务器具备越来越强的计算力,散热是一个重大的问题。

联想温水水冷技术,利用纯净水作为冷媒,采用间接式液冷方式对计算机服务器进行冷却,对CPU、GPU等采用微通道散热器,针对内存、较低功耗的I/O板卡等部件采用导热板散热技术,采用45摄氏度的温水作为IT设备制冷的冷媒工质,在大多数地区可以获得PUE<1.1的效果。而联想第三代水冷服务器,把水温从上一代的45度提高到50度,散热的效率从上一代的85%提高到了90%以上。

李炜介绍,50度水温的好处包括:第一,代表着机箱的最高温度不可能超过50度;第二,可以实现英特尔至强CPU的超频,相当于送给了客户25%以上的计算能力,同时实现30%到40%的能源节省;第三,PUE(极限值为1)进一步到达1.1以下,而风冷情况下最好可以达到1.5到2.0之间。德国莱布尼茨数据中心采用了16700台联想水冷服务器,每年可以节省1000万欧元以上的电费;北京大学也采用了联想水冷服务器,每年可以节省100万度电。

联想数据中心业务集团中国区教育行业总监蔡斯扬表示,即便是现在技术非常领先的BAT互联网用户,服务器的负载也不超过70%,但在高性能计算的场景下需要把一台机器的计算能力压榨极限。联想为北京大学提供的水冷超算机型,最后释放出来的计算力达到了92.7%,这其实是整个系统设计和平台调优以及多年技术积累的结果。

除水冷外,联想为北大交付的冷冻电镜超算项目,除了传统的节点外还有8个GPU的加速节点,同时在冷冻电镜第二期超算项目里交付了12个PB的超大容量存储,这套存储的性能达到了100GB/S以上,是同等I/O带宽速度最好的。为什么要用这么高I/O的带宽性能?因为在研究细胞核基因结构的时候,显微镜要不断地拍照片、每一秒都要拍照,通过高效算法把三维的物体拍照成二维的照片,再通过算法把照片还原为三维的结构,这就需要大存储、高带宽,可以来回地读写和传输大容量图片。

正是在这些多年技术积累的基础上,联想超算才能再创造“中国速度”。

以用户成功为标志

祝明发是联想集团首席科学家,也是北京航空航天大学教授、博士师导师、计算机系统结构研究所所长。他表示,做高性能计算需要用户取得成功才算是真正的成功。这么多年来,联想高性能计算一直坚持这条,即用户应用联想超级计算机系统取得了成果,才是成功的标志。

除水冷外,联想为北大交付的冷冻电镜超算项目,除了传统的节点外还有8个GPU的加速节点,同时在冷冻电镜第二期超算项目里交付了12个PB的超大容量存储,这套存储的性能达到了100GB/S以上,是同等I/O带宽速度最好的。为什么要用这么高I/O的带宽性能?因为在研究细胞核基因结构的时候,显微镜要不断地拍照片、每一秒都要拍照,通过高效算法把三维的物体拍照成二维的照片,再通过算法把照片还原为三维的结构,这就需要大存储、高带宽,可以来回地读写和传输大容量图片。

(上图为联想数据中心业务集团中国区教育行业总监蔡斯扬)


为了让客户应用超算成功,联想超级计算机提供的是一站式交付。李炜提供了更鲜活的说明:联想交付的高性能集群相当于“精装房”,让客户的应用可以直接“拎包入住”。以北大这样一个中等规模的高性能集群为例,采用了服务器、存储、系统软件,再经过测试调优,传统方法部署需要一到两个月时间,而如果需要机房扩容、增加电力等就需要三个月时间。而联想服务器在工厂生产制造的时候,就已经把用户提供的各种软件和应用全部调试好,到了现场直接模块化装配。一套800台机器的超算系统,其它厂商采用传统方式需要半年的时间,而联想可以在一到两个月内就成功交付。

实际上,超算项目的交付就是跟时间赛跑。一套超算系统,小规模的为几百万元,大规模的上千万甚至过亿元,但一套超算系统真正的生命周期可能也就3到5年。而如果市场布局和端到端的能力达不到,一套超算系统的交付的周期将会是一年甚至是更长。而对用户来说,晚交付一天就意味着几万到几十万的损失。而联想超算系统的模块化交付,可大幅减少系统部署和上线的时间。

目前,全球排名前25位的研究型大学和机构中,有17家正采用联想的HPC和AI解决方案进行研究。联想超算还支持着全球160多个国家众多领域的突破性研究,包括癌症、大脑研究、天体物理学、人工智能、气候科学、化学、生物学、汽车和航空等等。这些用户最终采用了联想的高性能计算解决方案,一站式交付起到了重要作用。

据蔡斯扬介绍,联想在亚洲市场也获得了高度认可。特别是最近联想将打破由自己保持的亚洲高校最快高性能计算的记录,之前是日本东京大学,后来是2016年联想交付的南京大学超算集群,当时也是亚洲高校最大规模集群,而今年联想要交付的南方科技大学超算集群将打破联想以前保持的记录。南京大学超算集群也帮助很多海外学者进行研究,因为很多学者在海外做科研缺乏超算环境,例如蔡斯扬认识的一位南京大学女学者,以前在美国做大气湍流研究但缺乏相应的超算机器,来到南京大学后用超算机器把湍流计算的精度从过去的100米现在缩小到了5米,预测的精准度和偏差从原来几百公里甚至是上千公里缩小到现在的十几公里精度,实现了质的飞跃。

当然,联想能在全球超算TOP 500榜单中占据117套,产品质量也是重要原因。祝明发认为,高性能计算机到最后不外乎拼质量和应用等几个因素。在质量方面,联想在高性能计算机领域进行了大量投入,包括位于北京的高温实验室、震动实验室、跌落实验室等。联想还在美国莫里斯维尔、德国斯图加特以及中国北京拥有三大AI创新中心,帮助企业打造符合AI发展趋势和智能业务发展需求的高性能计算基础设施和业务场景。而在应用方面,伴随联想Open+开放架构战略的延伸,联想与不同领域的厂商合作,为高性能计算在气象、制造、能源等行业提供了应用之地。

国家超级计算无锡中心主任杨广文就美国超级计算机SUMMIT与中国的神威·太湖之光对比认为,这二者仍属于一个速度量级,中美超算之争并没有产生有“质”的变化。而接下来更重要的是对于超算的应用,中国在这方面还存在短板。让更多的中国企业,开发出更多适合超级计算机的应用,为让中国超算的技术能力扩散到国民经济中,将是中国速度的“新联想”