2015年11月16日,在美国奥斯汀召开的世界超级计算大会上,中山大学国家超级计算广州中心(以下简称“广州超算中心”)主机“天河二号”超级计算机系统蝉联“全球超级计算机TOP500”榜首,实现六连冠。2016年2月,“天河二号”超级计算机系统副总设计师卢宇彤教授受聘广州超算中心主任。如何让“天河二号”在“黄金服役期”发挥更大效用,广州超算中心将如何更好地服务于创新驱动发展战略?带着疑问,我们来到位于广州校区东校园的广州超算中心,采访了卢宇彤教授。
中山大学国家超级计算广州中心主任卢宇彤
记者(以下简称“记”):您是“天河二号”超级计算机系统副总设计师,能谈谈您和超级计算机的故事吗?
卢宇彤教授(以下简称“卢”):我从国防科学技术大学毕业以来,过去的20多年里参与了五代“银河”系列超级计算机系统以及两代“天河”系列超级计算机系统的研发工作。从最初的“跟随”、“追赶”到现在进入世界领先行列,见证了中国超级计算机研发水平的跨越式发展。能有今天的成就,我认为一方面得益于国家在高性能计算领域的长期支持和投入,国家科技部在近三个“五年计划”里都将超级计算机的研发放在国家战略的位置进行推进;另一方面得益于以国防科大天河团队为代表的我国超算人多年来在高性能计算领域的深厚技术积累与勇于创新的能力和担当。
记:您担任广州超算中心主任,这是否意味着您的关注点从硬件、系统转向软件、用户?这对于广州超算中心的运作又会有怎样的影响?
卢:过去的20多年里,我主要承担国产超级计算机并行系统软件的研发和应用优化支持工作。并行系统软件包括了超级计算机系统里的高速通信系统、并行程序运行支持系统、资源管理系统、并行文件系统等等,是硬件系统与应用软件对接的桥梁。这就意味着从事系统软件的研发,既需要对超级计算机的硬件系统有很好的了解,又必须充分把握用户的应用需求。
在超算中心的工作主要是支持更广泛领域的应用,我以前的工作经验是很好的基础。不同的用户有着不尽相同的应用需求,而超级计算机系统又具有其本身的体系结构特点,如何最大限度地满足用户应用需求、充分发挥“天河二号”的系统优势,我们要做的是帮助用户理解“天河二号”体系结构特点、协助用户优化应用模型算法、提供稳定可靠的运行服务,实现高性能计算与大数据处理的融合,实现超级计算与云计算的汇聚,通过“天河二号”实现广泛的用户利益最大化。
但是我们也应该认识到,超级计算硬件系统是基础,“皮之不存,毛将焉附”。近年来,我们已经看到高性能计算系统技术的发展对我国高性能计算应用的水平提升有着重要的促进作用,反之亦然。我们应该继续下大力气推进“天河二号”上的应用拓展。如果说我个人现阶段的角色转换,那可能就是从“以系统为中心”向“以应用为中心”的转换。
记:目前广州超算中心的运营情况如何?取得了哪些成效?“天河二号”的运行是否如一些媒体报道所说的存在资源闲置、能耗费用高昂、宣传推广不力等问题?解决问题的关键又在哪里?
卢:自“天河二号”落户以来,广州超算中心已构建起材料科学与工程计算、生物计算与个性化医疗、全数字设计与设备制造、能源及相关技术数字化设计、地球科学与环境工程计算、智慧城市与大数据处理等多领域大规模应用服务平台,先后为国内外1200多家用户提供了高性能计算和云计算服务,为近百个国家重大科技项目、自然科学基金项目、国际合作项目提供了支持,对广东省和广州市的重大行业应用起到了推动作用。2014年,德国慕尼黑工业大学等合作团队利用“天河二号”开展的真实地震波传播模拟还获得了国际高性能计算应用领域的最高奖项——戈登贝尔奖(Gordon Bell Prize)提名。到目前为止,超过百万核的大规模领域应用有12个,万核以上的应用60多个。
资源利用问题本质上涉及超级计算机系统和应用软件的协调发展的问题。超级计算机系统技术水平呈快速发展趋势。摩尔定律就信息技术发展速度提出:当价格不变时,集成电路上可容纳的元器件数目,约18到24个月增长一倍,性能也将提升一倍。而超级计算机性能的发展速度则更加惊人,它遵循“千倍定律”,即每10年超级计算机性能将会提高1000倍。面对高速增长的超级计算机系统性能,高性能计算应用的水平也需要快速提升。这不仅仅需要计算机领域的努力,更重要的是计算机学科与其它学科的交叉合作、协同创新。比如说,物理学家要应用超级计算机,他首先要把有待解决的问题建立可计算模型,然后针对模型设计运行方法和理论,在此基础上才能写成并行算法。继“理论”与“实验”之后,“计算”被称为第三种科学研究手段。国外的超级计算并行应用水平相对较高,而在中国这一领域有很大的提升空间。
“天河二号”系统理论峰值为54.9PFlops(5.49亿亿次浮点运算每秒),计算节点的能耗约为18兆瓦。它的运算能耗比约为1.90千万亿次/秒兆瓦,与世界超级计算机计算能力分别排名第二的美国能源部下属橡树岭国家实验室的“泰坦”、排名第三的美国劳伦斯-利弗莫尔国家实验室的“红杉”系统相当,但远高于排名第四的日本理化研究所的“京”。未来的E级系统能耗比则有望提升10-30倍。就目前来看,“天河二号”能耗比在超级计算机领域属于正常合理水平。
此外,我们不能只看到“天河二号”能耗费用高昂的问题,更应该关注其科学价值和社会效益。因为能耗费用高就否定“天河二号”的价值是因噎废食,谋求能耗费用与高性能计算应用需求之间的平衡才是解决之道。例如,美国德克萨斯大学德克萨斯高级计算中心(TACC)就建有专门的发电厂,这当然也与德克萨斯州的资源相对丰富有关。解决“天河二号”能耗费用问题可以有其它途径,比如供电局按特殊需求降低电费和水费的收费标准,又或者分时段按不同价格标准收费。这些都有待商榷。
“宣传推广不力”的指责也不确实。“天河二号”本身就是一个很好的品牌,屡次获奖、大范围的新闻报道提振民心、国家科技部将其作为国家“十二五”规划的重要成果,这些本身都是很好的宣传。问题的关键在于,用户需要进一步了解“天河二号”的技术水平、国家的应用研发水平、以及众多科学问题的解决之道。当务之急,是建立健全高性能计算的高水平人才队伍,融会贯通多个学科领域的需求,构建起多学科交叉的应用研发队伍。
记:2015年9月,广州市正式将广州超算中心移交中山大学管理。而在此前,超算中心是独立运行的。有人质疑移交后的广州超算中心不具有独立法人资格而难以进行市场化运作。广州超算中心未来有着怎样的运营规划?主要的工作任务有哪些?
卢:国家超级计算广州中心交由中山大学管理是以“双赢”为目的:一方面,中大可以借助超算中心的高性能计算和大数据处理资源与能力提升各个学科的科学研究水平;另一方面,超算中心可以利用中山大学的学科优势、人才优势,聚集多学科交叉领域的专家,丰富超算中心的人才队伍,加快创新成果的涌现。中山大学和广州超算中心的深度合作,无疑对双方跨越式发展大有裨益,这也体现了超算中心“开放合作、协同创新”的重要宗旨。
我们也认识到,要真正体现这一宗旨,不仅需要依靠中大的学科、人才、资源优势,还需要面向市场积极探索市场化科技服务体制,面向国际与国内外顶尖科研团队寻求合作。国家超算广州中心必须在中心的体制机制上有所创新,在人才激励、应用推广、运营管理等方面有充分的灵活性和独立性,在这点上学校与中心已经达成共识。
在高性能计算领域,高性能计算机可以分为四种,分别是群组级、企业级、部门级以及超级计算机。而超级计算机中排名前10的属于高性能计算机的最高级别,它们一般不以盈利为目的,无法用市场规律衡量其运行效率。因此,“天河二号”主要为科学研究和科技创新提供服务,对接国家顶尖科研需求。同时我们也致力于大数据、云计算平台应用推广,积极开拓市场化科技服务,承接广州市政府电子政务、智慧城市等项目。这些都是围绕广州超算中心核心科研任务的外围部署,以期达到科学应用、行业应用和政务应用的有机结合。
记:罗俊校长提出,广州超算中心在不久的未来,将在大气、海洋、高精度数值模拟风洞等领域的研究中有所作为。请您谈谈对超算中心未来三至五年重点工作领域的规划和设计。
卢:广州超算中心未来三至五年重点工作规划和设计主要有四个方面:
一是完善超算中心本身的整体建设。我们拟引进15名以上领军人才,组建100到150人的专业技术团队,创建高性能应用软件国家级研发中心,专门开展超算应用软件研发及技术服务工作。
二是利用广州超算中心的计算资源优势,支持中大优势学科科研、教育的建设、升级。在大气环境、海洋水文、天体物理、高精度数值模拟风洞、生物医药、精准医疗、机器学习等领域出标志性成果。另外,我们即将举办“超算中心走进学院”活动,挖掘各个学科的高性能计算应用潜力。
三是积极开拓市场化科技服务,支持重点行业应用以及政府行政管理应用。在医学、生命科学领域,加强与华大基因、达安基因的合作;在能源领域,加强与中广核、中海油合作;在海洋领域,加强与国家海洋局下属科研机构的合作;在气象领域,加强与气象业务部门的合作;在金融领域,争取中国银行协会等的支持,加强在金融大数据领域的合作;在制造业与通信业领域,加强与广汽、广船、海格等企业的合作,支持企业转型升级与技术创新;在政务管理领域,部署电子政务,支持智慧城市建设。
四是支持世界级科学突破,这是我们的宏伟愿景,需要广泛深入的国际国内合作和一定的机遇,周期也会相对较长,但值得期待。
记:与其他国家超算中心——如长沙中心、天津中心、深圳中心等相比,广州中心在未来发展又哪些优势?
卢:我国现有各个超算中心的服务有一定的地域性,不同时期机器的特点也不尽相同。国家超算广州中心有其它超算中心不具备的资源优势,包括系统资源和人才技术资源两方面。我们拥有目前世界上最快的“天河二号”系统,其超级强大的计算能力、通信能力、存储能力是其他超算所不具备的,“天河二号”对我国应用领域实现世界级科学突破与技术创新具有良好的支撑能力。在人才技术资源方面,“天河二号”既有来自国防科学技术大学持续提供的高性能计算软硬件技术支持,又可以依托中大的多学科人才优势,具备大规模领域应用卓越的研发优化能力;同时“天河二号”品牌好,与美国、欧洲、日本、新加坡等各国的国际交流合作基础好。我们会充分把握这些优势,谋求“天河二号”的可持续发展。
记:除了担任广州超算中心主任以外,您还是中山大学数据科学与计算机学院教授。请您谈谈对高性能计算人才的培养的思考。
卢:超级计算机的应用是跨学科项目,需要各个领域交叉学科人才来支撑。相对应的,超算人才的培养也不应该仅仅局限于计算机学科。中大的超算教学应该推广到全校的理工科甚至医科院系,可以先从研究生教学起步,逐渐扩展到相应专业的本科生教学,培养学生的高性能计算思维。开设一些如“高性能计算”、“并行算法和编程模型”等的课程,将超算课程体系的建设与各个领域、各个专业的教学体系相联通,帮助学生掌握可计算建模和并行计算方法。我们还将围绕“天河二号”构建高性能计算教育实践平台,加强学生的高性能计算实践能力的培养,为我国高性能计算应用做好人才储备。