媒体中大

【南方都市报】“天河二号”昨蝉联世界超级计算机冠军,每秒就顶13亿人算千年 南都记者探营全球最快“神算子”

稿件来源:南方都市报2013-11-20第AII12版 作者:刘竹溪 编辑:金凤 发布日期:2013-11-20 阅读量:

美国当地时间昨日,世界超级计算机500强公布了最新的全球超算排行榜。部署在广州超算中心的“天河二号”蝉联桂冠,以比第二名美国的“泰坦”快近一倍的速度继续领跑全球。预计今年底,“天河二号”将完成调试并试运行。那么,超算的建设进度到底如何?这台“巨无霸”有何特点?南都记者日前探营仍在紧张施工的超算中心,为大家揭开“天河二号”的秘密。

崭新的房间,一排排黑色的机柜,柜内错综复杂的各色电线,工作人员们正紧张地调试着……这就是刚刚蝉联世界最快计算机的“天河二号”的机房。

从1993年起,世界超级计算机500强组织每年会发布两次全球超算500强排行榜,在超算领域,这也是最具国际影响力的排行榜。

在本次500强榜单中,排行榜前五名没有发生变化,瑞士的“代恩特峰”成为前十榜单中唯一的新面孔。“天河二号”的前代、部署于天津的“天河一号A”则离开了前十榜单,位列第12位。

500强拥有数 美国仍占优

本次的500强中,美国拥有265台继续领跑全球,中国的63台和日本的28台分列二、三位,其后是欧洲的英国、法国和德国。同时,依靠“天河二号”的巨大运算能力,中国的超算总运算能力也超越了日本,成为全球第二。

美国国家公共广播电台10月28日发表的一篇文章分析,由于美国的自动减赤机制导致类似橡树岭国家实验室这样的科研机构获得的财政拨款减少,新超级计算机的建设计划也变得愈发遥远。新榜单公布后,唐加拉认为,以“天河二号”几乎是泰坦两倍的运算能力,在第一名的位置上再停留一年也并不让人意外。

广州多所高校参与推广

“天河二号”部署后,广州超算中心也将加入天津、长沙、深圳、济南的行列,成为超算中心国家队行列中的第五个成员。

目前,超算中心的工作主要由国防科技大学的团队负责。据介绍,超算中心将建立研究院和工程中心,分别从理论和应用方面推进超算的发展。

在未来,广东工业大学、中山大学、华南理工大学等学校都会围绕超算进行专门人才的培养。目前中大已设立超算学院并招募了30名硕士研究生,招生简章中专门强调,特别鼓励物理、化学、生物、海洋、大气科学、地球物理等与超算应用密切相关专业的考生报考。此外,中大还有计划设立本科的超算专业。

中国超算发轫于“文革”结束后科技发展对大规模计算的需求。从1983年我国第一台计算能力超过一亿次每秒的“银河-I”开始,国防科技大学始终是国内超算研制的领军者。由国防科大和天津滨海新区联合研制的“天河一号A”在2010年10月登上全球超算500强排行榜榜首,成为第一个来自中国的世界最强超算。

但欧美国家和日本一直也在超算领域进行巨大的投入。“天河一号A”夺冠后,日本的“京”、美国的“红杉”和“泰坦”先后登上世界第一的宝座。“天河二号”则是这一战局中的新挑战者。2011年11月25日,广东省政府、广州市政府、国防科技大学、中山大学在广州签约,就合作研制高效能计算机系统,共建广州超级计算中心签署战略合作协议。正是这一协议促成了“天河二号”的问世。

“天河二号”的研制堪称神速,今年5月底,500强组织创始人之一、服务于田纳西大学和橡树岭国家实验室的杰克·唐加拉就在长沙对已经完工的“天河二号”进行过超过5小时的测试,当时的测试结果显示“天河二号”的运算速度达到3.065亿亿次/秒,理论峰值则是5.49亿亿次/秒,均大幅超过了橡树岭国家实验室的超级计算机“泰坦”。这一数据也使得“天河二号”在今年6月17日公布的500强榜上登顶。

它能有多快 最大运算能力5 .49亿亿次/秒

5.49亿亿次/秒,是一个大得已经让我们难以想象它到底有多大的数字,即使是“13亿人同时用计算器计算1000年”这样的比喻,也显得有点抽象。

那么,如此巨大的超算是怎么建造的?这可不是“买回来一大堆CPU拼在一起”那么简单。就算家用机里仅有几个核心的多核CPU,也要面对几个核心之间如何分配任务的问题,何况“天河二号”这个有着超过300万个核心的庞然巨物。

卢泽新说,“天河二号”在多方面都取得了创新突破。“天河二号”采用了异构多态体系结构,所谓“异构”,就是说每个计算节点里都包含了CPU和计算加速器,用来提升计算效率。但是“天河二号”的异构技术中使用了来自同一厂商的CPU和加速器,两者在硬件层面来看虽是异构,但却采用了统一的、已经为广大用户所熟悉和掌握的x86编程模型和应用开发及优化工具,就像跨国公司位于两个不同国家的部门,员工们却讲着同样的语言,大家不存在沟通的障碍,合作起来的效率也就更高,而且他们的语言同时也是全球通用的语言,服务于外部客户时同样也不需要额外配置翻译。这种异构方式有别于过去的CPU+GPU模式,也被称为“微异构”。

另一方面,要支持1.6万个这样的计算节点同时工作,就需要支持十亿亿次级系统的自主定制高速互连网络,让数据在节点间快速传送。在这一点上,“天河二号”也实现了突破。

此外,新型层次式加速存储架构、新型并行编程模型与框架、支持十亿亿次级系统的容错设计与故障管理和高密度高精度结构工艺也都是“天河二号”的技术亮点。

值得一提的还有,“天河二号”使用了4096块国防科大自主设计的CPU“FT-1500”。卢泽新介绍,单论运算能力,FT-1500已经和国际水平相当,但由于相关的产业生态链还不是很完善,相关的操作系统和应用软件尚不完备。他也希望随着广州超算中心的投入使用,开拓国产CPU的应用范围。

按照现有计划,现有的5.49亿亿次/秒运算能力并非“天河二号”的终点。到2015年底,“天河二号”的运算能力将翻倍,达到约11亿亿次/秒。超算中心也为这次扩充准备好了机房。

“技术在进步,芯片也会越来越好。”卢泽新说,“所以第二个5.49亿亿次/秒会比第一个占地面积小,同时功耗也会更低。”

它能存多少 存储空间1500万GB 相当19个国家图书馆

卢泽新介绍,深入了解之后,研发团队发现广州方面不但对高性能计算有着巨大的需求,同时也需要高流量的数据流以及海量的存储空间,于是“天河二号”进行了一些特别的改动。

在常规的内存和普通硬盘之外,“天河二号”增加了固态硬盘(SSD )。如果把计算机比做一间书房,那么内存好比书桌,书放在书桌上,伸手可及,随时可以阅读,但只能放有限的几本书;普通硬盘好比书架,要读书架里的书就得走过去找,需要花更多时间,但书架的存储量会比较大。固态硬盘的速度和容量介于内存和普通硬盘之间,但成本较高。虽然目前越来越多的家用电脑已经开始配备固态硬盘,但“天河二号”这种体量的超级计算机使用固态硬盘,并不多见。

据美国媒体报道,下个月即将部署的美国新超级计算机“催化剂(C ata-lyst)”也将运用这一技术,但规模比“天河二号”要小很多。

装备上固态硬盘后,层次更丰富的存储系统使得“天河二号”的读写速度各自达到了80G /秒,比前代的“天河一号A”快了一倍。另外,为了存储服务于智慧城市后的需要存储的海量数据,“天河二号”还额外配置了大量硬盘,总存储空间有15P B(约1500万G B ),今年8月,国家图书馆的总数据量为0 .8P B,照此计算,“天河二号”的存储空间相当于近19个国家图书馆。

它有什么用 从预报天气到核电站 从学校到生物岛都能用

据了解,超算中心项目总投资逾23亿。在超级计算机的建设中,民众常见的疑问是“弄这么大的计算机有什么用”。在作风务实的广州,这样的问题可能更加尖锐和直接。

杰克·唐加拉曾撰文指出,超级计算机最重要的作用就是模拟计算。超级计算机越快,我们就能进行越精密和准确的计算。也意味着科学家能得到更精确的研究结果,也意味着工程师能设计出更好的产品,大到飞机和轮船,小到药品和服装面料。

对此,广州超算中心已经提前做了准备。今年5月30日,运算能力峰值达340万亿次/秒的超算中心先导系统已经在中山大学投入开通。这个“迷你版”超级计算机采用了“天河一号A”的技术架构,用户可以先在这里“练手”,等到“天河二号”正式开通,只用进行少量的适配工作,就可以把程序直接移植至“天河二号”。据来自超算中心的数据,目前已有来自约60家单位的113个科研团队在先导系统开发程序,涵盖了气象、工业仿真、动漫、生物、智慧城市、网络安全、城市规划和电子商务等领域。目前,先导系统利用率超过了85%。

最早进入超算中心先导系统的单位之一、广东省区域数值天气预报重点实验室副主任陈子通向南都记者透露,他们已经在数值预报精细化方面做了很多工作。目前,广东的天气数值预报使用的分辨率是18公里,步长是200秒,也就是说每324平方公里的面积,每200秒进行一次计算。在超算中心先导系统上,分辨率和步长分别提升到了3公里和60秒,计算的密度是原先的36倍,频率超过原来的3倍,总的运算量一下子就增加了超过1 0 0倍———这还没有把网格划细之后带来的复杂地形、建筑物等影响考虑在内。

陈子通还表示,随着“天河二号”的正式投入运营,气象部门也将利用超级计算机,研发出更加精细的数值预报模型。

那么,运算能力是不是真的需要11亿亿次/秒这么多?卢泽新坦承“这还不好说”。超级计算机的建设有一定前瞻性,11亿亿次/秒有可能不能完全利用,也有可能供不应求。南都记者查阅公开报道发现,“天河一号A”被部署到天津超算中心仅三年,平均利用率已经可以稳定在70%左右。“天河二号”还承载着核电站模拟、石油勘探、海洋开发、大飞机研制等国家级科研项目,利用率能否赶上“大哥”,值得期待。

刚刚出台的《中央关于全面深化改革若干重大问题的决定》中,关于深化科技体制改革的部分提到,国家重大科研基础设施依照规定应该开放的一律对社会开放。实际上,在决定公开前,广州超算中心就已经准备这么做。

“我们的用户主要是三大类。”卢泽新说。“第一类是政府。政府采用购买服务的方式,进行智慧城市等专属性应用。第二类是扶持性的公益应用。科研单位、学校、中小企业都可以以优惠的价格使用超算。第三类是开放性的商业应用,面向全社会开放。与超算中心近在咫尺的生物岛,就有很好的应用潜力。”

经历了35年改革开放,广州正在面临从传统的劳动力密集型产业向创新产业转型的关键时期,超算中心的建设正是转型的一个具体行动。广州超算中心希望和广州本土的大企业携手,共同打造一些公共服务平台,实现对资源的集约化利用,通过这样的平台辐射中小型和创业型公司以及科研团队。

卢泽新补充说,能耗相较前代,“天河二号”的能耗有了显著下降——它的运算能力是“天河一号A”的11.6倍,但耗电量仅为后者的4倍。“低能耗意味着价格更低,欢迎大家前来使用。”

解密巨无霸“豪宅”:五层大楼加地下室水电网络都有备份

谈及广州超算中心这个“一号工程”的建设进度,卢泽新用了“有点惊人”来形容。超过3.2万平方米的五层大楼加上1万平方米的地下面积,在广州市重点办的全力冲刺下,只用了不到一年就告完成。

而“天河二号”的这个“新家”可不仅仅是大而已。超算不能承受断电断水断网等意外,后勤保障必须有“B计划”。以电力为例,供电部门为超算中心准备了两路专线,可承担6万千瓦的功率,光变压器就有26个。另外还特别配建了一个静态投资1.9亿元的分布式能源站。这个能源站配置了由4台4300千瓦的燃气内燃发电机组组成的燃气冷热电三联供系统,即使出现意外,两路专线同时停电,燃气发电机也可以维持超算中心的重要负荷持续运转。另外,发电机产生的余热还可以被再次利用,用于超算中心的冷却系统。与之类似,超算中心在供水和网络上都至少准备了两路专线。

超算中心同时也考虑了“省钱”。卢泽新介绍,“天河二号”的冷却系统也创新性地使用了水冷。夜间的电费较低,冷却系统可以在夜间多制冰,等到白天再用来冷却机房,通过这个时间差,冷却系统的电费就降低了。

“天河二号”问世录

●2011年11月25日,广东省政府、广州市政府、国防科技大学、中山大学在广州签署战略合作协议,促成了“天河二号”的问世。

●2013年5月底,“天河二号”接受测试。

●2013年9月底,“天河二号”运到广州。

●预计2013年年底前,“天河二号”完成调试并试运行。

中大新闻
新闻投稿