从受制于人到安全自主可控!中国超算创造了奇迹
高性能超级计算机,是世界发达国家争抢的重要“制高点”,对国家安全、经济和社会发展,具有举足轻重的支持作用。因此加快发展超级计算机,推广超级计算机应用,对于我国科学研究、推动科技创新和促进经济社会高质量发展意义重大。
40多年来,我国超级计算机经历了从无到有、从跟跑到局部领先、从关键核心技术引进到实现自主可控的艰难发展历程。
勇于突破封锁
我国超算技术不再受制于人
“多年来,中、美、日等国在超级计算机领域的竞争,实际就是科技实力与综合国力的竞争。”中国科学院计算技术研究所研究员张云泉说,我国几代超算人前赴后继,创造出了不起的“奇迹”。截至目前,天河二号、“神威·太湖之光”等国产超级计算机,在国际超级计算机大赛上,共拿下10个世界第一。
超级计算机“天河二号”。图片
在国家超级计算无锡中心主任杨广文的记忆中,上世纪70年代,首台超级计算机问世后,国际上对超级计算机的需求猛增。发达国家在重点产业领域,利用超级计算机取得了多方面的突破。当时,美国、日本等国在一些关键核心技术上,对中国全面封锁。
那时,我国由于没有高性能的计算机,部分石油矿藏数据和资料不得不用飞机送去国外处理,不仅费用昂贵,而且受制于人。
当时,我国曾向某发达国家提出进口一台性能不算很高的超级计算机,对方却回复:必须要为这台机器建一个六面不透光的“安全区”,能进入“安全区”的只能是巴黎统筹组织的工作人员。
1978年,党的十一届三中全会召开,拉开了改革开放的序幕。也就是在这一年,我国正式启动巨型计算机的研制工作。
“为什么要研制自己的巨型计算机?因为中国要搞四个现代化,不能没有巨型计算机!”杨广文告诉科技日报记者,超级计算机由大量的计算节点组成,每个计算节点由一些CPU(中央处理器)组成,计算节点由高速互联网络连接起来。除此之外,整个系统还包括大规模存储系统、系统软件、应用软件和冷却系统等。因此短时间内,我国要想在超级计算机核心技术上取得重大突破、跑在世界前列,不是一件容易事。
然而,我国的科研人员并未被眼前的困难吓倒。当时,他们脑子里只有一个念头:早日造出中国人自己的巨型计算机,技术上不再受制于人。
从1978年到1983年,这5年里,承担此项任务的研发团队,没日没夜的顽强拼搏,解决了无数个基础理论、技术和制造工艺问题,攻克了数以百计的关键技术难关,创造性地提出了“双向量阵列”结构并完成整体设计,比原计划提前一年成功研制出“银河-Ⅰ”巨型计算机。
1983年12月26日,我国第一台亿次巨型计算机“银河-Ⅰ”正式通过国家技术鉴定,系统达到并超过了预定的性能指标,机器整体稳定可靠,且经费只用了原计划的1/5。
这标志着中国成为世界上少数几个能够独立设计和研制亿次巨型计算机的国家。
面向国家需求
实现真正安全自主可控
“从2002年之后,经过15年的高速发展,中国超算实现了安全、自主、可控。”杨广文说。
近10年来,我国从基于自主可控超级计算机系统的软件与应用、服务于国家特殊需要和高新技术产业发展考虑,重新布局了超级计算机的研制工作。
“十三五”国家重点研发计划设立了“高性能计算”重点专项,在高性能计算机研制、系统软件及应用等方面给予布局支持。其中,研制“神威·太湖之光”就是国家重点组织开展的一项重大科研任务。
2013年4月22日,江苏省人民政府正式提出在无锡市建设10亿亿次超级计算中心,得到科技部的支持;2014年3月5日,科技部同意“高效能计算机及应用服务环境(二期)”重大项目立项;2015年12月31日,“神威·太湖之光”超级计算机研制完成。
“神威·太湖之光”超级计算机机房。图片来源:视觉中国
用相关专家的话来说,随着“神威·太湖之光”超级计算机和“申威26010”处理器等标志性成果的出现,打破了长期以来国产超级计算机平台无“芯”可用的局面,奠定了安全、自主、可控的国产平台技术基础。
记者了解到,“神威·太湖之光”超级计算机由40个运算机柜和8个网络机柜组成。每台运算机柜包含4个由32块运算插件组成的超节点,每块插件由4个运算节点板组成,一个运算节点板又包含两块“申威26010”高性能处理器。
“一台机柜就有1024块处理器,‘神威·太湖之光’共有40960块处理器。”杨广文说。
值得一提的是,“神威·太湖之光”也是我国第一台全部采用国产处理器构建的超级计算机。截至目前,其以每秒9.3亿亿次的浮点运算速度,连续4次在全球超级计算机比赛中夺冠。其中,2016年11月,“神威·太湖之光”以较大的运算速度优势再次夺得世界超算冠军,基于该超级计算机运行的高性能计算应用项目获得国际高性能计算应用领域最高奖——“戈登贝尔”奖,成为我国高性能计算应用发展的一个里程碑式的成就。
“让基于自主可控超级计算机系统的软件与应用登上国际巅峰,做强国产软件,这是我们超算人的追求与梦想。”国家超级计算无锡中心研发中心主任甘霖说。
比拼应用水平
让大机器发挥出大作用
“超级计算机为解决工程和科学中的重大难题而生。”国家超级计算无锡中心副主任付昊桓说,衡量超级计算机的价值,不能只看运算速度,还要看应用水平。
“比拼谁的超级计算机‘跑’得更快,这种竞赛曾一度在中、美、日、韩等国之间进行。不过,现在大家比的是,超级计算机能被用在什么领域,这成为如今竞争的关键点。”杨广文说。
那么,该如何让大机器发挥出大威力?
在杨广文看来,国家超级计算无锡中心主要的职责就是运维,运维的目的就是用好这台超级计算机。
近7年来,国家超级计算无锡中心的科研团队不负众望,将理论与实践相结合,通过开展跨学科、跨单位的广泛交叉合作,使基于“神威·太湖之光”系统的并行应用成果频出。其中,利用“神威·太湖之光”超级计算机每秒10亿亿次的超强计算力,研发出的有关气候模拟、地震模拟、工业仿真、生物医药等领域的一系列国产应用软件,助力我国基础研究和工程创新,展示了国产超级计算机硬件与软件相结合的巨大潜力。
“神威太湖之光”超级计算机。图片来源:视觉中国
2017年11月17日,在美国丹佛举行的全球超级计算大会上,由中国科研团队完成的“非线性地震模拟”再获“戈登贝尔”奖。利用“神威·太湖之光”的强大计算能力,该团队成功地设计实现了高可扩展性的非线性地震模拟工具。该工具首次实现了对唐山大地震发生过程的高分辨率精确模拟,使得科学家可以更好地理解唐山大地震所造成的影响,并对未来地震预防预测等具有重要的借鉴意义。
此外,杨广文表示,超级计算机还能为人工智能领域的深度学习服务。“现在,许多IT公司的技术负责人找到我们,主要因为我们开发了大量基于深度学习算法的并行软件,研发了一个深度学习平台swCaffe。目前,我们已开展的、基于超级计算机的深度学习应用,包括围棋、语音识别、医学图像识别、遥感图像分类、地震波余震特征识别、大规模冷冻电镜生物大分子模型高精度重构等。”杨广文说。
杨广文告诉记者,目前国家超级计算无锡中心“神威·太湖之光”系统运行稳定,用户数量不断增加,机器利用率已超过50%,已完成200多项百万核大型问题的求解任务,涉及航空航天、先进制造、生物医药、新材料、新能源等重点领域,有效地支持了国家科学研究与产业创新。
这些重要的应用成果在国内外引起了巨大反响,这证明“神威·太湖之光”能够支持具有战略需求的挑战性应用,并向世界展示了中国超级计算机的国际地位和重要影响力。
值得一提的是,近年来,国家超级计算无锡中心高度重视人才引进与培育。目前,该中心拥有国内外特聘专家30余人,专业涉及计算机软硬件开发、气象气候、生物基因、海洋物理、力学、大数据、云计算等。此外,该中心每年还承担清华大学在读博士生、硕士生的培养任务。
杨广文表示,未来我国科研团队将继续围绕提升国家科技创新能力,以“神威·太湖之光”超级计算机为基础, 进一步解决气候、环境、生命、材料和制造等领域的重大科学问题,研究高性能计算的核心技术、提升高性能计算的应用水平、培养高性能计算人才,为我国基础研究及产业发展提供强有力的支撑。(科技日报记者 过国忠 通讯员 段芳)
亲历者说
付昊桓:让“神威·太湖之光”物尽其用
记者见到付昊恒时,这位国家超级计算无锡中心(以下简称无锡中心)副主任、清华大学地学系长聘教授身着白色工作服,正与团队人员讨论新的测试任务。
“在发展超级计算机方面,我们与国外比拼的不只是速度,更要比应用。目前,在应用方面,可以说,我国已比肩一些发达国家。”付昊桓说。
如今,“神威·太湖之光”在世界超算领域的地位举足轻重,这离不开付昊桓等一批科研人员的付出。
国家超级计算无锡中心供图
2015年夏天,付昊桓带着一批青年科研人员来到无锡中心。他要做的就是,解决超算应用难题并培养相关人才。
“我们要让‘神威·太湖之光’物尽其用,更好地服务于国家需求和经济社会发展。”付昊桓说。
付昊桓告诉记者,他们刚到无锡时,无锡中心还处于初建阶段,条件相对简陋,但能利用国产超算平台推进应用软件的发展,团队所有成员都感到无比兴奋和激动。“当时,我们是作为用户去的,准备用暑期3个月的时间,在这台全新的超算上研发出一款气候模拟软件。”他说。
然而,谁也没想到,从此“神威·太湖之光”成为付昊恒人生的重要版图。2015年底,付昊桓被任命为无锡中心副主任,除了承担研发工作外,他还要带领团队支持各领域的科学家开展系统研究。
付昊桓对无锡中心的定位,不仅是运维一台厉害的计算机,而是要将其打造成为一个能汇聚用户、汇聚研究者的科创中心。事实上,要把无锡中心真正搞起来,并不容易,必须克服一个又一个难关。
“超算应用是一个交叉学科,只有上下都贯穿起来,才能系统性地解决问题。”付昊桓说,他带领研究团队刚开始进行交叉学科研究有些痛苦,但经过一段时间的磨合后,就能看到学科间碰撞出的“火花”。
付昊桓告诉记者,更大的挑战则来自软件的生态。原有基于x86架构设计的大量科学及工程计算软件,无法直接在“神威·太湖之光”上高效运行。因此团队首先要对软件进行代码的转换、移植乃至重新设计。
“正常的应用也就几千到几万行代码,而我们当时面对的地球系统模式代码有近百万行。”付昊桓说,这百万行代码的转换过程尽管非常艰难,充满了挑战,但也很有趣。
功夫不负有心人。通过与不同领域科学家的合作,付昊桓带着研发团队以多维度并行及系统性优化的新方法,成功解决了上述软件方面的问题。
近6年来,付昊桓带领研发团队,利用“神威·太湖之光”超级计算机研发出气候模拟、地震模拟、工业仿真、生物医药等一系列国产应用软件。
在付昊桓看来,计算无极限,挑战无止境。把世界领先的计算力转化为科研和产业上的价值,这仅仅只是开始。要想让我国超算赢在未来,就必须加快培养高层次创新型专业人才。因此,近年来,付昊桓十分注重对人才的培养。
如今,令付昊恒欣慰的是,研究团队里几位“90后”成员已经站上了高性能计算应用研究领域的国际舞台。其中,他亲自指导的博士生甘霖,于2018年荣获IEEE高性能专委会杰出新人奖。
大事记
1983年11月
我国第一台亿次巨型计算机“银河-Ⅰ”诞生
2009年10月
我国首台千万亿次超级计算机“天河一号”诞生
2010年
我国研发出第一台实测性能超千万亿次超级计算机“星云”
2014年11月
“天河二号”第四次获得全球超级计算机500强榜单冠军
2016年6月
“神威·太湖之光”首次夺得全球超级计算机500强榜单冠军
2016年11月
基于“神威·太湖之光”的应用首次获得“戈登贝尔”奖
2017年11月
“神威·太湖之光”第四次获得全球超级计算机500强榜单冠军
2017年11月
基于“神威·太湖之光”的应用再获“戈登贝尔”奖