兰州大学作为一所具有百年建校历史的高等学府,其在基础研究领域优势明显,曾创造出了化学“一门八院士”、地学“师生三代勇闯地球三极”、中科院“兰大军团”、隆基兰大合伙人等享誉国内外的“兰大现象”。作为教育部直属的全国重点综合性大学,兰州大学于2017年入选教育部世界一流大学建设名单,并且有4个学科入选世界一流学科建设名单。
高性能计算作为继理论科学、实验科学之后的第三大科学研究范式,在兰州大学的学科建设和发展过程中,被赋予了重要的角色。学校在2006始建了校级高性能计算平台,给各学院的教师提供了强有力的科研支撑,让学校高性能计算领域的研究步入正轨,随着高性能计算在兰州大学的深入应用,必将在推进学校“双一流”建设的过程中发挥其关键作用。
HPC分散搭建 “应急之策”显露诸多弊端
由于学校校级平台没有可持续发展,后期导致各学院开始自购建设高性能计算集群。但经过多年的应用实践,这种分散建设高性能计算集群的模式,虽然在一定程度上满足了当时各个学院急迫的科研需求,但是伴随各学科应用深度和广度的逐渐增大、交叉学科研究以及兰州大学整体教学、科研的长远发展,逐渐面临诸多挑战。
首先各学院自主建设使得全校高性能计算平台不仅整体拥有成本(TCO)难以下降,同时校级高性能计算平台资源也无法得到充分使用。其次,各学院计算平台难以实现全校整体高性能计算资源共享,不仅带来了计算资源的浪费,同时也无法完成计算资源的弹性部署,从而让各学院对高性能计算资源的个性化需求得不到满足。与此同时,学院独立建设的模式,导致各学院还要承担高性能计算平台的设备运维工作,这不仅直接增加了平台的人力成本,同时也增加了各学院的管理成本。
此外,自主建设模式在高性能计算系统采购过程中,没有做到全校一盘棋统筹,导致高性能计算相关的设备采购成本及运维成本居高不下。鉴于这些现实问题,2019年兰州大学亟需统筹规划全校的高性能计算中心建设,构建全校统一校级高性能计算平台。借助集约化的优势,不仅能够整体降低学校高性能计算平台运维成本,同时,也会因学校议价能力的提升,从而获得更高性价比计算资源。
华为方案“赋能”兰大高性能计算平台胜任多种科研应用场景
本次兰州大学建设的高性能计算平台在原有机房上进行小规模的改造,高性能计算机房采用华为FusionModule2000智能微模块数据中心,将供配电、制冷、监控、机柜、通道和布线系统有效融合,同时FusionModule2000智能微模块引入AI技术,通过iPower、iCooling和iManager,降低系统能耗,整个数据中心PUE<1.4。在超算中心建设之前,华为与兰大超算中心老师共同调研了学校20多个专业的应用软件和计算环境,发现兰州大学计算环境既有传统物理、化学、材料专业的科学计算,如WRF、VASP、Matlab、Gaussion等,也包括人工智能TesorFlow框架训练等AI应用,所以本次方案设计时采用华为FusionServer X6000服务器搭建通用计算节点;选用华为四路、八路服务器作为胖节点满足气象数据同化、三代基因测序等应用对于多线程、大内存的计算需求;另选用GPU计算节点满足人工智能应用加速,整个高性能计算平台计算能力达到1200万亿次,在西部高校的高性能计算平台中名列前茅。兰州大学高性能计算平台于2020年6月中旬开始初步试运行,上线一周整个集群使用率已经达到65%,未来兰大超算将支撑更多的科研项目在计算平台开花结果,同时作为西部较大规模的高性能中心,也将辐射周边院校,推动甘肃乃至西部地区高性能计算应用水平的提升。
兰州大学大气科学是兰州大学四个双一流学科之一,在国内大气科学具有领先地位,兰州大学与华为公司在2019年签署《鲲鹏联合创新中心合作协议》,共同探索鲲鹏服务器在WRF模式下的应用优化,推进鲲鹏生态建设。鲲鹏计算集群作为兰州大学计算集群的一部分资源,现在已经成功的运行WRF等大气模式,并且性能良好。
利用容器技术打造“简管理、均资源、降成本”超算平台
在高性能计算集群建设调研期间,兰州大学超算中心将高性能计算领域常用的Matlab、VASP、WRF、PISM 以及COMOSOL,五种应用分别部署到联科提供的容器环境中,通过具体算例的运行时间(秒)来验证了五种软件在基于容器的集群和物理机集群上的运算时间相差无几。
同时针对兰州大学对全校高性能计算平台建设提出的要求,联科利用自身在高性能计算累积的十余年经验提供了“基于容器的HPC解决方案”。该方案不仅可以满足兰州大学各学院不同的科研应用需求,实现了每种应用场景无需对操作系统、库、编译器等进行依赖和单独设置实现而且不用改变不同用户对计算集群的使用习惯,,使得学校超算中心在平台管理、计算资源调度以及成本管控等方面得到了彻底的提升。
通过这次的建设,全校计算资源“一盘棋”,统一运管实现了“简管理”。整套平台的建成,不仅从根本上解决了各学院自建计算平台后的管理问题,而且通过对平台使用者的身份认证、审批、权限控制、配额信息管理、用户组及用户成员关系等管理,帮助学校实现计算平台的科学化管理和规范化运维。
伴随着兰州大学高性能计算平台项目的实施完成,华为公司一方面依托自身在高性能计算领域的技术优势,另一方面凭借自身对教育行业高性能计算需求痛点的深刻洞察,让平台最终为兰州大学高水平科学研究、前沿科技探索、创新型人才培养提供了良好的支撑和保障,加速助力学校“双一流”建设。
华为在教育领域的深耕,势必会激发人才培养与科研创新的无限可能。“2020全国高校HPC公共服务平台建设研讨会”即将开幕,让我们一同突破计算边界,共享更好未来。