浪潮气象环保行业高性能解决方案

2016-02-23 11:02
浏览量: 收藏:0 分享

一、需求与分析

  大气环境应用需求

  引言

  近几年中国大陆的严重污染现象频出,尤其是2011年10月、2013年1月和2014年2月,我国华北地区、黄淮、江淮、江南等中东部地区持续多日出现灰霾天气,灰霾问题成为社会各界广泛关注的焦点。大气重污染事件的持续发生,对人民群众的身体健康和生产生活造成严重影响,受到来自公众、舆论和中央等各个层面的迫切关注。这些污染事件是我国在实施新的《环境空气质量标准(GB3095-2012)》及评价方法后经历的严重污染过程,对我国城市空气质量达标和大气污染防治工作提出了严峻的挑战。2013年9月,国务院下发了“大气污染防治行动计划”(简称大气十条)的通知,提出了“经过五年努力,全国空气质量总体改善,重污染天气较大幅度减少;京津冀、长三角、珠三角等区域空气质量明显好转。力争再用五年或更长时间,逐步消除重污染天气,全国空气质量明显改善”的总体目标。明确要求建立监测预警体系,要求环保部门加强与气象部门的合作,建立重污染天气监测预警体系,要做好重污染天气过程的趋势分析,完善会商研判机制,提高监测预警的准确度,及时发布监测预警信息。

  导致我国大气污染形势严峻的根本原因,是大气污染特征发生了本质性的变化。由于社会经济和城镇化的快速发展,主要城市群正经历由过去比较单一的大气污染向大气复合污染快速转变。以PM2.5、O3(臭氧)为特征的区域性、复合性空气污染日益突出,污染源排放及其影响的地域跨越了城市甚至省际的行政边界,总体呈现出区域性和二次污染日趋显著的特征。这种以PM2.5和O3为代表的二次污染已逐渐成为阻碍我国城市和区域空气质量改善的主要瓶颈。二次污染问题的复杂性和危害的严重性,决定了其治理的艰巨性。固有的“单打一”的污染物控制思路已经很难满足污染防治的需求,急需开展城市及周边地区大气污染成因、预报预警及控制对策研究。

  目前许多国家和地区都开展了空气质量日报和预报的工作。国际上使用的统计预报和数值预报两种方法中,数值预报以其客观、实时、准确、高效等特点成为空气污染预报研究的发展趋势。但数值预报涉及到的程序模式众多,但都有计算量大、通信频繁、IO需求大等共同点,普通的个人计算机或工作站很难满足计算需求,所以一个具备高性能、高可用性、高可靠性的高性能计算系统平台成为空气质量数值预报领域研究和应用发展的关键。

  浪潮公司在不断冲击全球知名的高性能、高端机型排名的同时,我们也对应推出满足多种企业、事业和研究机构需求的高效、稳定的解决方案。在气象、海洋和环境等数值预报领域,浪潮经过十余年的实践,积累了大量的软件调试和业务实施经验,并同多个科研机构建立长期良好的合作关系,针对这些行业,浪潮结合多年的领域实施经验,推出专门的领域软硬一体化的解决方案,为用户的研究和业务系统顺利开展提供最佳的产品选择。另外,浪潮具有目前国内最系统化专业化水平的数值预报领域的HPC支持团队,能够对用户应用进行专业的性能调优、流程优化、业务系统监控等工作。

  浪潮目前拥有国内数目众多的数值预报领域高性能集群成功案例,最近3年系统规模超过30万亿次的案例包括深圳气象局(34万亿次)、上海台风所(32万亿次)、浙江气象局(35万亿次)、北京气象局(90万亿次)等。浪潮在不断积累成功经验的基础上,也跟国内最专业的数值预报研究单位建立了良好的合作关系,共同推动数值预报在中国环保、气象行业的普及和发展。

  常用空气质量模式

  在环境保护行业中,利用高性能计算进行数值模拟,对大气污染情况进行预报预警,并通过源解析指导污染防控和政策指定,并成为科研院所和事业监测机构不可或缺的手段之一。

  相关单位包括:

  环保部环境监测和预报单位(如环境监测总站、各省市的环境监测中心等)

  各种环境研究单位(如中科院大气所,深圳、广州、上海、北京、新疆环境研究所等)

  各个高校的环境学院(北京大学,清华大学,兰州大学,中山大学,华南理工大学等)

  空气质量预报模式目前应用的较多、较成熟的有:中国科学院大气物理所的NAQPMS模式、美国环保署(EPA)的Models-3/CMAQ模式及美国Environ公司的CAMx模式、NCAR的WRF-Chem等。

  模式计算特点

  计算量巨大

  中尺度气象预报模式(WRF、GRAPES等)和大气化学模式(如CMAQ)等都有非常大的计算量,且绝大多数为浮点计算。理论上预报精度提高一倍,其所需计算量将提高16倍。数值预报模式对计算的这一需求,靠单个CPU或普通的计算机根本不可能在有效时间内完成,必须利用并行计算。一方面,需要将模式预报软件通过消息传递或者共享存储的通信方式并行化,另一方面需要购买高性能并行计算机以满足计算需求的增长。

  目前本文提到的大多数预报模式都已经完成了并行化,如中尺度预报模式的WRF、空气质量模式CAMx等既支持MPI消息传递并行,又支持OpenMP共享存储并行,也支持MPI+OpenMP的混合运行模式;CMAQ、NAQPMS目前只支持MPI并行,暂不支持OpenMP并行。

  通讯密集

  由于这些模式都是并行软件,同时一般都采用有限差分格点模式并行计算,所以运行这些预报模式时,各个CPU之间的通讯量很大,模式对通讯的性能要求非常高。如气象中尺度预报模式WRF的通讯既包括母域和嵌套域之间的域间通讯,又有各个域内部不同数据划分之间的通讯。所以这就要求高性能计算机有高性能的通讯网络。

  I/O要求高

  由于涉及大量的用户和大量的小文件读写,气象模式程序大都对整个系统的IOPS性能有较高要求,一般要求有分布式IO或者并行文件系统。同时,存储系统的稳定性和可用性对整个业务系统的运行至关重要,在存储系统的设计上,一般要求提供高可用解决方案和支持故障自愈的存储系统。

  另外,考虑到气象数据的周期性访问特性,最好能提供支持基于策略的分级存储功能。

  主模式计算量大

  从软件的处理流程上看,一般分为前处理、主模式和后处理。前处理包括资料的传输下载、数据同化等等,后处理主要是指图形化处理生成产品等,前/后处理一般对计算机浮点计算能力要求不是太高,但对综合处理节点的I/O处理能力要求较高。主模式是整个系统的主要部分,也是主要双精度浮点计算量所在,这个部分是对计算机双精度浮点性能要求非常高。

  由于预报模式上述特点,它对计算环境有如下要求:

  高密度机群系统(Cluster),其具有较高的处理性能;

  分级的存储空间,能存储周期性业务数据(热点数据)和归档数据(大数据);

  Linux或者Unix操作系统;

  C和Fortran 77/90编译环境;

  MPI和OpenMP并行环境;

  图形库和图形显示系统,如NCL、MICAPS、GrADS、VIS5D、RIP4等;

  保证系统能获取背景场数据资料,如NCEP、T213资料;

  因此对于构建一个数值预报平台业务预报系统,在选择基础环境时,以下几点是非常重要的。

  高性能,特别是计算系统的双精浮点处理性能和前后处理系统的综合处理能力;

  高性能网络环境;

  系统的高稳定性;

  高性能和高可用的并行存储系统,支持归档;

  成熟、稳定的作业调度系统,具备优先级调度和支持作业抢占/恢复调度。

  浪潮拥有一支专业化的HPC应用分析团队,可以针对客户应用,运用独有的的测试工具得出具体的硬件平台需求,从而帮助浪潮提为客户提供针对性的性价比最高的HPC解决方案。下面WRF气象软件的应用特征。

二、浪潮高性能气象行业解决方案

  针对气象行业高性能需求的特点,浪潮从应用出发,提出了针对化的解决方案,具有以下明显优势:

  高性能,特别是浮点处理性能

  气象软件对计算能力的需求非常高,因此方案配置了多个双路节点,浮点运算能力极强,适合于MPI分布式内存的计算。

  网络带宽问题

  在气象软件应用中,并行化对于网络延时和带宽的要求很高,我们配置了单向40Gb或56GB的高速Infiniband网络,满足所有节点计算交换需求,网络延时低。

  存储带宽问题

  气象在计算过程中,边界区域会产生大量数据交换,一个优秀的存储系统能够满足软件对于网络带宽的需求。我们配置了8Gb接口的光纤存储系统,通过专有的IO节点接入40GB或56GB的Infiniband网络,不至于出现CPU等待数据计算的情况,大大提高了计算效率。

  系统高稳定性

  一套高稳定性的系统能够使我们的气象应用更加方便快捷。浪潮提供的设计方案集成度高,配置简单,不仅有效的减少了故障概率,也提高了设备的利用率,从而保证在实现高可用性,高稳定性的情况下为用户实现最大的投入产出比。

三、浪潮HPC方案优势与价值

  系统方案配置满足用户需求,计算、存储、网络等部分配比合理,符合用户应用特点,没有性能或功能上的短板;

  系统计算性能强劲,计算资源丰富,节点选型和配置切合用户应用,瘦节点、胖节点、GPU节点等有机结合;

  存储系统采用浪潮TSExaStor分布式存储架构,提供充足的I/O聚合带宽,存储系统稳定可靠、具有很强的可扩展性;

  采用业界最先进的56Gb/s FDR InfiniBand高速网络,作为高速计算网络和存储网络,56Gb FDR作为目前业界最领先的网络技术,相比上一代的QDR网络性能提升一倍,能大幅度提升并行应用程序的计算效率,并显著提升并行存储系统的I/O聚合带宽及IOPS性能;

  集群监控管理网络采用千兆交换万兆上联方案,既能保障网络性能,又能简化了布线管理;

  方案充分考虑系统的稳定可靠性和高可用性,比如主要产品都采用了冗余设计,系统管理节点采用双机冗余配置,存储系统的双活冗余设计、集群监控告警系统对系统潜在风险的预估等方面;

  浪潮 ClusterEngine集群监控管理系统,提供了简单友好的集群管理和用户使用界面,提供集群部署、监控、告警、管理、统计、报表、作业调度等丰富功能; 支持记账配置,支持按照CPU、内存、存储使用情况计费或者自定义计费策略;支持统计报表导出;支持在线用户缴费和余额管理;支持作业运行过程中对作业进行断点设置,并可从断点处恢复作业的运行。

  浪潮提供完备的高性能计算基础软件环境,包括编译器、函数库、常用工具库、并行环境等,并针对系统进行优化,满足高性能计算程序的开发和运行需要


标签:

责任编辑:管理员
在线客服