大数据时代的“找油利器”——华为HPC存储解决方案,助力石油勘探工业

2016-01-14 14:01
浏览量: 收藏:0 分享

能源行业迈入大数据时代

  随着数据总量的持续增长和急速膨胀,大数据时代已经来临,石油.电力等能源细分行业纷纷拉开了大数据开发应用的序幕。如何从海量数据中高效获取信息,有效地深加工并最终得到有用数据是能源企业涉足大数据的目的。

  对石油行业来说,众多企业正在把更多的新技术应用于战略决策.科技研发.生产经营和安全环保等各个领域,目的是为了从大数据资源中挖掘更多的财富和价值。大数据应用是石油行业信息化深入.IT与业务深度融合的必然趋势,在我国石油石化行业应用的前景将越来越广阔。随着石油储备的逐步减少,石油石化行业产业链中的勘探.开发难度日益增大, 信息化的成熟度已经成为影响行业增长幅度的首要因素。

  近年来,世界经济的高速发展带动着能源需求急剧上升,使得对石油.天然气等能源的依赖也越来越高,石油勘探和开采所肩负的使命和责任越来越重。在目前油气资源紧张的现状下,精准.快速的地质勘测成为世界能源巨头们倚重的核心竞争力之一,其中高性能计算技术和大数据技术的应用是关键因素。

油气勘探海量数据处理的挑战

  目前在石油勘探中最常用的是地球物理方法。地球物理方法是使用现代物理方法进行地质勘探的方法,包括电法.磁法.重力法.放射性法.地震波法等,其中以地震波法最为重要。地震波法的基本流程是用炸药在地面激起人工地震波,通过地震波传入地下,碰到不同形态的岩层时形成不同的反射波,这些反射波经过收集.转变成电子信号后存储为数据,然后通过对数据进行计算处理.解释和反演,就能清晰摸拟出勘测区域的地下地质构造,并找到那些存有石油岩层的精确位置。

  为了了解和模拟出地下数千米的地质构造,通过地震波反射方式来收集海量数据,一般二维数据可达1~2TB,三维数据可高达几百TB甚至PB级, 然后进行大量的密集计算和模拟,计算结果出来后还要转换成直观的可视画面,方便专家对数据进行解释,为油气钻井定位提供参考。因此,这些海量数据的处理只有借助高性能计算才能实现最佳的勘探效益,这也是在石油勘探领域高性能计算需求的主因。

  由于石油勘探行业的特殊性和复杂性,石油勘探对高性能计算提出了非常苛刻的要求。过去十年中,石油勘探计算处理多采用大型机或高性能计算机,但目前高性能计算机系统在计算性能.系统建设与运行成本等方面已经面临着许多问题。让石油勘探企业感到颇为头痛的问题主要集中在三大困境:一是计算能力需求和CPU处理器性能落差越来越大,目前通过不断提高CPU处理器的工作频率来提高计算性能的技术路线已经逐步走向其极限;二是石油勘探高速增长的数据和存储扩容越来越不匹配;三是能耗制约越来越严重,高性能计算机的体积大.耗电多等弱点以及对庞大的计算机房空间需求.空调需求和用电量等已经成为石油勘探数据处理的一大挑战。

地震资料数据的大数据特征

  备注:BGP(中国石油集团东方地球物理公司)是中国石油天然气集团公司独资的地球物理专业化技术服务公司,主要从事陆地.浅海地震勘探采集.处理.解释及物探装备和软件研发,业务分布在全球34个国家,陆上地震勘探市场份额居全球第一位。现拥有2.6万员工,3000多IT人员和300多软件开发人员,在全球有23个处理中心,约9万CPU核和80万GPU核,运算能力约2PFlops,存储容量超过25PB。

  在HCC(华为云计算大会)2013上,中国石油集团东方地球物理公司研究院的总工程师赖能和先生做了《大数据技术在石油勘探领域的应用》的主题演讲,对地震海量数据的采集与处理过程做了详细阐释。

  石油勘探过程产生的大数据有自己独特的"4V"特征:

  1.数据海量:由于采用连续记录或增加采集点和接受点的密度,多组可控震源在空间上两两间隔一定距离,利用相同的接收排列(超级排列)各自独立工作,地震采集仪器连续记录,所以数据密度很高,产生的数据量非常大。以BGP为例,每天会产生大于7TB的生产数据,在地震资料处理过程中还会产生大量的中间过程数据。

  2.数据来源单一:地震资料数据是由人工模拟地震波激发,由定点采集仪器接收和采集到的,数据来源和数据格式都比较单一。

  3.计算量大:地球物理算法复杂,涉及频繁的IO 操作。高精度的地震成像需要巨大的计算资源。随着物探技术的不断进步,算法精度逐渐提高,以及地质环境构造越来越复杂,对于资料的要求也越来越高。以BGP为例,54TB的原始数据通过4000个CPU 的计算集群处理,需要50多天时间。

  4.处理流程复杂:地震资料处理过程涉及到频繁的IO和数据库,操作复杂。

  5.地震数据的快速增长对于存储提出了巨大需求,也对传统的HPC软硬件架构提出了新的挑战。为了缩短地震资料处理的周期,物探公司和研究院采用了非常高的软硬件配置。以BGP为例,采用Intel E5 CPU,内部交换采用万兆或IB网络,每套存储可用容量2PB左右。仅靠CPU的计算能力不能满足业务需要,还加上了大量GPU来进行加速处理。

华为石油勘探HPC解决方案

解决方案

  华为石油勘探HPC解决方案主要包括几个部分:

  1.计算集群系统

  计算节点和胖节点采用华为自研的刀片服务器,提供强大的计算能力,特别是浮点计算能力,以完成地震资料处理中巨大的计算任务(例如:叠前深度偏移中的波动方程求解)。

  2.存储系统

  存储部分采用华为自研的OceanStor 9000大数据存储系统(简称OceanStor 9000)。

  与传统的NFS和lustre方案不同,OceanStor 9000采用全对称分布式架构,每个节点都可以提供IO和存储单元,提供业务访问.数据处理和存储的能力,因此可以轻松完成节点扩容,实现系统性能和容量的线性扩展。

  OceanStor 9000提供单一文件系统和管理点,地震资料处理软件可以通过统一的入口来访问存储系统,不需要考虑后端的数据共享路径。OceanStor 9000支持多种类型硬盘混插,支持SSD.SAS.NL-SAS和SATA盘,可以根据实际的业务模型和计算模型进行分类,针对不同类别的业务需求进行配置优化。

  为了满足地震数据传输和并行处理,OceanStor 9000支持10GE以太网或40GE的Infiniband网络链接,能够为业务系统提供极高的读写聚合带宽和较低的时延的数据传输。

  3.网络互联

  采用计算网络.存储网络和管理网络分离的方式。计算网络采用万兆以太网,承担并行计算时的数据通讯。管理网络采用千兆以太网,用于HPC集群系统的管理和监控。存储网络采用10GE以太网或40GE的Infiniband网络,为主机访问数据文件提供高速的网络互联。

解决方案亮点

  1.超大容量的单一文件系统,资源灵活扩展

  OceanStor 9000支持单一命名空间,最大可扩展到288个节点,支持40PB存储容量,完全满足石油勘探的海量数据需要。对上层提供透明的存储服务, 屏蔽底层的硬件差异,使得存储系统扩容对业务完全透明,通过节点扩容可实现容量与性能的线性增长。

  2.高性能,可有效缩短勘探计算周期

  OceanStor 9000采用全对称Scale-out架构,通过集群模式.自动负载均衡.全局缓存等技术来整合和管理系统资源,有效提升存储系统性能。单节点可达到800MB/s带宽,整系统可提供200GB/s的并发访问能力,能够有效缩短地震资料处理的作业周期。

  3.高可靠性和硬件容错能力,保障作业正常运行

  CloudStor 9000存储系统采用多节点全Active 的工作模式,网络和关键硬件部件(风扇.CPU.电源等)均采用冗余设计,提供节点间的分布式RAID 技术,保障石油勘探的数据处理过程作业中不会因为单点故障影响整系统的使用。

  4.灵活的组网方式,易管理

  OceanStor 9000提供灵活的组网方式,前后端网络均支持Infiniband或者10GE以太网高速互联,能有效满足石油勘探HPC场景的高带宽.低时延需求。

标签:

责任编辑:管理员
在线客服