票据影像数据管理解决方案技术白皮书

2016-01-14 16:01
浏览量: 收藏:0 分享

一、金融票据影像业务发展

  金融行业在业务运营中会产生大量纸制凭证,传统的业务处理方式存在着凭证保存成本高,手工录入、翻阅,效率低,无法进行历史交易统计和关联交易分析等种种不便。随着金融电子化、流程银行及集中作业中心等理念的深入推广,许多金融机构建设了票据影像集中管理平台。这是一个集档案录入、图像处理、智能识别、数据核对、统计分析、海量存储、精确查询于一体的计算机辅助管理系统。此平台为其它业务系统提供影像管理方面的业务支持,极大地提高了工作效率,降低银行自身的生产运营成本和管理成本,同时提高客户和员工的满意度。

二、海量票据影像数据的管理难题

  IDC研究表明,金融行业未来80%的数据主要呈现为影像、照片、音频、视频等非结构化数据。 从2010年到2020年,非结构化数据将以44倍的发展速度迅猛增长。

  票据影像数据为银行业务流程中产生的扫描文件、照片等业务凭证,随着业务的发展,总体数据量增长迅速。由于票据影像数据与传统的结构化数据有很大的不同,我们有必要深入了解一下票据影像数据的特点:

  文件小: 票据影像文件一般经过压缩后,每个文件大小约在几十K至几百K之间,多见的是100K左右的文件

  数量大: 文件数目众多,依据银行的规模与上线的时间不同,单套系统中往往会存放数千万至数亿的文件数

  空间占用大: 依据银行的规模与上线的时间,单套票据影像系统占用的存储空间为数T至数百T的存储空间

  调阅频率与生成时间有关: 一般来讲,票据影像文件90%-95%的调阅发生在3个月以内,一年或三年后的票据影像数据调阅的可能性非常低

  总体上讲,银行票据影像系统的数据特点是一个典型的"海量小文件"场景。

  从监管上讲,在银行业务流程过程中产生的数据是交易的重要凭据,应当长期保存;系统要对生产系统中的票据影像文件进行备份,保证生产系统数据损坏后能够快速恢复;对业务发生达到一定时间,访问概率低的票据影像数据应当实现归档,以降低对生产存储的占用;当业务需要时,譬如在司法场景下、客户投诉、业务调取场景下,能够迅速地查询到已经归档的票据影像文件。 然而,票据影像系统数据的文件小、数目多、总量大的特点,使得数据存储与数据保护存在诸多技术难点:

  备份时间长: 针对文件系统进行数据保护时,首先需要对全部文件进行扫描,当文件数量过多时,扫描时间会非常长。其次,需要逐一定位文件,拷贝文件,当文件海量时,备份时间也会非常长。这使得客户在指定的备份窗口内,无法实现数据备份

  离线保存后文件调阅麻烦: 如果将长期不用的文件离线保存至光盘或磁带,需要人工操作。调阅时,必须遵守一系列业务流程进行。如由业务发起调阅请求,科技人员受理,找到相应的介质,并将离线介质回迁至生产存储进行查询,查询后还需要进行删除

  数量逐年增加: 随着银行业务的拓展、网点数目不断的增加、上线时间的变长,数据量成显著上升的趋势。这导致生产系统容量需求不断增加,需要不断的扩容

  以某城城市商业银行为例,其票据影像系统上线3年,文件总数目达8000万,数据总量已达10TB,且以每年2~3TB的速度增长。大量的票据文件很快消耗了主存储系统的空间,面临着对昂贵主存扩容的压力。更为严峻的是,业界目前主流的数据保护方案,都没有充分考虑到票据影像"海量小文件"的特点,只能管理约百万级的文件,备份速度在每小时几十GB,10TB的数据备份需要数周时间。但实际环境中,是不可能有这么长的备份窗口。 因此,所有票据影像文件根本无法完成备份。

  近几年,我国有上百家银行逐渐建设了自己的票据影像系统,由于票据影像数据管理的技术难点,几乎都没有实现数据保护,系统长期处于高风险运行状态,一旦生产系统出现故障,后果不堪设想。

  针对票据影像的业务特点,我们认为在票据影像数据管理上需要满足以下需求:

  票据影像数据是交易中的重要凭证,必须满足监管部门对系统可靠性及数据保护的监管要求,实现千万级数据文件在给定的时间窗口内实现备份是基本要求

  对于已经归档的票据影像文件需要调阅的情况下,在一堆归档磁带或光盘中人工搜索文件工作量是无法想象的,必须提供"自动化"的、快速的归档文件调阅手段

  长期不用的票据影像文件需要从高端生产存储迁移到成本更低的近线存储,减少高端存储的扩容费用; 数据的备份与恢复、归档与调阅、数据校验等数据管理操作需要实现"自动化", 降低运行与维护的难度,减少人力投入

三、华为票据影像数据管理解决之道

  1.设计理念

  票据影像文件数据管理所存在的问题不是一个简简单单的提高备份性能的问题。备份性能再高,也不能赶上票据影像数据增长的速度,不能满足票据影像管理的需求,管理"海量小文件"要建立相应的管理理念,通过系列的技术组合来实现。

  在采用备份手段进行数据保护时,首先需要控制备份量,也就是控制生产存储的数据量,将"海量小文件场景"转化为"大量小文件场景"。票据影像文件主要在生成后的一段时间内调阅,在生成后的一段时间后调阅概率会明显降低。这样的特点为通过归档的方式来降低生产存储的总量创造了条件。采用分级存储的方式来降低总体拥有成本会更加合理,也就是昂贵的生产存储存放最常用的数据,廉价的近线存储存放归档数据,磁带库作为离线存储提供数据存储介质。当然,完成归档的数据必须是"打包"形态的,不能还是小文件形式,不然归档数据的数据保护又会成为新问题。

  但是,将数据归档也有个前提条件,那就是归档数据如何查询的问题。归档数据查询方式越方便,生产数据的归档策略就能够设置的越短,也就是能更好的控制生产存储的数据量。最好的查询方法就是整个过程无需技术人员的介入,让应用系统自动查询,数据管理系统快速将归档文件回迁至生产存储,供应用系统调阅,业务人员几乎是"零感知"。

  2.华为票据影像数据管理解决方案的"一体化设计"

  华为金融票据影像数据管理解决方案"一体化"的实现了"海量小文件"场景的存储、备份、归档、分析、重删、搜索等管理需求,实现自动化的全生命周期管理。

  图1 华为票据影像数据管理解决方案架构

  该解决方案有四大主要功能:

  分级存储功能:根据票据影像文件生成时间与访问频度,合理利用在线、近线、离线存储介质,减少生产存储容量,降低TCO

  自动归档功能:根据归档策略,将访问频度低的文件通过"打包归档"方式实现数据保护,满足监管要求

  自动备份功能:实现"海量小文件"的高速备份,在系统故障和个别文件损毁的情况下,能有效管理数亿的文件,并能够实现数据的快速恢复

  面向应用"透明访问":当应用系统访问已经归档的文件时,方案可以自动将归档数据从近线存储中回调至生产存储,保证应用在等待若干秒后能够访问到所需数据,无需人工干预,操作人员无感知

  华为的解决方案将为客户带来如下价值:

  备得出:对海量小文件的备份效率提高到每小时数百GB,备份时间缩短至传统方式的十分之一左右

  查得快:"透明访问"技术,通过"存根"的设计,保留归档后的文件位置信息,在需要调取归档文件场景下,应用触发"存根"回调归档的文件,时间仅需几十秒,而且应用无感知。

  成本低:首先,采用"分级存储"思想,用廉价的近线存储替代昂贵的生产存储,降低存储采购成本;其次,方案"一体化"设计,一站式解决海量文件存储、备份、归档、管理问题,建设成本低;最后,全自动数据管理方案,减少大量运维成本与人员投入

  而要实现上述价值,主要得益于"透明访问"、"二级索引"两项关键技术:

  "透明访问"---方案的核心价值是"透明访问"。在归档操作时,一方面将超过一定时间的数据文件迁移到"近线存储",另一方面在生产存储留下相应的"存根"。该存根指向文件迁出后的实际位置。在应用系统访问已经归档的文件时,就访问到了"存根",此时会触发一个将归档文件回调至生产存储的操作,使得应用系统能够读到该文件。这就是"透明访问"功能。"透明访问"的优势:

  1.归档文件不离线,存在价格低廉的近线存储上,通过业务应用系统查询非常方便,也就是业务人员调阅归档数据,科技人员不用参与

  2.生产存储的容量得到有效的控制,不需要经常扩容,风险降低、稳定性提高

  3."近线存储"可以当在线存储使用,价格低,扩容方便

  4."透明访问"使文档的归档成为可能,可以降低生产存储的文件数量,方便备份、恢复与数据管理

  "二级索引"---采用备份/归档技术进行数据保护,被保护的文件是"打包"保存的,需要在备份系统中建立索引才能进行恢复与查询操作。市场常见的几款传统的备份软件起源于70-80年代,80-90年代前后开始商用。在系统设计时,"海量小文件场景"还不常见,系统设计主要面向的是结构化数据场景及文件数量不大的非结构化数据场景的备份。所以,基本采用的都是"一级索引"的索引结构。而在"海量小文件"的场景下,每个文件都需要有索引,当所需管理的文件数目达到千万级时,整个系统索引将变得非常庞大,备份系统管理效率会明显降低。

  "二级索引"的设计,是将记录文件的一级索引与介质一起存放,由介质服务器管理,备份服务器只管理"二级索引"。这种分布式的索引技术,可以支持数十亿文件的高性能管理。


标签:

责任编辑:管理员
在线客服