用6000字,来一次数据安全与灾备漫谈

时间:2019-05-15 栏目:

编者按:本文为“千字千金!中国首届灾备行业征文大赛”参赛作品,本文作者是一对父女,父亲为知名IT厂商客户服务总监,女儿为在校大学生,从一名乙方技术的角度,介绍了灾备演变的历程,这些内容,不仅涵盖了灾备技术的发展,也有一些相对应的解决策略。以下为文章正文。


有些事是令人憧憬的,雨夜读书便是一例。窗外雨潇潇,灯下书香飘。不求浪漫,只为心闲,为日间忙碌后的那份安适与恬淡。可北京的雨越来越珍贵了,常常一连几个月不见雨水。南方雨水充沛,可以去江南,上海南京都好。

 

这日,商旅上海,恰逢雨天。有意早起,在陆家嘴一家咖啡馆中独坐,边喝咖啡,边读新闻,享受沪上雨天的闲暇时光。不久,一位学者气质的男士进门来,目光偶然对视时,竟然是位熟人。我赶忙起身打招呼,口称周总。自然的世界很大,人们都想去看看。人间的世界太小,时常不期而遇。

 

周总如今自己创业,之前是一家大型外资银行数据中心的总经理,在金融电子信息领域是位具前瞻眼光的实干家,职业生涯伴随着国家金融信息电子化的发展与技术进步,是数据安全、灾备行业的先行者。多年间,他甲方、我乙方,一起经历过几次险情,也建立了彼此信任的工作友谊。正巧我在写一篇数据安全与灾备方面的稿子,一番寒暄后我们就在咖啡馆里聊起这个话题。

 

我先开场的,抛砖引玉。我说:“十几年前,国家就有标准,对数据中心的灾备技术做了规范性指引,记得是《信息系统灾难恢复规范》。规范明确了四种方式:冷备、暖备、热备和双活。四种方式分别对应无设备的临时搭建、手工切换方式的主备中心、自动切换的主备中心,以及负载均衡方式下的双活中心。具体选哪种方式取决于业务需要和财务预算。”

 

周总插话道:“国家标准是数据安全大厦的基石。要认真看,照着做,当然也要与时俱进。”

我接着说:“数据是组织的血液。灾备忙什么?数据是关键。”

“数据安全有两个含义:一是数据本身的安全,二是数据防护安全。”周总打断我,“数据本身的安全涉及加密、解密、保密、身份认证、数据完整性等技术。数据防护安全涉及磁盘阵列RAID、备份和容灾技术。”

我喝了口咖啡,接过话茬:“加密、解密、认证这些理论还是留给数学家和大学教授吧。灾备最前沿、最有实际价值的是数据中心。数据中心更侧重数据备份和容灾实践。”

周总点头,望向窗外说:“是的。把成熟技术用好最有现实意义。”

我问道:“您是这方面的专家,见多识广。可否梳理?”

周总往椅背上靠了靠,目光依然望着窗外,若有所思地说道:“我把过往的数据防护技术架构分成四代。划代的标准对应着数据存储设备的技术发展。”

我说:“那就先从第一代开始谈?”

 

  • 第一代灾备

 

周总说道:“第一代灾备方案没有专用的存储设备,数据保存在主机的磁盘里,备份到磁带中。磁带是数据防护的关键载体。人们开玩笑说‘命悬一带’。”

 

【第一代灾备故事:火灾中抢救磁带的年轻人】

周总大学毕业后在一家国有银行的省行工作。一天,机房电路短路,引起火情。人们慌忙外逃,唯独一位年轻人逆着人流往里跑,冲进机房,抱着一筐磁带撤出去。事后,这位年轻人因抢救国家财产受到表彰。表彰会上,他说:“一旦机房不幸焚毁,我们可以凭这些磁带里的数据恢复业务系统。”



几年后,这位年轻人因工作出色职务晋升,成为那家银行全国最年轻的信息科技处副处长,并主持处里工作。据说行里为了让他主持工作,有意没调派正处长。

 

当年的那位年轻人就是现在坐在我面前的周总。这故事我是从别人那里听来的。周总告诉我:“表彰会后,行领导说数据丢不起,更不想小周有闪失,数据安全不能以人员不安全为代价,让我们多买些磁带,备两份儿,分放两栋楼,同时研究新的灾备方案。”

 

  • 第二代灾备

 

我说:“专用存储设备的出现用不着您冒生命危险了。”

“存储个头比主机还大,即便想搬也没人能搬动。”周总一笑,“数据防护安全技术发展到第二代,专业存储设备不仅把数据的保存和访问从主机中独立出来,而且内部的重要部件都是冗余设计,可靠性高多了。”

我说:“但不可奢望100%的可用率。您给电视台准备公告的那件事儿,我印象深刻。”

 

【第二代灾备故事:给电视台的新闻稿都准备好了】

最初认识周总时,我们两家公司关系属于客户-厂家性质。我在一家IT厂商供职,他当时担任一家国有银行某省分行的信息科技部总经理。他们总行已经完成了业务数据上收,建立了全国集中的数据中心,省分行的前置机支撑省域内营业网点、ATM机和POS机等业务。

 

一个周日的下午,前置机中的存储设备发生了宕机,好在当时营业网点的业务服务时段临近结束,对网点的影响程度相对小一些,但该行全省范围内的ATM机、POS机都不能使用了。情况紧急,人员备件同往。我们到达现场时,周总已经等在楼门口,神态镇定,表情凝重,像是盼等援军的将军。镇定是为军心稳定,凝重只因战事紧急。

 

故障很快查明了,存储设备中冗余设计的一对板卡先后失效,中间间隔几个小时,第二块板卡失效后设备宕机,数据访问中断。更换部件后,设备硬件很快恢复了,接着是文件系统、数据库管理系统完成一致性校验和修复,最后业务系统恢复了。至此未完。由于异常宕机,多个RAID盘组需要重建(“rebuild”)。重建由人为发起,由存储后端自动完成,优先级低于前端I/O访问,耗时长。在RAID盘组重建过程中,人们心里不踏实,担心重建异常突然影响业务系统。除非重建成功完成,否则紧急状态不敢取消。感觉时间过得太快,网点开门营业的时间正在临近,重建还在进行……

 

按照规定,营业网点不能正常提供服务时,银行需要提前向社会公告,避免因不安情绪引发挤兑或者其它混乱。客户和厂商双方人员一直呆在监控室里,我没留意周总何时离开的,他回来时手上拿着一页纸。那是准备发给电台、电视台的公告。他要在预设的最后时点发出。黑色的文字,红色的公章,纸张很轻,心情很重。

 

在大地迎来黎明的曙光时,我们也迎来了盘组重建完成、一切恢复正常的幸福时刻。公告没有发出,网点已经营业。我走出大厦,迎着明亮的阳光,没有兴奋地如释重负。望着院外车水马龙的街道,我不由自主地举臂伸腰,消解疲劳。加之稍后开始的根因分析,我连续二十多个小时无眠无食。厂家犹如此,客户何以堪?

 

虽说往事如烟,但至今更加认为:有备无患,方为上策。我在纸上写下两行字,边递边说:“这是我在省行故障排除后的那天晚上写下的句子,也是我的向往。”

周总看后点点头,说:“用在数据安全与灾备上挺合适。令人向往的境界啊!”

 

第二代灾备方案的关键是存储设备。通过一系列的针对性设计,比如板卡冗余、RAID冗余盘组、高速缓存CACHE的电池、冗余电源模块,以及专用的存储操作系统等,存储的数据可用性是非常高的。在维护达标的情况下,有的厂商还承诺数据100%可用性。但这一代灾备方案难以实现完全的业务连续性。上文前置机的故障,既有偶然性,又有必然性。想消除这种必然性,有两大障碍。一是硬件,有时冗余部件未及维修双失效或者某些部件不冗余;二是微码(固件),冗余部件之间的调度和协调机制失灵。面对这两座大山,单机方案几乎不可能翻越了,解决的希望寄托在双机上。

 

  • 第三代灾备

 

此处请允许我先做个科普。在数据容灾领域有两个重要的指标:恢复点目标RPO (Recovery Point Objective)和恢复时间目标RTO (Recovery Time Objective). 前者讲的是服务恢复后,恢复得来的数据所对应的时间点。一个业务系统往往有很多数据,可用的数据需要具备一致性。也就是说,所有数据都必须是某个时刻的“快照”。否则,数据就可能因为不一致而不可用。但数据的备份和传输需要时间,实时数据与备份数据之间有个时间差。这个时间差就是RPO. 如果备份数据是在中断时刻之前15分钟的完整备份,RPO就是15分钟。而RTO讲的是企业可以容许服务中断的时间长度。如果灾难发生后30分钟便需要恢复,RTO就等于30分钟。

 

聪明的读者已经明白,这两个指标越小越好,最好都为零。确实如此,实际困难在于灾备预算多少。预算不只包括搭建灾备环境所需要的一次性投入,还包括确保数据同步所需要的网络传输费用、人员管理、维护费用等。RPO和RTO越小,预算越大。周总单位当时前置机就只有一台存储设备,一旦发生故障,RTO就失控了,时间长得令人煎熬。

 

我问周总:“前置机系统故障后,听说启动了紧急采购。”

“是的。我之前打报告申请存储双机,预算一直没批。那件事之后,很快就批下来了。当时预算紧张,砍掉了其它项目。”周总道,“吃一堑,长一智。行里在数据安全及防护的认识方面上了一个台阶,甚至开会汇报的次序都做了调整,行领导要优先听数据安全方面的内容。”

我问:“后来呢?”

周总:“后来上了存储双机方案,加强了故障监控,之后多年没再出过险情。”

 

再后来,我们两人的工作都有变动。我去了另外一家IT厂商,周总去了一家大型外资银行的数据中心,担任总经理,手下几百人。这家银行的数据防护已是第三代存储技术。设备是从我当时供职的那家公司采购的,俗称“存储双机”。还建立了同城灾备中心,一旦生产中心的数据不可用,业务系统可以切换到同城灾备中心的设备上继续运行。

 

第三代灾备的技术先进程度,远非第二代的单机架构可比。大型银行客户或者业务关键的其他行业客户不仅建立了两中心,还建有异地灾备中心,俗称“三中心”。同一份数据同时有三个备份。万一发生诸如地震等重大灾害,即使同城的两个中心受损严重,但远在异地的灾备中心还有一份数据。可谓高枕无忧了。

 

绝对的安全是没有的,只是遇险的概率大小。周总的数据中心“存储双机”方案虽然RPO为零,但RTO会达到一个多小时,因为其中涉及服务器、网络、业务系统等一大堆的切换,文件系统需要装载(“mount”)备份卷。这一个多小时内,业务系统不可用。实际运行中,如果不是遇到火灾、供电异常或者建筑物损毁一类大的事故,而仅仅因为存储设备故障就切换到灾备中心,这还是很令决策者纠结的。毋容置疑,决策者主观上还是希望尽可能在无需灾备切换的情况下排除险情,这样对业务系统的影响最小。

 

【第三代灾备故事:报功与报喜】

事有凑巧,周总的数据中心遇到过“存储双机”架构中一台存储设备持续告警,一个物理盘柜中几十块磁盘都在报错,好在业务系统仍可正常运行。工程师们忙了两天,险情未排除。

 

公司派我到现场全权指挥并协调国外研发中心的专家支持。周总很谨慎,叮嘱我任何进展先向他通报,不要越过他报给他们的中国总部。故障发生第五天时,出现转机,异常的磁盘仅剩两块。笼罩人们心头多日的雾霾开始散去,疲惫的脸上有了笑容,沉闷的耳畔传来笑声。未到奔走相告时,已见喜鹊正飞来。

 

我分别向周总和我公司总部报告了最新进展。不久之后,被周总叫去谈话。本以为是谈下一步安排,不成想被劈头盖脸地指责了一顿。我一头雾水,不明就里。原来,周总认为故障没有完全消失,原因没有查明,向其总部汇报时机不成熟。偏偏他们总部的领导获知了进展情况,反过来向他核实。总部领导的突然过问,令他被动和恼怒,甚至推测我公司存在越级汇报问题,于是诘问我是否“急于报功”。



我猜测有人并无恶意地传播了消息。面对盛怒的周总,我不急不缓地说:“先前我已向公司的有关同事强调了您的嘱咐,不可以越级报告贵行总部。我相信不会有人故意违反,你我分别查查实情。报功的可能性没有,因为没有功劳可报。但人们愁闷了多日,不排除有人急于报喜的可能。”也许误解消除了,也许不快已过去,此话一出,周总便平静下来,换了话题。后来事情彻底解决了,业务系统未曾切换。自此之后,与周总的工作友谊加深了,遇有双方会议,他都指名邀请我参加。

 

从此事的经过可以知道,业务系统可用率非常重要,时刻耿耿在怀。遇有设备故障,上上下下都很关注,心情难免紧张,焦虑也属正常。焦虑缘于系统瘫痪的严重后果。知名企业的IT系统宕机事件时常见诸报端。2011年,韩国农协银行系统瘫痪,服务中断了三天,数据丢失严重。2016年达美航空公司六个小时的宕机造成了一亿多美元的成本损失。即使在云技术时代,依然难以避免。2016年、2019年阿里云的“I/O不响应”影响大片地域。IT系统的脆弱性令人心悸,业务系统的可用性高度敏感。

 

正因如此,灾备切换时常面临两难选择:切换不切换都担心。一个多小时的RTO令数据中心的切换决策犹豫不决,不到万不得已,不愿下达切换的指令。症结在于RTO仍是灾备架构的软肋,要克服就要等第四代灾备问世了。

 

  • 第四代灾备

 

当第四代灾备技术问世后,我最先介绍给周总。被称为“双活存储集群”的第四代技术容忍整台存储设备宕机,业务系统不受宕机影响。跨同城两数据中心的存储集群可以做到存储设备级别的“双活”(active-Active)及负载均衡,通常也配置主机集群,存储设备宕机对业务系统是透明的,RTO接近为零。内置于存储设备之内的高性能、高弹性、自动化、一体化的数据复制技术是当今最先进的灾备技术架构和方案,是数据中心关键业务系统的福音。

 

工欲善其事,必先利其器。周总长期在数据中心工作,深知先进灾备技术对业务系统暨银行生产安全的重要性。在其积极推动下,他们中心成为第四代灾备技术的早期客户之一。灾备演练完全自动化,系统运行基本没感知。关键业务系统受惠于最可靠的灾备架构和设施,宕机风险远去了。

 

  • 灾备对策

 

外面的雨依然下着,我们的话题继续聊着。周总说:“自从上了第四代灾备,多年来从未有过的踏实。那种感觉棒极了,局外人很难理解。”

 

我说:“一切就完满结束了?”

周总:“不会。”

我说:“还有什么挑战?”

“有些想法。不是学术,纯属聊天。”周总接着说,“可能遇到的一些风险和艰难包括国际禁运、自然灾害、人为破坏、设备故障、供电故障、网络故障以及误操作。”

我问道:“有什么建议?”

周总略一停顿,说道:“这几类风险成因不同,影响范围和程度各异,对策也不同……”他说了很多,似乎经过了深思熟虑,不吐不快。摘其大要,列为三条。

 

第一、对于国际禁运这一类风险是全局性的,需要政府、行协和企业心无侥幸地做准备。政府和行协可以建立IT设备博物馆,把淘汰下来的旧设备保存好,最好是硬件、软件、应用程序、使用手册等配套保存。定期加电,使之处于随时可以使用的状态。可以参考某些国家保存淘汰的军事装备的做法。一些国家把淘汰下来的旧装备并不丢弃,而是有计划地保存起来。一旦新装备消耗完又得不到及时补充时,旧装备就可投用,虽不先进,但比没有要好很多很多。

 

除了政府和行协,企业层面也要有所作为。制定“利旧”计划时,预案要假定长期禁运的可能性。据此制定保持既有灾备水平的年限、降级灾备水平的年限、直至没有灾备的年限等。其实,“利旧”不仅适用于国际禁运,也适用于其它突发事件。据传闻,美国“911”事件后,有的公司在全球范围内搜罗某厂家停产多年的小型机,好坏不限。过去这些年份,我国处于经济增长高速期、中速期。一旦进入低速期,业务数据量增长降速,IT系统提速扩容的需要下降,更新换代的资金和预算就不会如今天这般的充裕,延长设备使用期限必将会常态化,我们需要整体谋划,未雨绸缪。



第二、对于地震、水灾等自然灾害,或者恐袭等人为破坏这一类风险,异地灾备中心最有效;对于设备故障、供电故障、网络故障一类的风险,要靠同城或异地灾备中心;对于误操作,就要靠数据中心自动化降低隐患,并依靠同城或异地灾备中心应对。现有的第四代灾备方案可以较好地应对。关键是提前做好预案,临事不慌。

 

第三、数据防护、数据安全的管理尤其重要,管理得好可以充分发挥和发掘既有方案的效能和潜能。管理是技术的倍增器,数据安全的风险管理也不例外。管理的对象主要是人员。数据中心的管理人员和技术人员很专业、很可敬,服务商的技术人员遵经验、守规范,但长年累月地、多年如一日地不犯错几乎是不可能的。“木桶原理”中的短板随时可能出现,任何一个短板都可能带来大的麻烦。日常运营中需要避免松懈和疏忽,措施需有效,警钟要长鸣。

 

我将这些记录下来,写成此文,希望能对读者有所启发和借鉴。经过三十多年的发展,我国数据安全与灾备技术越来越成熟,风险管理越来越规范。一路走来,有困苦有艰难。回头再看,更多的是敬意和点赞。微信聊天、网上购物、移动支付这些司空见惯的生活新方式,都是各自的数据中心在起关键作用。各行各业的数据中心为国家的现代化、为经济发展、为民生的便利做出了巨大的贡献。假如没有这些数据中心,我们的工作方式和生活方式无疑将后退多年。不夸张地说,方方面面皆已电子化、信息化的现代社会高度依赖不为众人知的数据中心。数据安全没有一时不关键,数据中心的灾备没有一刻可或缺。

 

行文至此,我又想起了多年前在省城的那个夜晚写下的句子。那是我的向往、周总的向往,也是更多人的向往。录在此处,作为结尾。

 

屋瓦固,任春雨纷纷,淡定凭栏观雨景;

窗棂坚,料秋风阵阵,悠然倚楼听风铃。

 

【后记】本文引用的灾备故事由真人真事改编而来。人物姓氏用了化名,任何的对号入座都是不合适的。作者选取故障场景作为切入点,是为了借此点明技术架构的薄弱所在,那也是技术方案更新换代的关键所在。实际生产中,设备故障总会有,但不可误以为“都是故障”。医院多见病患,周围众皆健康。是同样道理。

及时响应,快速服务,为您保驾续航

立即注册

销售咨询:400-0078-655
紧急报修:021-61735936
投诉热线:021-61679076
技术QQ群:532148075
欢迎加入!
隐私声明
当您在本网站进行合作伙伴注册登记,本网站将收集您的相关信息,并保存记录。本网站收集的个人信息包括但不限于:姓名、地址、公司、所在地区、电话号码以及电子邮件地址等。您主动提供的信息越多及越准确,我们就能够更好地为您提供有关服务。
咨询·购买