近日,河南暴雨牵动全国人民的心,连续的暴雨也让当地的生产生活受到严重影响,郑州市政府已经采取一级应急响应。
信息化保障方面,因城市内道路积水严重,交通供电通讯等公共基础设施遭到了重大的影响。郑州市某 BGP 机房所在区域已停电,根据机房运营单位的公告,当前机房供电只能靠柴油发电提供,由于附近油站因道路积水暂时无法供油到机房,存储油量有限考虑到供油及市电恢复不可控因素,建议用户紧急备份数据,或保证硬件非正常关机故障,可先远程关机等。
受到该机房的停电影响,运营方已停止向部分机柜供电(电力供应有限)。部分将服务器托管在机房内的企业,在停电期间,业务暂时受到影响,目前有些网站已无法提供服务。
图:部分官网截图
这不禁让人想起,2021 年 3 月,欧洲最大云服务和托管服务商 OVH 位于法国下莱茵省首府斯特拉斯堡的数据中心发生火灾,造成该数据中心的四个分区(SBG1-4)中 SBG2 分区被大火完全烧毁,导致 OVH 部分客户数据完全丢失且无法恢复,影响了全球多家网站的正常运转。
郑州这次的洪灾,再次说明了重要系统异地容灾备份(灾备)的重要性。
根据我国《信息系统灾难恢复规范》(GB/T 20988-2007)等相关要求,建设异地灾备数据中心,距离必须保持在三百公里以上,同时还必须做到“三不”:即不在同一火山地震带,不在同一水系,不在同一电网。随着技术的发展,企业对业务连续性的实时性要求不断提高,目前出现了“四不”:即不在同一火山地震带,不在同一水系,不在同一电网,不在同一运营商网络出口。
2019 年开始实施的等保 2.0——《信息安全技术网络安全等级保护基本要求》(GBT 22239-2019),对相关的云数据中心提出了具体的要求:
本地运营安全要求:需要满足应提供重要数据本地备份与恢复功能,应当提供异地实时备份功能,应当提供重要数据处理系统的热冗余,保证系统的高可用性。
云安全扩展要求:云服客户应在本地保存其业务数据的备份、应提供查询云服务客户数据及备份位置的能力、云服务商的云存储服务应保证云服务客户数据存在若干个可用的副本,各副本之间的内容应保持一致。
异地容灾备份既然如此重要,为何此次的 BGP 机房还是受到影响呢?
综合来讲,提供异地数据中心服务,需要投入大量人力财力(它们间关系如下图),要实现生产中心到灾备中心能够成功切换(业务级),这个过程中存在很多挑战。其中最关键的一点是业务切换过去,灾备中心是否可以实现故障接管?对于 IDC 运营商而言,会存在很多的不确定性,严重的会造成数据丢失。
投入如此之大,那么异地灾备建设是否只是一种理想模式,是一个摆设?
当然不是,在很多高监管行业,如银行、证券等金融领域,以及电商、云计算等领域,实现多中心异地互备,已成功落地应用。
2020 年 11 月 5 日凌晨 02:10,阿里华东区域某一数据中心被内部拉闸断电。
同一时刻,数据中心的蓄电系统启动……服务器供能无缝切换。4 秒钟后,柴油发电机群启动。电力完全恢复供应,数据中心运转如常。
这是阿里在云灾备领域成功进行的一次应用级实战演练。
在最高等级的业务级灾备方面,2020 年 11 月 20 日 16:00,工商银行成功进行了 2020 年度信息系统业务级异地灾难恢复演练。
工行科技与业务紧密合作,组织境内 13 家分行、境外 19 家机构,2300 多名员工快速集结,严密有序、顺利高效地完成了演练工作。
工行在国内同业率先建设“两地三中心”工程,形成了工行上海外高桥和嘉定两个并行运行、快速接管的同城数据中心和北京西三旗异地灾备中心。
在生产中心出现区域级问题时,工行通过一键式切换工具,可快速将核心系统切换到同城中心,达到 RTO 秒级恢复、RPO 零数据丢失的效果。
在生产中心出现地域级问题时,工行可通过一键式恢复工具,在异地灾备中心恢复启动核心系统,保持业务对外服务。可实现两小时内恢复业务,满足业务连续性要求。
为了保障关键领域的业务连续性和数据安全,我国相继推出了一系列法律法规。包括《信息系统灾难恢复规范》(GB/T 20988-2007)、《公共安全业务连续性管理体系要求》(GB/T 30146-2013)、《信息安全技术网络安全等级保护基本要求》(GBT 22239-2019)、《中华人民共和国网络安全法》、《中华人民共和国数据安全法》等。