上海英方软件股份有限公司 黄亮 张宝君 唐心悦
摘要
本文叙述了高校业务系统及数据容灾多策略灾备解决方案的应用探索和实践,介绍了数据库双活、应用秒级容灾和数据级实时备份、虚拟化平台备份等综合性创新应用,满足当前教育信息化2.0行动计划的信息安全需求,助力高校在等保、容灾、数据同步等方面的发展。
关键字:数据库双活 容灾 CDP 虚拟化备份
一、教育信息化背景概述
新一代信息技术、通信技术、人工智能的飞速发展,给教育信息化的腾飞插上了翅膀,大部分的教育机构也在“教育信息化2.0行动计划”的发展纲要下,实现教育方式的信息化、智能化。但是在信息安全的灾备领域,大部分的学校还处于传统的灾备阶段,它的主要特征如下:
(1)既有的备份系统不完备,多采用定时备份、本地备份的模式,备份时间窗口大、周期长,数据存在无法恢复或丢失的风险较高;
(2)设备日趋老化,计算、存储的扩容等待时间长,如果不尽快解决数据增长带来的信息安全风险问题,当风险发生时,数据丢失不可避免;
(3)相当多的信息系统未考虑应用容灾和业务连续性的需求,异地容灾没有规划建设;
(4)系统未按等级划分,不满足等级保护和分级保护的监管要求。
图1 备份架构图
传统的备份方案适应了与之对应的信息化应用:系统彼此独立、数据孤岛、数据量小等,但随着教育信息化的不断拓展,云计算、大数据及虚拟化的不断发展,应用系统开始慢慢地集成和融合,应用数据也呈现爆发式的增长,而教育方式的互联网化,打破了教学模式对时间和地点的限制。在这种背景下,高校等教育机构对教学系统的灾备系统的RPO、RTO提出了更高的要求。
二、高校多策略灾备新方案的建设分析
2.1建设必要性
技术架构在快速迭代,数据在不断增加,应用场景也在持续更新,灾备系统如果还停留在传统的方式,当生产系统出现硬件故障、网络攻击、逻辑错误等导致停机或数据丢失,都会影响正常的教学工作,如:
数据库逻辑错误:数据库系统出现逻辑错误,导致数据库无法启动,系统无法正常工作,只能通过每日定时备份数据进行修复或恢复,恢复时间约为5小时,且恢复的数据也是最近的定时备份时间点数据,非最新的数据,会造成数据丢失。
硬件单点故障:采用了单机模式或共享存储模式的环境,底层硬件磁盘或存储出现问题,那么单机环境或传统集群都无法进行正常业务,只有当硬件或存储修复完成,才可以进行正常的生产业务。
虚拟化平台故障:随着高校信息快速发展,对虚拟化平台建设越来越重视,通过虚拟化平台实现业务应用和性能资源统一运维管理,如果虚拟化平台出现故障会直接影响相关应用业务,通常是采用重新搭建虚拟服务器环境和业务应用环境以及恢复数据,业务系统才能正常运行。
2.2建设目标
充分考虑当前信息系统的现状,并借鉴目前网络安全法、等保2.0等政策法规对高校信息系统安全的要求,建设业务系统灾备需要达到以下目标:
(1)规划好系统的等级保护和分级保护;
(2)数据损坏、丢失能以最小颗粒度恢复;
(3)实现应用系统容灾,故障快速接管恢复;
(4)无需更改架构,对系统性能的开销影响小。
综上,信息系统的灾备,已成为灾难发生时确保业务连续性和数据可用性的重要手段。高校在信息化2.0阶段,需要建设一套实时性更强的灾备系统,以实现业务系统数据实时备份保护及应用级业务接管,以符合数据级向应用级灾备的趋势。
图2 容灾级别与能力
三、高校灾备新方案的应用场景
传统灾备方案,有基于硬件存储层架构,也有基于应用层架构。基于硬件存储层方案,建设和运维成本比较高。基于应用层方案,只对几种应用系统有比较好的兼容性;同时,对整体网络环境有一定的要求,比如要有专门的心跳网络及共享存储。它们的共同点是避免不了硬件故障导致的应用服务停止,同时需要一定的采购建设成本,无法真正的的保证应用业务的可持续性。当前个别技术服务商基于超低时延的数据复制技术,针对云和大数据环境下教育行业对等级保护的要求,提出了多策略的灾备新方案。
图3 多策略的灾备新方案
新方案覆盖数据库系统故障、应用系统故障、单机单点故障、逻辑错误&病毒攻击、自然灾害等场景,满足高校在数据库双活、云灾备、容灾秒级接管、数据持续保护等灾备需求,具备了多层次、多策略、全域的特征优势,其重要功能应用如下:
3.1 Oracle RAC数据库集群灾备
方案通过数据库结构化同步软件,对Oracle RAC数据库集群环境的业务系统,进行一对一的双活保护,即灾备到对应单机Oracle数据库系统内。数据库结构化同步软件通过实时解析Oracle数据库在线事务日志,实时传输到备端,在备端执行解析到的事务日志中的指令,进行装载,保证主备两端的数据一致。
数据库结构化同步软件能够实现Oracle数据库数据的异构实时同步,并且备端始终处于在线状态,可以为主端提供查询服务。当生产中心业务系统出现问题,备端业务系统可以快速接管生产业务系统。当生产中心业务系统恢复正常后,可快速进行数据恢复,保证业务系统的业务持续性及数据完整性。该应用亮点如下:
(1)DDL/DML一体化实时同步;
(2)全图形化操作,丰富的功能和配置;
(3)支持多种映射方式;
(4)备库动态装载,分担生产压力;
(5)故障切换快捷简单,容错处理机制;
(6)自主研发,满足国产化趋势。
3.2 单机业务系统实时灾备
新方案通过应用高可用软件,对单机业务系统进行一对一应用级高可用保护(业务接管),即灾备到对应的业务系统内,保证业务系统的可持续性。
应用高可用软件在数据层,通过对主备两端数据进行实时数据同步,保证两端业务数据始终保持一致;在应用层,应用高可用软件对主备两端的网络、应用及服务进行监控,当主端业务系统出现故障导致业务系统宕机时,备端业务系统将实时接收到宕机信息,并启动业务接管机制(手动或自动),保障业务系统持续性以及可用性。该应用亮点如下:
(1)应用按需自动/手工切换,IP自动漂移;
(2)综合统一管理,图形化监控和管理;
(3)高效的传输算法,数据的严格一致性保证;
(4)灵活的管理策略,多种报警机制;
(5)独立于硬件和平台,多种应用支持;
(6)支持仲裁机制防止脑裂。
3.3 核心数据实时备份
新方案通过CDP持续数据保护软件对业务系统核心数据进行实时备份保护,即集中备份至灾备服务器内。持续数据保护软件对业务系统数据进行实时捕获增量数据后传输到备份端,始终保证主、备两端数据的一致性,并且对数据持续的、不间断的I/O操作进行记录。
CDP实时备份分为两种模式:第一种针对结构化数据进行实时备份,可以根据需要将数据恢复到之前的任意时间点,防止核心数据或数据库数据的逻辑错误、误删除等问题,实现对数据的可追溯性。第二种针对非结构化数据进行实时备份,始终保持主、备两端数据一致,备份数据为原格式备份,备端数据可直接使用,无需恢复。通过实时备份保护,可以保证RPO≈0,避免数据丢失。该应用亮点如下:
(1)字节级增量数据捕获,实时数据保护;
(2)持续的数据保护,数据可恢复到任意时间点;
(3)数据原格式备份、数据一致性;
(4)综合统一管理,图形化监控和管理;
(5)丰富的日志展现,异机恢复,跨平台支持;
(6)灵活的带宽管理,多样的数据压缩加密。
3.4 虚拟化平台整机备份保护
新方案通过全服务器备份软件或虚拟化备份软件,实现对高校虚拟化平台的保护。全服务器备份软件可以对生产服务器执行操作系统级备份,以普通文件或虚拟磁盘格式保存在备份服务器上。当生产服务器故障时,可将备份系统还原到任意平台上,实现业务恢复或回滚。该应用亮点如下:
(1)全服务器备份和恢复;
(2)全服务器备份软件支持虚拟磁盘格式;
(3)虚拟化备份软件为虚拟化整机保护而设计,不需要Agent;
(4)虚拟化备份中心可自动验证系统可用性;
(5)自主研发,满足国产化趋势。
四、高校灾备新方案的优势
综合优势看,它汇聚了多个层级多策略的灾备优势,可按需满足用户的个性化需求:
4.1 应用无缝切换、操作简单
数据库双活容灾系统的目标数据库始终处于Open 状态,源端的变化数据被实时同步到目标端,因此目标端数据库可以进行实时查询,实现读写分离。目标端数据库也可以随时接管生产承担业务,当生产系统出现故障无法继续进行正常的业务时,只要修改应用的IP 地址指向容灾数据库就可以继续运转,恢复时间≈0。HA应用级容灾通过对多种应用/服务器(网络、CPU、内存、服务及进程)等资源的状态进行实时监控,在发现应用突然异常停止(如应用异常退出、服务器断电、硬件故障等)或达到需要切换的条件时(如生产服务器资源即将耗尽、软硬件升级等),自动或手动将业务切换到灾备服务器上运行,由灾备机无缝接管生产服务器工作。
4.2 高可靠数据同步技术
新方案是一个数据库级的软件解决方案,其复制的基本单位就是一个事务(Transaction),数据库同步软件在从Oracle log 中读取到交易数据后,根据交易的关系,将属于一个事务的操作组合在一起,以一个基本单位发送给目标端,目标端在执行时也严格按照交易进行,因此保证了交易的完整性。对于事务与事务之间的顺序,数据库同步软件严格按照Oracle 的SCN 标记进行排序。确保事务之间的先后秩序。HA应用高可用产品优化的传输方式在窄带、远距离、大数据量等各种复杂环境下均有优异的表现,其效率远高于传统的数据传输方式,并且可自由设置传输带宽高低及使用时段,从而在优先保证带宽用于生产系统业务应用的同时,合理地分配和使用整个系统的各类资源。
4.3 提供备份库数据库回滚功能
数据库同步软件在数据同步过程中备份数据库始终处于Open状态,当开启了Active DRS(Data Rollback Service) 数据库回滚功能,还能够在备份服务器进行数据回滚,重现某一时间点的数据。开启DRS数据库回滚功能后,Active Target Agent 客户端会过滤生产数据库的Truncate、Drop、Delete操作,将遇到这些操作时,Active Target Agent不会真正的删除数据,而是将该表Rename(该变表的名称),使其变成数据库中的一张隐藏表,类似Oracle 数据库的Flash Back功能,不过数据库同步软件是在备份数据库实现数据库回滚的,完全不影响生产数据库。
4.4 可进行反向数据恢复
提供反向数据恢复功能,反向数据恢复必须经过人为配置、启动、发起数据同步命令,才能进行反向数据同步,不会自动执行。在业务数据库系统发生灾难的情况下,此时可使用灾备数据库首先接管业务,然后进行数据的反向复制恢复。
4.5 任意时间点回退
持续数据保护技术在将变化的数据实时复制到灾备中心的同时,也将数据的任何变化以日志方式记录下来,实现对数据变化的可回溯性;可在任何情况下依据数据变化日志,快速定位需要恢复的时间点,并将数据一键式恢复到异常点之前。
五、结语
高校新的灾备方案,适应了云和大数据环境下,系统快速接管与数据零丢失的要求,对于有多个校区的高校,或自建教育云的主管机构,都可以在分级保护、等级保护完成之后,实现关键系统的异地容灾和互为灾备的建设需求,极大地降低灾备建设和运维成本。除了高校,在公检法、能源、医疗、电信、制造及互联网等领域,该方案都有很强的适用性,能够满足用户异构平台、远距离窄带宽环境下的灾备需求,保障用户的数据安全和业务连续性。