2018年已经接近尾声,但是在这一年,国内外业务中断、数据丢失等事件仍然层出不穷。从国内的腾讯云,到国外的亚马逊,业务连续性和数据安全仍然是我们共同面临的问题。
下面,我们甄选了今年十大宕机以及业务连续中断事件——防范未然,才能早有准备。
1.
02月19日 谷歌云因自动重启机制失灵,导致网络和 ComputeEngine 宕机
影响评级:★★★★
时间:2018.2.19
原因:谷歌云自动重启失灵
持续时间:93分钟
影响范围:网络和ComputerEngine宕机
警示:自动化和人工占比仍需进一步调整
新闻来源:搜狐
https://www.sohu.com/a/223220025_465914
2.
03月02日 AWS宕机 并波及Atlassian、Slack等在线服务商
影响评级:★★★
时间:2018.03.02
原因:暴风引发IDC停电
持续时间:当天
影响范围:Atlassian、Slack等在线服务商业务受到波及
警示:加强数据中心容灾级别,制定快速恢复的方案
新闻来源:36氪
https://36kr.com/p/5065874.html
3.
06月13日 上海市医保系统故障瘫痪近四小时
影响评级:★★★
时间:2018.6.13
原因: 上海市医疗保险信息系统发生故障
持续时间:当天
影响范围:由于医保局服务器断线,病人无法使用医保卡挂号和结算。病人要么选择等待,要么就自费挂号并支付,现场各个窗口大排长龙。
警示:加强医院机房的容灾建设
新闻来源:新浪上海
http://sh.sina.com.cn/news/m/2018-06-13/detail-ihcwpcmq1594326.shtml
4.
06月27日 阿里云因登录异常,导致服务中断
影响评级:★★★
时间:2018.6.28
原因:程序员上线一个自动化运维新功能时,执行了一项变更验证操作,触发了一个未知代码bug,错误代码禁用了部分内部IP,导致部分产品访问链路不通。
持续时间:当天
影响范围:控制台无法访问,后台无法登录,甚至图片服务也无法显示
警示:没有百分百的云安全,不管是用户还是云服务商都要加强云容灾的建设
新闻来源:网易科技
http://tech.163.com/18/0628/07/DLCE15VG00097U7R.html
5.
07月16日 亚马逊大规模故障,导致销售陷入瘫痪
影响评级:★★★
时间:2018.07.16
原因:网站和移动端瘫痪
持续时间:45分钟
影响范围:会员日大促,销售大面积瘫痪
警示:加强业务连续性的建设
新闻来源:搜狐网
http://www.sohu.com/a/241823771_162522
6.
08月07日 腾讯云因物理硬盘固件版本bug ,导致用户数据丢失
影响评级:★★★★★
时间:2018.08.07
原因:物理硬盘固件版本bug
持续时间:当天
影响范围:“前沿数控”文件系统元数据损坏,生产数据完全丢失
警示:上云不意味着安全,企业文件备份势在必行
新闻来源:搜狐
http://www.sohu.com/a/245552697_700886
7.
09月03日 烟台不动产中心受病毒攻击,导致服务中断
影响评级:★★★
时间:2018.09.03
原因:受病毒攻击的影响
持续时间:当天
影响范围:六个区的不动产中心暂停受理相关不动产登记业务
警示:加强持续数据保护
新闻来源:腾讯云
https://cloud.tencent.com/developer/news/307747
8.
09月05日 Azure遭遇恶劣天气,导致服务中断
影响评级:★★★
时间:2018.09.05
原因:天气恶劣 雷击导致电源电压升高
持续时间:当天
影响范围:许多公司关闭服务器
警示:加强云基础设施建设
新闻来源:开源中国
https://www.oschina.net/news/99682/microsoft-blames-severe-weather-azure-cloud-outage
9.
09月15日 顺丰程序员误删数据,导致服务中断
影响评级:★★★★
时间:2018.09.15
原因:运维工程师误删了生产数据库
持续时间:590 分钟(近十个小时)
影响范围:OMCS 运营监控管控系统发生故障
警示:尽快建立和完善备份以及容灾机制
新闻来源:网易科技
http://3g.163.com/tech/article/DSA152QA0511BM5R.html
10.
12月26日 苹果App Store出现大面积无法访问故障
影响评级:★★★★
时间:2018.12.26
原因:服务器宕机
持续时间:一小时
影响范围:大面积无法访问
警示:加强对突发宕机的容灾方案建设
新闻来源:百家号
https://baijiahao.baidu.com/s?id=1620877991426313003&wfr=spider&for=pc
系统业务中断和数据丢失,一直是IT界热议的话题。无论是天灾还是人祸,无论是独受其害还是波及他人,企业的业务中断和数据丢失对我们带来的损失都是不可估量的。在业务连续性和数据安全上,我们仍然面临很多的挑战。而在这些挑战面前,防范未然,才能让世界早有准备!所有信息化浪潮下的组织机构,建立专业、可靠的数据灾备和业务连续性体系不仅仅是规范企业自身的IT建设需求,更是用户在产品质量信得过以外,企业服务信得过方面的又一重要诉求。
为此,我们依旧建议:
建设专业的灾备系统,不要有侥幸心理
信息系统属于企业重要的信息基础设施,其安全问题涉及到核心数据资产,关乎企业生存与发展,涉及个人生存与生活,甚至触及国家和社会的稳定。《中华人民共和国国民经济和社会发展第十三个五年规划纲要》中明确指出要:强化信息安全保障,包括强化重要信息系统和数据资源保护,加强数据资源在采集、存储、应用和开放等环节的安全保护,加强各类公共数据资源在公开共享等环节的安全评估与保护等。而对于信息安全、数据安全,灾备是最基础的技术需求,几乎所有的信息资产都需要灾备保护,以确保在任何意外故障情况下,信息系统的正常运转。
业务连续性管理应该是“老板工程”
信息系统环境中的风险点和威胁点往往不是单一的,也不是静态的,简单的安全产品堆砌已被证明不是有效的解决途径。信息系统安全是涉及到技术、人员、组织、环境、法律及管理等多方面因素的系统性问题,应该采用信息保障的原理、技术和方法,以全局的、动态的眼光来研究、设计、实施与维护信息系统安全工作。这需要企业机构的负责人高度的重视,以第一责任人的安全意识规划统筹业务连续性管理的工作。