解决方案
机房建设 弱电工程 智能办公
合作厂商
机房建设 弱电工程 智能办公
典型案例
政府、文教、体育、医药 能源、交通、金融、商业 产业园区、科技企业 制造企业、贸易公司
技术支持
技术支持 共享文档
关于我们
关于我们 新闻中心
联系我们

技术支持

TECHNICAL SUPPORT

数据中心停机事故的教训:关注基础设施

发布时间:2019.04.04
浏览次数:1736次

大多数停机事故都是由已知原因引起的,并且可通过强大的设计和流程进行预防。
  根据调研机构Uptime Institute公司在2018年夏季公布的调查结果,近三分之一的数据中心在过去一年中出现了停电,而2017年则为25%。但这一增长并不是由于一些致命的新恶意软件造成的。
  相反,导致停机的三大原因是断电(33%)、,网络故障(30%)以及IT或软件错误(28%)。
  最重要的是,80%的数据中心管理人员表示这些停机事件是可以预防的。

基础设施冗余仍然有效
  在最基本的层面上,数据中心系统需要备份。备份电源主冷却系统,备份数据,甚至备份整个数据中心。

Uptime Institute公司表示,很多企业需要拥有2N冷却和电源架构的数据中心,换句话说,需要一个完全冗余的镜像系统。在去年有22%的用户经历了停电。与那些采用价格更低,不完全冗余的“N+1”方法的人相比,减少了三分之一的中断,这些人中有33%的人报告了停机事件。
  而整体数据中心的备份可提供更高的可靠性。根据Uptime的调查数据,40%的数据中心管理人员表示他们会在两个或多个数据中心复制工作负载和数据。
  “如果有一个数据中心并且有雷击,那么你就会宕机失败。”SSH通信安全首席技术官Markku Rossi表示,“企业应该有一个辅助数据中心,它们之间存在物理隔离,因此它们不依赖于相同的电源。”
  他补充说,没有任何数据中心能够免受这个问题的影响,他以微软公司美国中南部的数据中心受雷击为例。
  “如果有第二个数据中心,可以立即实现故障转移。”他说。
  Rossi补充说,无论备份系统处于什么位置,计划和测试都是关键,并且计划需要考虑到当今数据中心的复杂性,在这些数据中心,一些问题可能触发其他问题。
  他以最近GitHub公司的数据中心在维护期间发生的中断为例。他们在几分钟内就解决了物理问题,但是需要24小时才能使数据正确同步。
  数据中心管理人员需要查明潜在的问题区域,然后在发生事情时准备好工具和流程。
  Rossi说:“集中精力建立流程,建立为失败做准备的心态。”

不仅仅在周边加强安全
  数据中心管理人员应该从最近发生的与恶意软件相关的中断中吸取的最大教训之一就是,拥有一个强化的边界已经不够了。攻击者可以进行攻击。
  2018年,很多医疗保健公司、政府机构、教育机构和主要制造商都受到了冲击,尽管在去年创纪录的违规行为之后,每个人都应该已经处于高度戒备状态。
  显然,保持最新的防御措施以防止恶意软件首先进入是至关重要的。但数据中心管理人员必须做好准备,以防周边防御失败,并具有二级保护。
  其中包括恶意流量检测机制,网络防御(如分段)和最低权限的访问和通信方法。
  总部位于以色列的网络安全服务商Guardi Core公司产品管理总监Igor Livshitz说,这些可能有助于防止恶意软件进入网络后传播,或者至少减慢它的速度,以便让安全团队有机会做出回应。
  WannaCry特别利用了服务器消息块传输协议中的漏洞利用。他说,数据中心应该采取更多措施来减少横向通信。
  “在过去一年中WannaCy勒索软件的许多案例中,攻击广泛影响的主要驱动因素是,一旦这些蠕虫在数据中心内占领立足之地,就很容易扩散。”Livshitz说,“事实上,服务器之间的SMB流量根本不是必需的。如果它被阻止,攻击的扩散和对数据中心的破坏可能会大大减少,并且在它造成如此大的破坏之前的早期阶段检测到攻击。”
  从2018年的违规事件中得到的教训是,数据中心的管理者必须面对一个新的威胁。他们需要重新回归基础。
  几乎所有的数据中心停机都是由于糟糕的规划和投资决策,加上流程不良或无法遵循流程,Uptime Institute研究执行主任Andy Lawrence在2018年6月的调查报告中写道。“Uptime Institute报告或研究的几乎所有故障都发生过,并且经常有很好的记录。”
  闪电袭击和新型恶意软件可能占据行业头条新闻,但是当涉及到弹性时,数据中心基础设施的安全性仍然是最重要的。


© 2019 北京日升东方科技有限责任公司. All Rights Reserved.   京ICP备19027824号 京公安网备11010802029215号