如何应对云计算系统宕机?

日期: 2012-07-18 作者:Stuart J. Johnston翻译:滕晓龙 来源:TechTarget中国 英文

如果我们可以从上个月发生的AWS停用事件中得到一个教训的话,那么我想应该就是“云计算故障总是会发生的”。IT专业人士以及其他的专家均表示,如果你希望在发生故障事件时你可以迅速作出反应,那么你最好事先就做好应对计划。   根据不同应用程序和数据的不同重要等级,那些应对计划包括在客户自己的数据中心中运行冗余服务器,或使用多个云计算供应商来建立网络。   时刻做好发生故障的准备,LiveFamily的创始人和CTO David Blinder说,LiveFamily是一个从事家谱研究的Facebook应用程序,同时也是位于华盛顿州Bellevue Intelius公司的一个部门。

  在Amazon……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

如果我们可以从上个月发生的AWS停用事件中得到一个教训的话,那么我想应该就是“云计算故障总是会发生的”。IT专业人士以及其他的专家均表示,如果你希望在发生故障事件时你可以迅速作出反应,那么你最好事先就做好应对计划。

  根据不同应用程序和数据的不同重要等级,那些应对计划包括在客户自己的数据中心中运行冗余服务器,或使用多个云计算供应商来建立网络。

  时刻做好发生故障的准备,LiveFamily的创始人和CTO David Blinder说,LiveFamily是一个从事家谱研究的Facebook应用程序,同时也是位于华盛顿州Bellevue Intelius公司的一个部门。

  在Amazon网络服务(AWS)基础设施上运行的LiveFamily在六月中受到了两次停用事件的影响,虽然其危害并不是灾难性的。这部分是因为该公司使用了RightScale公司的云计算管理包,如果情况需要而且用户愿意支付费用,该产品可重新分配路由和网络流量至不同的云计算供应商。

  但是,提供高层次弹性功能并不是免费。专家提醒说,客户需要自行决定哪些应用程序是真正关键重要的。

  IBM公司的业务连续性和弹性服务组向他们的潜在客户进行了一次调查,内容就是在建立托管服务前哪些应用程序是关键,IBM公司的杰出工程师Rich Cocchiara说。

  “让我们确定你需要拥有的服务等级,为你提供你所需要服务种类的服务等级对象和协议,”Cocchiara说。“顺便说一句,并不是所有的业务流程和应用程序都是一样的。”

  保护系统停用可以非常简单,就如同在客户的数据中心中保持私有云计算设备。或者,它可能需要在不同的AWS可用性区域设立镜像站点;它也可能很复杂,如运行多个云计算平台。

  “我们确实曾受到影响,但是我们的缓冲系统通过在发生问题时切换回本地处理与存储基础设施而挽救了我们,”匹兹堡LAN联盟主席Colin Dean说,这是一个举办视频游戏运动赛事的组织。“有某种故障安全的考虑是理想的,即在发生故障时,把你的网站转至备用。”

  AWS宕机事件放大了云计算的重要性

  AWS在六月发生的两次宕机事件都是由电气故障引起的。第二次停用事件源于东海岸发生的大规模雷电天气所引发电气备用系统发生不可事先预见的故障。停用事件也对公司位于美国东1区的可用区域之一造成了影响,该区域是AWS最大的一个,其中至少有10个数据中心。

  在6月29日至6月30日晚上的几个小时中,诸如Pinterest、Netflix以及Instagram等大量的大型网站都不可用。

  此外,宕机事件也造成了AWS“控制面板”的崩溃问题——这也使问题进一步恶化。

  就公司本身而言,Amazon已表示,公司将重新认证或更换未能正常运行的备用发电设备,同时调整硬件参数,如在切换发动机电源前等待多长时间以便于电源波动稳定下来。

  AWS表示,这次最新发生的宕机事件并未影响“显著”数量的客户,虽然只有一个基于云计算的交友网站表示,受停用事件影响它将更换云计算供应商。

  AWS没有透露有多少客户或用户受到了宕机事件的影响。

  LiveFamily有幸提前做好了应急预案,并在发生问题时成功地在不同的可用区域中运行AWS实例,虽然问题的发生是情有可原的,但是我们“确实受到了影响”,Blinder说。

  RightScale云计算管理:Opscode Chef简化恢复任务

  除了提供其他的云计算自动化功能,包括RightScale公司的云计算管理以及其他诸如Opscode公司的Chef在内的产品可以有助于简化客户从停用事件恢复的操作任务。

  “故障总是会发生的,”位于西雅图Opscode公司的CCO和共同创始人Jesse Robbins说,Opscode公司主要致力于Chef云计算基础设施自动化产品。

  与RightScale类似,Chef支持多种云计算平台,其中包括AWS、OpenStack、微软公司的Window Azure,同时该公司刚刚宣布支持Google公司的计算引擎。

  “如Chef这样的工具可帮助你在发生故障时自动转换至另一个云计算供应商或为你提供自己的云计算,”Robbins补充道。“如果你的前期准备工作做得充分,那么发生故障仅仅只是一次意外事件,一次紧急事件,而非一场灾难。”

  Jeremy Przygode是位于洛杉矶Stratalux公司的共同创始人和CEO,AWS的经销商,Opscode的客户。提供基于云计算技术管理服务的Stratalux公司也有部分客户受到了六月下旬发生的停用事件的影响,但是公司处理事件显得从容不迫。“问题发生了,”Przygode说。

  运行多个云计算:复杂却有效

  对于那些真正无法承受停机时间的客户来说,诸如RightScale、Opscode以及其他供应商提供的工具可使客户运行多个云计算,但是这种做法是比较复杂的。

  “这真的很难做到,”位于康涅狄格州斯坦福德的Gartner研究公司首席分析师Kyle Hilgendorf说,“你必须在另一个供应商那里保留一个确切应用程序栈的镜像副本,然后你必须弄清楚如

果其中一个发生故障时你该如何应对故障,切换至正常的云计算供应商。”

  事实上,很多专家都认为,在云计算中实施关键任务应用程序实际上可有助于防止停用事件。

  “我的专业背景告诉我,云计算绝对是防止这些类型停用事件的工具,即提供某些客户用户之前不曾拥有过的某些功能,”IBM公司的Cocchiara说。

  “因此,云计算不仅实现了价格实惠,而且因为它依赖于多个云计算中心,从而赋予用户们决定他们应采取何种风险水平的能力,”Cocchiara补充道。

相关推荐