云计算:出了问题该找谁

考虑一下上个星期可能丢失了重要数据的100万T-Mobile Sidekick用户。考虑一下数十名首席信息官焦急地等待Workday公司在9月24日恢复其软件服务的事情。云计算已经创建了承担责任的新时代。我们必须要求技术厂商比以前更努力地工作以证明他们是可以信赖的。
在这两个实例中,客户完全依赖于他们的厂商管理自己的数据。在这两个实例中,问题可以归咎于技术故障。云计算的增长并没有停止(我们不准备突然离开互联网和高速网络并且把更多的数据存储在家里的PC和企业服务器中),因此,现在是每一个人(包括消费者和全球最大企业的首席信息官)开始提出问题,要求他们的厂商承担责任的时候了。
我们首先看一下Sidekick的问题。为Sidekick提供数据服务的微软下属分公司Danger在自己的数据中心遇到了服务器故障。在上周末,T-Mobile写信给用户说,存储在用户手机中的联络人、日历记录、任务清单或者照片等个人信息将不会再出现用户的Sidekick手机中,因为微软/Danger的服务器故障肯定会造成用户信息的丢失。
Sidekick用户的数据存储在微软/Danger的服务器中,这是不是意味着用户的数据在其它任何地方没有副本?镜像服务器目前在数据中心是非常通用的做法,通过服务器虚拟化技术可以更容易和更便宜地使用镜像服务器。微软/Danger没有这方面的投资吗?截止到本周一上午,这两家公司还没有发布这个技术故障的细节。
谁应该为这个事故负责?有趣的是T-Mobile在其发布的消息中有五次提到微软/Danger,好像是隐隐约约地指出它不是唯一的承担责任的方面。人们猜测大多数用户不仅不知道他们的数据正在有微软的一个下属单位管理,而且甚至从来都没有考虑过他们的数据在什么地方进行管理。你打开自己的智能手机,打电话或者查看电子邮件。随着消费者更加适应在自己家庭PC上运行谷歌应用程序、在自己的智能手机上托管的电子邮件、让移动服务提供商管理其最重要的数据,消费者需要像首席信息官一样考虑一些问题。
特别是要考虑这个厂商如何证明它已经进行了技术投资,能够在数据中心一旦发生故障的时候恢复用户丢失的任何数据。
同时,软件服务新兴企业Workday有大约100个客户使用其基于云计算的人力资源、工资单和财务应用程序。Workday的服务在9月24日中断了15个小时。在这个案例中,部署的备份系统发挥了作用。它检测到了一个破坏的存储节点,但是它后来却让自己离线了。内置冗余功能的一个系统的冗余备份引起了这个故障,这是具有讽刺意味的。Workday共同首席执行官Aneel Bhusri在博客中称,这种错误不应该引起存储阵列离线,但是,它确实引起了这个故障。
据说Workday对于这个事情处理得非常好。但是,业内人士Mary Hayes Weier在10月9日发表的博客对这次中断事件的评论吸引了一些感兴趣的读者对谁应该承担责任发表了自己的评论。
Weier指出,IT部门内部也发生故障。下面是一个读者对这个想法的看法:他说,如果一项直接由公司IT人员提供技术支持的服务发生故障,这些技术人员会遭到首席执行官和首席财务官的批评。如果负责技术支持的是厂商,首席信息官遭到什么批评取决于谁首先选择的这个软件服务。
另一位读者说,这个问题取决于客户和厂商之间的服务级协议。他说,如果这个合同是要保证每年的某些开机时间,即使出现这次中断,他们仍然可以保持在大约99%的开机时间以上。在“正常的”美国时间发生的中断是更容易注意到的。对于工资单等企业核心应用程序来说,我询问Workday为什么没有热容错功能,或者热容错功能是否也出现了故障。我认为15个小时的中断确实是不可接受的,特别是如果这个服务打乱薪金周期的话。
另一位读者说,应该由许多方承担责任。他说,像Workday那样的云计算提供商需要执行首席执行官要求自己内部的首席信息官机构通过SLR/SLA(服务级协议)执行的同样的严格标准。但是,那个首席信息官机构仍需要承当由于云计算中断造成的混乱和困惑的责任,因为那个机构现在和将来都要负责使用技术理顺信息丰富的后台处理。备份策略仍是那个首席信息官机构的责任。
这是有趣观点。谁为T-Mobile不能恢复用户的数据负责?T-Mobile还是微软?还是微软的Danger分公司?数据中心的工作人员?还是选择Sidekick服务而没有确保拥有一个数据保护担保的人?
这是云计算的一个全新的领域。每一个人都需要提出这些正确的问题。

txlhot  发表于: 2009-10-16

我要回答

相关推荐