如何将海量数据迁移到“云”里?

风险管理咨询公司Kroll的首席信息官Jeff Kubacki为其公司定下一个目标,即在未来三年内将存储成本降低25%。到目前为止,该公司的存储数据量达到13 PB(petabytes),Kubacki计划通过分级存储(tiered storage)、改变业务流程和采用包括云存储在内的新技术等多种手段相结合的方式来解决这个问题。
  虽然还只处于起步阶段,云存储凭借其弹性、清晰的收费、多个存储地点,以及直接从存储设备拖拽数据的能力,使之看上去颇具吸引力,但云如何通过以太网发送大量数据,仍是未知。
  “我们还在和供应商讨论:如果尝试云存储,可能会给我们带来什么?” Kubacki说,“我们仍然在研究它是否适合我们。”
  Kroll公司的IT架构师将调查通过互联网这个“管道”将该公司约25%的符合一定条件的数据迁移到云里去的方式。Kubacki解释说,之所以只迁移25%的数据,是因为该公司绝大多数的数据是法律文件,太敏感,因此不宜存储在云里。虽然云的存储容量在扩展,但受限于连接云的网络连接能力,因此企业与云之间数PB的数据的来回切换成了一个大的挑战。
  企业都会询问他们的管道是否大到足以将其存储的数据迁移到云,而答案通常是否定的。“响应延迟是阻碍云存储被采用的一个主要因素,”Gartner的分析师Adam Couture说,“现在,我们发现企业对云的应用主要局限于归档、备份,也许还用于一些合作。”
  但是大多数云供应商声称有简单的解决方法——即初次全备份时将数据用物理迁移的方法迁移到数据中心。
  云托管公司The Planet达拉斯分部总经理Rob Walters表示,从日常的、用户级的角度来说,托管和传输大量数据是相对容易的,但是,如果要大块的迁移20TB到25TB的数据,仍然能“难倒”现有的系统。Walters说:“我们现在的网络并不好,它只是目前的一个薄弱点,现在大家正在研究解决它。”
  对企业而言,初次全备份的数据可以通过一个WAN或LAN链接复制到云里去,Couture 警告说“初次全备份的时间取决于您的服务器上有多少数据,它可能会持续数周。”
  Nuvolus公司首席执行官Kevin Ellis介绍说,医生们的办公室用的是Arvada(科罗拉多州的Nuvolus公司所提供的私人云存储服务)来保存敏感的医疗数据,因为这些数据不能被复制和物理带离他们的办公室。因此,该公司要求其医疗保健行业的客户有“合适的Internet连接”——通常得达到10Mbit/sec,以转移备份数据。
  “各医生办公室的情况不同,数据上载时间长短也不同,我们可以看到那种耗费很长上载时间的情况,”Ellis说,“你在晚上可尽管上传,我们努力确保我们不会影响到白天医生在办公室的工作。”
  有些云存储供应商还提供从企业到该供应商的某个存储节点的私人连接。根据Nirvanix公司(一家位于圣地亚哥的云存储供应商)介绍,这种方式非常适合那些首次全备份数据介于2TB和75TB之间,或少于750M文件,以及对数据传输时间敏感的公司。它还适合那种吞吐量高、但时延要求一般的一次性和持续的数据迁移。
  另一种最常用的办法是采用“人工网络(sneakernet)”,即将数据用磁盘、磁带或云存储供应商提供的设备从客户那里直接拷贝出来,然后带到数据中心进行初始备份。
  “我们有些客户已经卖掉了其存储阵列,”弗吉尼亚州私人云托管公司Carpathia Hosting 的首席技术官Jon Greaves 说道,“还有这种情况,客户在做完镜像后,直接从机器上卸除磁盘交给我们。”
  Nirvanix公司将配置了双千兆级以太网接口的存储服务器给其客户传输数据用,一旦数据被拷贝完,Nirvanix就会取回服务器,然后将数据迁移到云。
  亚马逊网络服务公司支持使用移动存储设备来将大量的数据从云里拷进拷出。该公司采用了高速的内部网络直接传输客户数据,从而绕过互联网。
  Greaves说大公司们在迁移数据时视情况而定,有时使用互联网,有时使用sneakernet方法。
  Carpathia用基于ParaScale公司的技术来为其企业客户建立私人云。“这取决于如何快速地看到他们所需要的数据和运行,并利用这些数据。如果客户是长期归档,通常采用逐步迁移数据的方法,”他解释说,“如果他们是直接需要使用的视频文件,这种通常是几百TB大小,那我们就要开始寻找替代方法。”
  在初始备份之后,网络带宽压力将得到缓解,因为以后只要做增量备份。
  Walters表示,对于云而言,并没有无限可扩展性或无限容量之说。规划容量、始终保证存储容量能满足用户所需是云存储供应商的责任。他说:“如果有人要上载十几TB的数据,你要事先就有准备,这是一个要精心策划的工作。”
  存储供应商使用复杂的方法进行容量规划。例如,Carpathia不断推动网络流量,将其从450Gbit/sec提升至500Gbit/sec,他还计划用来自电信业的算法来改变容量。
  “你有一条T1线路,你必须算出从这条T1线路可以挤出多少核心分钟(core minutes),这确实是一个超额配置(overprovisioning)问题,” Greaves解释道。
  电信公司使用一种被称为“erlang(厄朗:1厄朗为同一电路上每3600秒的呼叫数,或者是一个小时内保持此电路繁忙的流量负载)”的测量单位,以帮助确定电路负载情况。“我们在云上使用相同的方法,” Greaves说,“我们可以计算出我们在1.2左右,并预测出如果处于2将面临容量压力,因此,当我们临近1.2时,我们会定购更多的硬件。”
  Kroll公司决定要到2010年才使用云存储。 “我从来不喜欢充当风险

AlexaWang  发表于: 2009-07-30

我要回答

相关推荐