下一代数据中心交换网络:云计算虚拟化交换网络4

日期: 2011-12-04 作者:李海平 来源:TechTarget中国

  第三节 云计算虚拟化交换网络——核心篇

  虚拟化交换网络核心层挑战

  同一物理节点部署了多台虚拟节点,虚拟机可用性就会受制于物理节点可用性,为了减少来自物理节点可用性影响,就必须让虚拟机在不同物理机之间保持高可用性。不但如此,资源调度以虚拟机飘移方式实现。虚拟化主机高可用、动态调度和容错等,其支撑平台需要同步大量所有关键信息,包括微妙级别变化更新的大规模内存影像和存储数据,同步进程之间消息传递必须保证低延迟,因此我们在扩展核心和边缘网络时必须实现传输性能最大化,延迟最小化,所以保持基本网络多路径、快速收敛、横向扩展的二层环境就是我们选择和发展方向。但是传统网络为实现物理网络高可用性而用得生成树协议,就成为了我们不得不面对最大挑战。一方面,在网络控制平面,STP浪费了50%链路带宽,秒级收敛时间无法满足低延迟要求,另一方面,由于虚拟化接口二层MAC地址大量增加,如何在转发平面保持二层高效寻址和高速数据转发就是另外的困难点。举个例子,MAC地址表转发需求,原来每台物理节点只有两个网卡,两个MAC地址,安装十个虚拟机后MAC地址数目变成2×10(冗余设计)+2等于22个,安装五十个虚拟机后MAC地址数量变成102个,增加了50倍MAC表转发要求,激活MAC的数目是物理机数和虚拟机数线性函数,虚拟化环境下,这个函数值被放大了成十上百倍,单个物理端口MAC密度同比放大,并且我们知道网络信息处理要求与网络节点数目平方成正比,所以网络性能要求也就增加了成百上万倍。

  当前不少数据中心网络虽然也实现了二层网络,但是由于交换机功能比较简单,它只是根据入端口学习网络节点物理地址,根据目的节点物理地址,给定出端口转发路径,我们可以称之为纯二层转发,同时生成树距离向量算法也比较简单,没有与转发平面集成,更无法实现基于二层网络层次模型智能地转发,或者说没有二层半的数据转发,所以实际上传统数据中心网络只有基本数据转发平面,没有丰富的控制和管理平面。另外,传统网络下,网络节点数目比较少,而且节点网络位置变化频率非常低,通常几天或几月不等,流量模式主要是客户机与服务主机之间的南北流量。虚拟化交换架构里,网络节点数目成百增加,节点位置迁移和变化频率要求去到妙级,流量模型变成以虚拟主机之间的东西流量为主,这种频繁变化需求,使得生成树STP在高度重建虚拟化节点路径时应接不暇,可能最终变成一个近似无限的循环。

  为了隔离网络风暴,简化管理和增加安全,传统大型数据中心通过VLAN方式隔离不同用户区域。整体网络分成接入层、汇聚层和核心层,不同区域用户通信时,接入层和汇聚层把数据导向核心,核心层基于三层转发。云计算虚拟化环境下,“不同区域”概念被高度模糊,区域内部、区域之间通信无法有效静态区分,二层和三层极度混合,通信模式从数据中心服务主机群与外部客户交互的垂直交换模式(占总体流量95%以上)演变变成数据中心内部大量虚拟机之间交互的水平交换模式(占总体流量75%以上,原因是垂直流量不变,水平流量大量增加),传统模式的核心三层路由转发便成为瓶颈。那么如何消除瓶颈呢?用户需求永远是产业导向之根本,显然根本途径是消除或减少网络层次,云计算虚拟化交换网络趋势便是从三层简化为核心层和边缘层二层,而且二层网络则需要消除生成树,更加简单,支持多路径以应对虚拟资源快速变化要求。

  虚拟化交换网络核心层技术发展

  每一次新IT技术出现,我们在应用新IT技术都会有新的挑战。从最终用户需求观点看,第一,新技术应用从保护资产投资、员工学习曲线上讲,其应用过程应该是渐进性的,而不是革命性,不能影响现有应用环境,与现有环境局部兼容共存,是求同存异过程,一个环境两种或以上技术,可在适当时间段将当前应用环境平滑到新技术环境;第二,从技术需求上讲,新技术应该能够提供更高性能、更好扩展性、更易管理、更加开放和兼容标准价值等,保持总拥有成本更小优势;第三,新技术在不同应用、不同行业广泛应用程度和技术成熟程度也会用户重要考量指标。具体到虚拟化交换网络核心层发展,我们可以看到来自三个方面需求:

  第一,数据转发平面发展。关键要保证数据转发平面可扩展性,核心竖向扩展有限设备转发智能转向基于边缘设备快速转发智能,中心设备只是完成无CPU介入的全网状通路。简单来说,需要把传统交换机端口接口板和交换背板快速转发机理延展到了数据中心网络边缘,每个灵活的接口板变成每个独立智能、灵活接口设备部件,交换机交换背板变成可横向扩展的中心交换部件。来自任意端口节点的流量都可以尽可能少的跳数到达任意其它节点端口,以使延迟达到最小。其实现本质上就是解决一对多问题,原来由一台大型网络部件实现的功能,为了横向扩展只能以更多中小型节点替代一个大型部件,减少大型部件向上扩展的物理限制,从而减少了所需核心节点总经济成本。

  第二,控制平面发展。人类每一次把老问题以新方式解决后,又会有新问题出现,如此反复。当我们把中心智能推向边缘智能后,产生了新的挑战,传统模式交换机中心控制不复存在,没有统一转发表,没有集中控制,而集中控制和端对端感知需求依然存在,九九归一,控制平面集中化就是多对一,这个需求本身没有消失,消失的是老需求方式。要保证原来的需求,新网络边缘设备必须有全网拓扑、路由和控制能力,这样才可以全网智能,本地转发,这样控制方式有点像我们人类社会的联邦制国家管理,大家都在统一宪法下管理,每个联邦郡能充分自主的能力管理政府和社会。当业务需要扩展时,只要接入边缘智能节点,边缘节点自动感知现有网络,当中心节点失效时,多接口接入边缘节点即时、自动无缝转移到另外转发平面节点继续工作。每个边缘设备都需要智能,需要更高性能CPU、内存和相应芯片组,新型边缘设备成本通常比传统接入设备要高得多,因此控制平面要求导致单个边缘节点成本增加。

  第三,管理平面发展。实际上,管理平面和控制平面是相辅相成的。只要控制平面集中实现,整个数据中心交换架构就可以做到多对一,当作虚拟统一交换机管理,管理平面简单实现也就自然而然了。单个核心节点由于横向扩展和功能简单减少经济成本,单个边缘节点由于需要智能感知和灵活接入导致研发和硬件成本增加,这一增一减总体就需要IT管理者的平衡艺术了。

  总而言之,针对虚拟化交换网络核心层挑战,二层多路径是应对挑战的必由之路,目前致力于实现二层多路径标准化组织主要有IETF和IEEE。IETF标准为为TRILL(RFC5556,命名为Transparent Interconnection of Lots of Links)和IEEE标准是802.1aq(SPB,Shortest Path Bridge,最短路径桥接),他们都采用IS-IS作为基本路由协议确定将数据包传输到它的目的地的最短路径,实现方式大同小异。SPB被IEEE提议为802.1aq,它与TRILL很类似,但是它是使用现有生成树协议来保持向后兼容的。与TRILL不同的是,SPB可以建立在现有的Ethernet芯片上。目前,TRILL和SPB都已接近完成,预计2011年底就能够正式标准化。有些供应商在他们的数据中心结构中通过第三种方法多机架链路聚集 (M-LAG or MC-LAG)实现了多路径。

  未来网络技术发展

  软件定义网络发展原因是转发平面与控制平面都需要横向扩展,平行分离,而控制平面的控制信息本身流量有限并可预计,所以人们就不需要昂贵的专门高性能转发芯片处理控制信息,那么经济性解决方案就是控制平面由独立可扩展软件实现,这就是软件定义网络,它的发展是对传统网络厂家封闭专有控制平面技术产生了的破坏性创新,将对网络厂家变革导致巨大推力和影响。OpenFlow开源控制平面协议便是其中一个著名代表。OpenFlow增加了网络灵活控制能力,分布式节点智能通过OpenFlow指令得以实现,外部OpenFlow控制管理节点的实时控制,集中统一中央智能。OpenFlow根据运行实况实时控制分布式节点,分布式节点生成快速转发表,无须进行复杂智能分析计算,只要执行网络转发平面功能。当新转发节点加入到OpenFlow网络时,自动从中央控制节点得的最新网络配置信息,完成网络自动化感知。而中央控制节点基于x86标准服务器架构,强大计算能力和横向扩展特性保证了控制平面扩展性和经济性。

  第四节 云计算虚拟化交换网络——产品篇

  云计算销售市场爆发增长,聪明的网络厂家自然不会坐等商业机会来临,而是主动给力出击,扑捉市场市场机会,这里就以Cisco、Juniper、Brocade和Force10为例,介绍他们适应云计算虚拟化系统架构。

  Cisco FabricPath云网络基础架构

  FabricPath是思科NX-OS软件交换机上的创新功能, 可以帮助客户虚拟化数据中心网络实现平滑扩展,据称可实现稳定和可扩展的二层环境路由功能,能够并行多路径数据转发,思科之前又称之为L2MP(L2 Mutlipath)。FabricPath是TRILL基本功能加上“多重拓扑树转发”、“MAC地址学习基于会话层”、“VPC+”、“FHRP”等许多高级功能,可以简单看作一个“增强版的TRILL”。

  FabricPach不再需要运行生成树协议(STP)来防止环路,所有链路基于IS-IS协议建立并同时激活,没有链路被阻断,使用ECMP(等价多路径,目前最多16条),显然降低网络延迟、大大增加了网络传输带宽,很好地支持了服务器之间由于虚拟机资源调度而迅速增加的东西流量。如图14,由于FabricPath网络引入新的二层数据转发平面,网络帧头包括可路由的源和目的地址,中间帧以源交换机地址作为帧源地址,以目的交换机地址作为帧目的地址,正常以太网帧在进入FabricPath边缘交换机时被加入FabricPath帧头,在退出FabricPath边缘交换机被去除FabricPath帧头。简单来说,FabricPath就是Mac in Mac方式,转发平面是在普通以太网帧叠加上交换机地址,做到交换路由转发(当然需要加上TTL,因为Time To Live可以防止无限循环)。对于不支持FabricPath的网络设备, FabricPath网络对已部署的接入设备来说是一个透明连接。在支持FabricPath的设备上将端口配置为FabricPath模式,系统会自动完成地址分配、路由建立等行为,无需手动干预。2010年Cisco在Nexus 7000交换机上发布了一块支持FabricPath的32口万兆光纤板卡,以及相应的软件。
  


  图14 思科FabricPath转发机理图   

  Dell Force10 开放云网络体系架构Open Cloud Networking (OCN)

  戴尔公司于2011年8月收购Force10 Networks, 从此这个以高性能数据中心网络名闻天下的网络公司成为戴尔开放企业级解决方案的重要一员。Dell Force10新一代数据中心架构产品完全基于TRILL,目前用户可选择核心方案是Z9000机架交换机(如图16),多台Z9000全网状互联一起来实现分布式核心网络解决方案,每台Z9000具备32个40 GbE固定端口高性能核心节点交换机。边缘节点是S4810,可配置64个万兆或48个万兆加4个40G,支持DCB、TRILL、EVB和VLT(跨交换机多链路),可以智能感知虚拟化网络,具备丰富虚拟化交换网络功能。

  为了将10 GbE服务器连接到Z9000上,我们需要使用一条4端口多芯软光缆将一个QSFP+端口拆分成4个10 GbE端口。这使Z9000扩展到2 RU成128个服务器端口。对于寻求更高竖向性能的企业而言,Force10未来还准备交付Z9512高性能模块交换机,它可以配备4个端口100 GbE接口卡,提供了8个端口40 GbE,40个端口10 GbE两种选择,然用户可以容易在竖向扩展和横向扩展之间找到平衡点,同时提高了数据中心结构市场的带宽水平。除了未来预计交付核心节点Z9512解决方案外,Dell Force10还准备推出S7000三合一边缘节点,可同时支持12个光纤通道接口、同万兆或FCoE万兆,从而核心节点和边缘节点都升级到超低延迟和新的扩展层次。


 
  图16 Dell Force10下一代数据中心分布式网络拓扑图(40G互联)

  第五节 云计算虚拟交换网络市场——总结篇

  根据IDC统计,到2014年底,公共云市场容量发展到2015年729亿美金,云网络厂家在这股商业大潮,各显英雄本色,努力展现自己独特价值。下面就让我们总结分析一下商业趋势和技术趋势。

  商业趋势

  当新产品或解决方案出现时,网络厂家为了保留老客户和更好服务,通常会选择边缘层或核心层方面让新产品保持与现有产品部分兼容,以混合方式组网部署,或者在核心层升级到新架构,或直接替换边缘层设备,不同层次的新旧产品之间兼容程度对客户选择决策影响非常大,因为网络架构与服务器或存储架构不一样(它们常常通过平台或应用方式平滑升级,降低了架构变化对上层影响),新旧网络架构之间通常必须互联互操作。随着数据中心爆炸规模发展,作为高新科技行业,每个厂家核心优势体现不是成本领先,而是显著差异化价值,其往往一方面体现在包括每U高度端口密度、端口带宽、每端口耗电、设备转发延迟时间、包转发速度与系统扩充能力等,另一方面是因机架空间节省、线缆节省、耗电节省、管理人员节省而带来的总拥有成本节省。实际上,每个厂家由于进入市场时间点不同,客户定位不同,解决方案也很大不同,结果是架构整体表现在不同客户、不同应用和不同场合也都非常不同,通常都会把他们表现最好的一面展现到用户和媒体前面。除了客户产品定位外,网络厂家市场覆盖方式也各不相同,有直接模式、全渠道模式或混合模式,每种模式对产品到市场、客户接受速度和盈利都非常不一样,由于篇幅所述,这里就不多讲了。

  仔细思考一下,网络厂家产品的客户价值其实存在于控制平面和转发平面两个方向。我们知道,网络转发平面都采用硬件实现,一般会建立在高效芯片架构基础之上,而在摩尔定律下,芯片性能每十八个月就会提升一倍,所以一般来说网络新进入者后来者或小厂家会利用最新科技成果,研发设计基于最新架构的全新转发平面,体现比如延迟、带宽、密度和能耗等差异化价值,与竞争对手拉开差距。但是控制平面所体现价值过程与转发平面完全不同,控制平面需求与客户应用耦合度很高,甚至不同客户群有完全不同控制和管理要求(比如电信网络和普通企业需求差别就非常大),领先市场厂家往往由于先前系统架构限制,在经济学“路径依赖”原理下,无法放弃原有架构,只能基于原有架构的局部升级,好在领先厂家往往有大量和长时间的客户安装基础,所以领先者会不断积累客户前端反馈,改善提高产品控制平面,另一方面因为控制平面往往以软件实现,易于升级,不但如此,领先者里会积极建立围绕在控制平面周围的生态伙伴,开放应用接口、培育忠实技术粉丝,发展更多更好的服务伙伴,形成庞大的利益共同体,交付给客户包括控制、管理平面和服务在内一站式方案。所以我们在网络解决方案选择决策时需要根据业务要求,不同业务工作负载类型不一样,对IT资源消耗也就不一样,需要平衡转发平面和控制平面带来的不同经济性影响,对它们做具体经济分析。

  技术趋势

  云计算虚拟化到来,核心扩展是弹性计算实现最有效方式之一,因此几乎所有网络厂家极力开发提供按需横向扩展的核心层解决方案,核心层设备以100G或40G互联,不过由于横向扩展节点之间也需要超低延迟同步,所以核心机箱横向最大数目有限制,比如4到8台。核心层节点之间无协议转换发生,利用高速转发平面芯片充分利用最大包转发率和带宽极限,达到极速转发。因为核心节点芯片性能高,成本也高,为了降低客户使用成本和利用最大容量,消除生成树协议,提供跨机箱Trunk技术,以并行无生成树协议下联就是来自用户的技术诉求。由于核心节点横向扩展数目有限,为了更高性能或扩展性,厂家同时坚持核心层竖向扩展,提供高密度、高容量和高带宽接入,比如一些厂家单机箱可支持300个万兆、数十个40G。所以横向扩展架构和竖向扩展架构是相互作用过程,不同产品定位就需要不同扩展架构技术。

  核心层横向扩展,边缘层更是如此。网络厂家不遗余力支持边缘层按需横向扩展,包括使用虚拟机箱技术或堆叠技术、多链路绑定上联、消除生成树等技术以10G或40G上联到核心。边缘节点接口方面提供高密度、混合多端口一体机顶交换机,混合接口一般支持千兆、万兆、FCoE、FC和iSCSI,并支持TRILL或SPB协议,支持二层路由多路径,接入到二层核心层。边缘节点与计算节点或存储节点相连,通过支持EVB、VEPA等虚拟主机协议智能感知虚拟计算节点,完成虚拟移动性策略漂移。可是边缘层发展情况比较复杂,目前业界还没有边缘层统一标准,各个网络厂家八仙过海,各显神通。除了虚拟计算智能外,边缘层还常常担负网络增强服务角色,比如负载均衡、防火墙、入侵检测和日志记录等,这也是业界发展的重要方向。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

李海平
李海平

暂无

相关推荐

  • 下一代数据中心交换网络:云计算虚拟化交换网络

    下一代数据中心交换网络:云计算虚拟化交换网络。在云计算漫漫之旅上,虚拟化将是我们建设架构即服务云不得不跨越的一道坎,而大规模部署虚拟化更是给传统数据中心管理模式、服务器、存储和网络架构规划管理带来巨大的挑战。

  • 下一代数据中心交换网络:云计算虚拟化交换网络3

    熟悉IT发展历史的人都知道,IT技术发展趋势总是这样,进入者在软件上突破和实现,不断应用于客户和取得市场反馈,然后随着性能提升要求和硬件技术发展,移植到高速、简洁的ASIC上,虚拟化交换网络领域也不外乎遵循这样变化轨迹。

  • 下一代数据中心交换网络:云计算虚拟化交换网络2

    简单来讲,计算资源虚拟交换网络就是在物理主机内部,虚拟机管理平台为了实现同一物理机或不同物理之间虚拟机通信而实现的软件交换机。为了便于大家理解虚拟交换网络原理,下面以VMware虚拟交换网络概念为例介绍。

  • 下一代数据中心交换网络:云计算虚拟化交换网络1

    在云计算漫漫之旅上,虚拟化将是我们建设架构即服务云不得不跨越的一道坎,而大规模部署虚拟化更是给传统数据中心管理模式、服务器、存储和网络架构规划管理带来巨大的挑战。