资深的Google软件工程师Nandita Dukkipati在近日于美国硅谷举行的年度Hot Interconnects大会专题演说中,呼吁开发更多解决日益成长之数据中心网络“塞车”问题的新技术。
Dukkipati介绍了一种流量整形(traffic shaping)软件,能为Google减少延迟同时降低CPU的额外负担;有一位芯片供货商表示,该公司也应Google竞争对手Microsoft的要求,为以太网络转接器芯片开发出了类似的技术。
今日有众多数据中心透过建立队列(queues)的方式来改善效率,但这种方式正遭遇瓶颈;Google介绍了利用以时间为基础的隔离方式,来避免同时进行的任务造成网络流量堵塞。
Dukkipati对台下的网络芯片与系统工程师听众表示:“我们应该要整个系统的网卡(NIC)、交换机与虚拟机监视器(hypervisor)投资更多的隔离方案;我们注意到了效率,但对于隔离的关注还不够──我们想到了队列,但也需要考虑时间。”
队列会因为执行复杂算法而占用CPU时间,这种方式使用繁重的数据结构并需要大量的垃圾回收(garbage collection);此外,队列的内存使用量很高,还需要同步处理程,可能会带来至少2秒的延迟。
Dukkipati表示:“今日的服务器可能会管理上百个虚拟机,产生2万5,000个要隔离的数据流,虚拟机与队列的数量持续成长,这并非长久之计。”
*Google表示,目前的网络流量整形软件程序无法扩大因应大型数据中心的需求
(来源:Hot Interconnects)*
Google打算结合两种方法来替代目前的流量整形软件。根据Dukkipati介绍,其中Carousel是Google新开发的软件程序,用以管理单一服务器的流量;Timely则是一种较老的技术,用来降低整个数据中心的延迟。
她指出,根据在数千台YouTube服务器上执行的测试结果,Carousels对网络性能的提升能比采用现有队列式流量管理方法高出8%,而这为网络调控(pacing)与带宽分配的新策略,指出了更多令人兴奋的方向。至于Timely方法则是比起今日数据中心最常采用的壅塞控制算法DCTCP,能将延迟减少超过一个量级。
*Google利用Carousel软件大幅减少CPU的额外负担
(来源:Hot Interconnects)*
Dukkipati呼吁工程师能应用这些技术,并指出它们能应用于分布式或集中式的硬件或软件中:“我们觉得我们此刻只是以软件开辟了一条道路,这是一个有趣的时刻,我们正在尝试将更多东西放进硬件。”
一位来自以色列网络芯片设计业者Mellanox的工程师则表示,Dukkipati所介绍的方法,差不多就是该公司ConnectX 3 Pro以太网络转接器芯片可提供的功能,而其构想是来自于负责运作Microsoft云端服务Azure的工程师之建议。
编译:Judith Cheng
本文授权编译自EE Times,版权所有,谢绝转载
关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。