设计互联网是为了在全球范围内传输数据,即便受到自然灾害、核攻击或其他灾难的破坏,也要做到这一点。其最初的目标只是增加网络传输的数据量,但随着视频会议和网络游戏等实时应用变得越来越重要,当务之急是减少延迟(网络传输数据所需要的时间)。
持续蔓延的新冠疫情迫使许多人只能远程工作和社交,大大增加了对时间敏感型应用的需求。挑战始于网络的一端,即数据发送者所在的一端,并沿着路由一直到达在另一端等待接收数据的用户。在多个独立点之间沿多条路由实时传递数据时,延迟和中断经常接踵而至,因此电话会议过程中会发生通话掉线和中断。将这类延迟降到最低的一种方法是开辟出一条互联网路径,并且必须考虑到前方的流量状况。我的公司Subspace使用定制硬件和专有光纤主干网构建了这样一个网络。我们已经证明它并不复杂,用户只需要登录一个网页门户即可,不需要任何更复杂的操作。总而言之,Subspace为互联网创建了一张“气象图”,可以发现网络中不稳定的部分,并围绕这些部分开展工作,以实现更好、更快的实时数据传输。我们可以从统计数据中看出当前疫情引发的网络变化。2019年12月,视频会议公司Zoom的日参与人数为
1000万,而到了次年4月,这个数字变成了3亿。数十年来一直困扰着在线游戏玩家的网络延迟问题,让刚刚使用实时互联网应用的人们感到措手不及,深受其扰。Subspace成立于2018年初。起初,我们的预计是实时应用的互联网性能没有达到最优,但结果远比我们想象的要差得多。超过20%的联网设备在任一给定时间都会出现性能问题,80%的设备每天都会出现多次重大中断。我们最初专注于多人游戏,在这种游戏中,玩家的体验取决于实时网络性能,每一毫秒都很关键。2019年下半年,我们为全球最大的游戏开发商之一部署了网络和技术,让参与度提高了一个数量级,并通过有竞争力的连接让玩家数量翻了一番。互联网性能从两方面直接影响网络游戏:首先必须下载游戏,这是对大量数据的一次性请求,当今互联网可以很好地支持这一点。此外,玩游戏还需要少量的数据传输以同步玩家的行动与游戏的整体状况,而互联网几乎不支持这一点。玩家的问题与延迟、抖动(延迟的变化)和丢包(接收数据发生中断)有关。例如,高延迟连接限制了可以快速加入的玩家池,从而限制了“配对”速度或者玩家之间相互连接的过程。较慢的配对又会导致沮丧的玩家在游戏开始前退出,导致配对池中留下的玩家更少,进一步限制了剩余玩家的选择,从而造成恶性循环。2020年,新冠疫情将世界推向视频会议和远程学习后,这些性能问题突然开始影响更多人。例如,从事IT技术支持热线的人开始远程工作,经理们不得不匆忙寻找办法让这些员工能够以清晰可靠的方式接听电话。相较于拥有稳健光缆线路的集中办公室,在个人的家中做这件事要困难得多。除此之外,呼叫中心的呼叫量也达到了历史最高水平。客户服务软件提供商Zendesk发现,与上一年相比,2020年2月至2021年2月间,支持请求增加了30%。该公司还估计,呼叫量将稳定在疫情前平均水平的120%左右。
疫情带来的网络使用上的变化也进一步加强了实现互联网大众化的必要性,即无论是谁或在哪里,每个人都必须有一个普遍一致的使用标准。这并不是一种绝对优势,因为电子邮件的要求与网络游戏或视频会议的要求非常不同。
20世纪90年代,互联网接入从仅用于军事和某些教育组织扩展到了一个真正的通用系统。然后,Akamai和Cloudflare等内容交付网络(CDN)将常用的请求数据(如图像和视频)放在了更靠近最终用户“最后一英里”的数据中心和服务器中,实现了数据缓存的大众化。最后,亚马逊、微软等公司建立了云计算数据中心,使人工智能、视频编辑和其他计算密集型项目更靠近“最后一英里”用户。不过,大众化还有最后一个阶段尚未实现,即数据路由路径的大众化。互联网连接着数亿个节点,但连接这些节点的路径的实际性能却有很大差异,即使在大城市也是如此。节点之间的连接是为了尽可能多地传递数据,而不是始终如一地传递数据或以最小的延迟传递数据。以高速公路来打比方:假设你正在从洛杉矶到芝加哥的公路上,而一场已经持续很久的暴风雪正在洛基山脉肆虐。虽然从丹佛走通常是最直接(也是最快)的路线,但暴风雪会减慢你的速度,甚至会造成事故。相反,绕道穿过达拉斯可能更合适。这样做的话,你就是在对路线当前的实际情况做出反应,而不是依赖其应有的性能。
大众化的网络元素不一定会根据最低成本或最高容量选择最佳路由。相反,正如谷歌地图、Waze和其他导航与路线规划应用为驾驶员所做的那样,一个完全大众化的互联网将沿着性能和稳定性最佳的路径发送数据。换言之,吞吐量最大或跃点最少的路由不会自动成为优先选择。传统上,人们强调要通过网络推送更多数据,但这忽略了所有会导致延迟的因素,如不稳定性、地理距离远或路径迂回。因此,即便Wi-Fi连接速度为每秒100兆比特,Zoom通话仍会不稳定。发生这种情况时,连接你与通话对象的网络元素无法提供始终如一的性能。互联网路由通常会沿着边境线、山脉等比较迂回的路径,就像开车穿越国家经常要通过几条高速公路一样。更糟糕的是,网络服务提供商(ISP)和运营商网络不知道自身之外还有什么,在互相传递数据包时,它们常常会回溯。尤其是“最后一英里”(类似于驶离州际公路后进入地方公路)比较棘手,因为数据流量要根据成本、政治和所有权在运营商之间切换。正是这种间接路由、网络对整个互联网了解的缺乏,以及“最后一英里”的不一致性让以最小延迟传递数据变得极其困难。更好的解决方案是将数据重新路由到目前性能最好的路径上。这在理论上可能很简单,但由于一些原因,实现起来却可能很复杂。
首先,在过去20年里,网飞(Netflix)和其他视频流平台的出现阻碍了实时应用的发展。这类平台会优先将经常请求的数据放在更靠近网络边缘的位置,因此这些网络不利于延迟敏感型视频通话和网络游戏。与此同时,虽然网络服务提供商一直在宣传和提供更快的上传和下载速度,但现有的网络基础设施却只是变得越来越稳固了而已。有一句谚语恰好诠释了这种情况:如果你手里只有一把锤子,那么你看什么都像钉子。更重要的是,在数据通过其网络路由后,网络服务提供商和内容交付网络无法对数据进行实际控制。因为向某家网络服务提供商支付了服务费并不意味着你发出的每个请求都限制在其控制的网络部分中。事实上,请求通常不会如此局限。一家运营商可能会沿着自己网络中的最佳路径路由数据,并将数据传输到另一家运营商的网络,却不知道第二家运营商的网络目前拥堵。运营商需要有一只天空之眼针对他们自己没有意识到可能出现和正在出现的延迟进行协调。这就是Subspace的作用之一。实际上,Subspace创建了自己的实时互联网流量和状况地图,与Waze绘制道路和高速公路交通地图的方式类似。Waze会利用收集到的信息根据当前交通状况重新安排人们的路线,同样,Subspace可以对互联网流量进行同样的处理,它所看到的不止是某一运营商控制的部分。Subspace使用了定制的全局路由器和路由系统,以及专用的光纤网状网络,可为出于某种原因非常容易发生延迟的路由提供其他路径选择。全球已有100多个数据中心设施安装了这种硬件。IT管理员可以轻松地通过Subspace网络安排传出流量路由,从而比传统的公共域名系统(DNS)更快地将流量传输至其目的地。Subspace使用了定制软件来引导流量绕过它和目标目的地之间可能存在的任何障碍。软件可以实时测量所有可能路径上的延迟(以毫秒为单位)、抖动(延迟的变化)和丢包(在一定时间间隔内成功传输的数据包数量)情况。每当出现异常或意外的延迟峰值(我们称之为“互联网天气”)时,软件就会根据需要在整个网络上自动重新路由流量。企业已尝试过使用软件定义广域网(SD-WAN)和多协议标签交换(MPLS)等技术来搭建专网来避免出现互联网坏天气。然而,只有所有员工都向少量中央办公室汇报时,这些方法才有用。如果大量员工居家办公,那么每个家庭都要被视作一个分支办公室,后勤工作就会变得过于复杂且成本高昂。除了随机的坏天气外,公共互联网上还有一些流量问题是由于某些安全措施的副作用而产生的。以名为“分布式拒绝服务”(DDoS)攻击的故意破坏行为为例,在这种攻击中,恶意行为者会向服务器发送大量数据包以使系统过载。多人游戏中常有这种情况。为了阻止此类攻击,行业标准的“DDoS清理”技术会尝试将恶意流量与“安全”流量分离。然而,将流量传输到清理中心往往意味着要通过发夹式的蜿蜒路线进行路由,这可能会增加100毫秒以上的延迟。Subspace防止DDoS攻击的办法是自己充当流量过滤器,不改变数据包的路径,也不会以任何方式增加延迟。过去两年,我们估计Subspace已经阻止了数百起针对多人游戏的DDoS攻击。在最初的几十年里助力互联网发展的技巧已经无法带来预期回报,因为人们现在对网络提出了带宽以外的更多要求。只通过网络传输大量数据已无法维持创新。
相反,互联网需要由专用网络提供稳定直接的光速通信。到目前为止,我们仅限于与大公司合作,满足他们的特定网络需求。不过,我们最近也向所有应用程序开发人员开放了我们的网络,以期提高所有互联网应用的网络性能。有了新的完善互联网,人们就不用再忍受断断续续的Zoom通话。进行远程医疗的外科医生也不会在缝合过程中被中断。最终,物理现实、增强现实和虚拟现实相融合的元宇宙将成为可能。