“根据PitchBook的数据, 目前有超过1000家独角兽公司或估值超过10亿美元的创业公司,其中超过80%的独角兽公司都将工作负载运行在亚马逊云科技上。”亚马逊云科技大中华区产品部总经理陈晓建日前在亚马逊云科技2023 re:Invent中国行北京站的主题分享环节上如是说。
他指出,亚马逊云科技之所以能够持续引领科技创新,离不开从基础设施到存储、到计算芯片再到云服务等由下而上、由内而外的创新。而在当前生成式AI大行其道的趋势下,如何利用AIGC技术重塑云计算、重塑未来,更是成为亚马逊云科技关注的重点。据悉,本次re:Invent大会上一共发布了200多项新服务和功能,以及超过350项持续的更新。
亚马逊云科技大中华区产品部总经理陈晓建
云原生处理器五年四迭代
拥有高性价比以及更低能耗的算力,往往是企业选择云计算的根本出发点之一,也是亚马逊云科技早在十年前就深入底层技术直达芯片、持续进行自研芯片创新的原因。
毕竟从全球范围内来看,亚马逊云科技的基础设施已经覆盖了32个地理区域,并有5个区域即将推出,涵盖东南亚、欧洲、北美等。与最接近的云服务商相比,亚马逊云科技的数据中心数量多3倍,服务多60%,功能多40%。尽管每个可用区都是一个完全独立的数据中心,具有冗余的水、电、网络和连接,但它们又需要同时提供全球一致的体验,要有高可用性和灾难恢复能力,这种全球统一的高标准设计是实现业务系统韧性的基础,只有做好全球底层的创新,客户才能无束缚地进行业务创新。
为此,亚马逊云科技的自研芯片Amazon Graviton处理器自2018年问世以来,已经进行了四次重大迭代。其中,Graviton3比Graviton2整体性能提升高达25%,可提供高达2倍的浮点运算性能,加密工作负载速度提升高达2倍,为机器学习工作负载提供高达3倍的性能,并且基于Graviton3的实例的网络带宽也高出20%,可以广泛用于科学计算、传统机器学习推理和媒体编码等工作负载,针对特定工作负载性能提升更多,如基于Spark SQL的性能提升28%,MySQL的性能提升38%。
最新的消息显示,亚马逊云科技通过与光环新网和西云数据的紧密合作,在亚马逊云科技北京区域和宁夏区域推出了基于自研芯片Amazon Graviton3处理器的Amazon Elastic Compute Cloud(Amazon EC2)M7g通用型、C7g计算优化型和R7g内存优化型三款实例。
这些实例均基于 Amazon Nitro System构建,与采用Amazon Graviton2的实例相比,整体性能提升高达25%,内存带宽提升50%,同时能耗更低,能效提升高达60%。其中,M7g 实例适用于如应用程序服务器、微服务、游戏服务器等,C7g 实例适用于如高性能计算、视频编码、游戏和基于CPU的机器学习推理加速等计算密集型应用程序,R7g 实例适用于如开源数据库、内存缓存和实时大数据分析等内存密集型工作负载。
而最新一代Graviton4,作为目前亚马逊云科技性能最强、最具能效的自研芯片,支持广泛的云上工作负载。与Graviton3处理器相比,Graviton4性能提升高达30%,独立核心增加50%以上,内存带宽提升75%以上,基于Graviton4的Amazon EC2 R8g实例目前已提供预览。
而在存储方面,Amazon S3已经支持了全球数百万用户的各级存储需求,但随着数据密集型应用增加,在一些应用上对于数据访问的速度提出了更高的要求,客户可能要达到每分钟数百万次的数据集访问,每一毫秒的延迟都会对其业务产生影响。针对这些用户对于高性能存储的需求,亚马逊云科技此次推出了全新的高性能对象存储——Amazon S3 Express One Zone。
据悉,Amazon S3 Express One Zone是采用专门设计的软硬件来实现数据加速处理,同时能够以一致的毫秒级延迟处理每分钟数百万次的请求,相比Amazon S3标准存储快了10倍,同时请求成本降低了50%。从实际客户案例来看,这项新存储服务帮助Pinterest提升了10倍以上的写入速度,并将其机器学习驱动的视觉灵感引擎的总成本降低了40%。
三层次布局生成式AI
面对生成式AI,陈晓建表示亚马逊云科技会在端到端的三个不同层面展开持续投入:底层,提供用于基础模型训练和推理的基础设施;在中间工具层,提供使用基础模型进行构建的工具,以及模型定制、模型集成等能力;在顶层应用层,提供利用基础模型构建的应用程序。
“为千行百业应用生成式AI降低门槛是我们的初衷。亚马逊云科技会在兼顾规模与成本、选择最适合业务场景的模型、帮助企业利用自己的数据定制并快速行动、以及充分保护数据安全隐私的前提下,负责任地应用生成式AI。”他说。
为此,在底层自研芯片方面,亚马逊云科技最新发布了用于生成式AI和机器学习训练的专用芯片Amazon Trainium2处理器。Trainium2专为以高性能训练具有数万亿个参数或变量的基础模型和大语言模型而构建。Trainium2与第一代Trainium芯片相比,性能提升4倍,内存提升3倍,能源效率提升多达2倍。
Amazon EC2 Trn2实例采用最新的Trainium2,一个单独实例包含16个Trainium 加速芯片。Trainium2实例致力于为客户在新一代EC2 UltraClusters中扩展多达 100,000个Trainium2加速芯片,并与Amazon Elastic Fabric Adapter(EFA)PB级网络互联,提供的算力高达65 exaflops,客户可按需获得超级计算级别的性能。
有了这个级别的规模,客户可在数周而非数月就能训练完成一个具有3千亿参数的大语言模型。通过以显著降低的成本提供最高横向扩展的模型训练,Trainum2 实例可以帮助客户解锁并加速生成式AI的新一轮创新。
此外,陈晓建还透露了亚马逊云科技内部完全自研和制造的一款量子计算芯片,它的独特之处在于,通过将比特翻转和相位翻转分离来实现纠偏,可以把未翻转的误差和向量反转减少100倍,整个硬件开销也会减少6倍。
持续看好GPU加速计算
根据陈晓建的分享,早在13年前,亚马逊云科技就看到了GPU加速计算芯片的价值,是第一个把GPU带到云上的云供应商。近年来,亚马逊云科技在Amazon EC2 P3实例中率先提供了NVIDIA V100 GPU;今年早些时候,亚马逊云科技是全球第一家将英伟达H100 GPU和Amazon EC2 P5实例推出市场的主要云提供商,Amazon EC2 P5实例也提供了惊人的性能,在训练方面比Amazon EC2 P4实例快4倍,而成本只是P4的60%。
在今年的re:Invent 2023全球大会上,亚马逊云科技和英伟达延续了以往的合作,共同宣布了几项最新合作,包括:亚马逊云科技将提供首款搭载NVIDIA Grace Hopper超级芯片和亚马逊云科技UltraClusters技术的云AI超级计算机;首款使用英伟达最新芯片GH200 NVL32 的NVIDIA DGX云即将登录亚马逊云科技。
两家公司还共同开展了“Project Ceiba”合作项目,将全球最快的GPU驱动AI超级计算机和NVIDIA DGX云超级计算机用于NVIDIA AI的训练、研发、定制化模型的开发,它将拥有1.6万个最新的GH200超级芯片,提供65 ExaFLOPS的算力。
当前,跨节点的分布式训练已经成为训练大模型的标准范式,除了GPU单个芯片处理性能之外,卡之间的通信、主机节点之间的通信,都会成为影响整个集群训练的关键因素。据介绍,亚马逊云科技的Amazon EFA,提供3.2T的网络互联能力,客户可以在单个集群中部署多达两万个GPU芯片的超级规模集群,提供相当于20个ExaFLOPS的集成能力,等同于一台超级计算机。
推进无服务器服务创新
除了芯片业务外,亚马逊云科技在re:Invent大会上宣布的三项无服务器服务创新也颇受人关注。陈晓建解释称,对于绝大多数客户而言,无服务器(Serverless)提供了更好的成本效率,客户可以在业务高峰时拓展更多资源,而在低谷时降低资源占用,并且无需自己进行服务器维护升级,这使得整体投入和风险降低,并获得了更好的业务灵活性。可以说,Serverless已经成为了云服务的必然趋势。
Amazon Aurora Limitless Database。正如其名字Limitless所言,它简化了跨单台服务器读写吞吐量限制进行扩展,能够让客户超越单个Aurora写入器实例的限制,扩展数据库的写入吞吐量和存储容量。对于大规模应用程序而言,客户无需再构建复杂的跨多个数据库的方案,可以实现真正意义上的无扩展上线的关系性数据库。
Amazon ElastiCache Serverless,可以帮助客户在一分钟内创建高可用的缓存,并实时进行垂直和水平扩展以支持客户复杂的应用程序,且无需管理基础架构。
Amazon Redshift Serverless,它大大简化了数据库管理的工作,让企业的数据分析人员无需管理数据仓库基础设施即可轻松运行任何规模的分析工作负载,并且可根据多个工作负载维度自动调整资源并执行优化操作以完成客户预设的性价比目标。
而以上三项Serverless创新服务的基础,均来自亚马逊云科技的关系型数据库服务Amazon Aurora,以及背后的两大底层技术——底层Grover系统和“协同资源管理”的系统Caspian。前者自2014年以来,帮助Amazon Aurora实现了数据和计算资源的分离,可提供跨多个可用区的数据持久化支持,能横向扩展读取副本,实现了数据库存储的无服务器扩展;Caspian自2018年以来,通过采取重塑全新的Hypervisor+热点调度系统的方式来工作,让Amazon Aurora serverless数据库可以在毫秒内响应变化的数据库负载并调整大小。
结语
生成式AI给云计算业务带来的颠覆是全方位的,随着数据量越来越大、模型规模越来越大,算力的性价比将越来越被重视,除此之外,软硬件的协同、强大的数据基础等要素也不可或缺,相信这也是亚马逊云科技提出“重塑云计算”的核心原因所在。