在当前生成式AI大行其道的趋势下,如何利用AIGC技术重塑云计算、重塑未来,更是成为亚马逊云科技关注的重点。据悉,本次re:Invent大会上一共发布了200多项新服务和功能,以及超过350项持续的更新。

“根据PitchBook的数据, 目前有超过1000家独角兽公司或估值超过10亿美元的创业公司,其中超过80%的独角兽公司都将工作负载运行在亚马逊云科技上。”亚马逊云科技大中华区产品部总经理陈晓建日前在亚马逊云科技2023 re:Invent中国行北京站的主题分享环节上如是说。

他指出,亚马逊云科技之所以能够持续引领科技创新,离不开从基础设施到存储、到计算芯片再到云服务等由下而上、由内而外的创新。而在当前生成式AI大行其道的趋势下,如何利用AIGC技术重塑云计算、重塑未来,更是成为亚马逊云科技关注的重点。据悉,本次re:Invent大会上一共发布了200多项新服务和功能,以及超过350项持续的更新。

亚马逊云科技大中华区产品部总经理陈晓建

云原生处理器五年四迭代

拥有高性价比以及更低能耗的算力,往往是企业选择云计算的根本出发点之一,也是亚马逊云科技早在十年前就深入底层技术直达芯片、持续进行自研芯片创新的原因。

毕竟从全球范围内来看,亚马逊云科技的基础设施已经覆盖了32个地理区域,并有5个区域即将推出,涵盖东南亚、欧洲、北美等。与最接近的云服务商相比,亚马逊云科技的数据中心数量多3倍,服务多60%,功能多40%。尽管每个可用区都是一个完全独立的数据中心,具有冗余的水、电、网络和连接,但它们又需要同时提供全球一致的体验,要有高可用性和灾难恢复能力,这种全球统一的高标准设计是实现业务系统韧性的基础,只有做好全球底层的创新,客户才能无束缚地进行业务创新。

为此,亚马逊云科技的自研芯片Amazon Graviton处理器自2018年问世以来,已经进行了四次重大迭代。其中,Graviton3比Graviton2整体性能提升高达25%,可提供高达2倍的浮点运算性能,加密工作负载速度提升高达2倍,为机器学习工作负载提供高达3倍的性能,并且基于Graviton3的实例的网络带宽也高出20%,可以广泛用于科学计算、传统机器学习推理和媒体编码等工作负载,针对特定工作负载性能提升更多,如基于Spark SQL的性能提升28%,MySQL的性能提升38%。

最新的消息显示,亚马逊云科技通过与光环新网和西云数据的紧密合作,在亚马逊云科技北京区域和宁夏区域推出了基于自研芯片Amazon Graviton3处理器的Amazon Elastic Compute Cloud(Amazon EC2)M7g通用型、C7g计算优化型和R7g内存优化型三款实例。

这些实例均基于 Amazon Nitro System构建,与采用Amazon Graviton2的实例相比,整体性能提升高达25%,内存带宽提升50%,同时能耗更低,能效提升高达60%。其中,M7g 实例适用于如应用程序服务器、微服务、游戏服务器等,C7g 实例适用于如高性能计算、视频编码、游戏和基于CPU的机器学习推理加速等计算密集型应用程序,R7g 实例适用于如开源数据库、内存缓存和实时大数据分析等内存密集型工作负载。

而最新一代Graviton4,作为目前亚马逊云科技性能最强、最具能效的自研芯片,支持广泛的云上工作负载。与Graviton3处理器相比,Graviton4性能提升高达30%,独立核心增加50%以上,内存带宽提升75%以上,基于Graviton4的Amazon EC2 R8g实例目前已提供预览。

而在存储方面,Amazon S3已经支持了全球数百万用户的各级存储需求,但随着数据密集型应用增加,在一些应用上对于数据访问的速度提出了更高的要求,客户可能要达到每分钟数百万次的数据集访问,每一毫秒的延迟都会对其业务产生影响。针对这些用户对于高性能存储的需求,亚马逊云科技此次推出了全新的高性能对象存储——Amazon S3 Express One Zone。

据悉,Amazon S3 Express One Zone是采用专门设计的软硬件来实现数据加速处理,同时能够以一致的毫秒级延迟处理每分钟数百万次的请求,相比Amazon S3标准存储快了10倍,同时请求成本降低了50%。从实际客户案例来看,这项新存储服务帮助Pinterest提升了10倍以上的写入速度,并将其机器学习驱动的视觉灵感引擎的总成本降低了40%。

三层次布局生成式AI

面对生成式AI,陈晓建表示亚马逊云科技会在端到端的三个不同层面展开持续投入:底层,提供用于基础模型训练和推理的基础设施;在中间工具层,提供使用基础模型进行构建的工具,以及模型定制、模型集成等能力;在顶层应用层,提供利用基础模型构建的应用程序。

“为千行百业应用生成式AI降低门槛是我们的初衷。亚马逊云科技会在兼顾规模与成本、选择最适合业务场景的模型、帮助企业利用自己的数据定制并快速行动、以及充分保护数据安全隐私的前提下,负责任地应用生成式AI。”他说。

为此,在底层自研芯片方面,亚马逊云科技最新发布了用于生成式AI和机器学习训练的专用芯片Amazon Trainium2处理器。Trainium2专为以高性能训练具有数万亿个参数或变量的基础模型和大语言模型而构建。Trainium2与第一代Trainium芯片相比,性能提升4倍,内存提升3倍,能源效率提升多达2倍。

Amazon EC2 Trn2实例采用最新的Trainium2,一个单独实例包含16个Trainium 加速芯片。Trainium2实例致力于为客户在新一代EC2 UltraClusters中扩展多达 100,000个Trainium2加速芯片,并与Amazon Elastic Fabric Adapter(EFA)PB级网络互联,提供的算力高达65 exaflops,客户可按需获得超级计算级别的性能。

有了这个级别的规模,客户可在数周而非数月就能训练完成一个具有3千亿参数的大语言模型。通过以显著降低的成本提供最高横向扩展的模型训练,Trainum2 实例可以帮助客户解锁并加速生成式AI的新一轮创新。

此外,陈晓建还透露了亚马逊云科技内部完全自研和制造的一款量子计算芯片,它的独特之处在于,通过将比特翻转和相位翻转分离来实现纠偏,可以把未翻转的误差和向量反转减少100倍,整个硬件开销也会减少6倍。

持续看好GPU加速计算

根据陈晓建的分享,早在13年前,亚马逊云科技就看到了GPU加速计算芯片的价值,是第一个把GPU带到云上的云供应商。近年来,亚马逊云科技在Amazon EC2 P3实例中率先提供了NVIDIA V100 GPU;今年早些时候,亚马逊云科技是全球第一家将英伟达H100 GPU和Amazon EC2 P5实例推出市场的主要云提供商,Amazon EC2 P5实例也提供了惊人的性能,在训练方面比Amazon EC2 P4实例快4倍,而成本只是P4的60%。

在今年的re:Invent 2023全球大会上,亚马逊云科技和英伟达延续了以往的合作,共同宣布了几项最新合作,包括:亚马逊云科技将提供首款搭载NVIDIA Grace Hopper超级芯片和亚马逊云科技UltraClusters技术的云AI超级计算机;首款使用英伟达最新芯片GH200 NVL32 的NVIDIA DGX云即将登录亚马逊云科技。

两家公司还共同开展了“Project Ceiba”合作项目,将全球最快的GPU驱动AI超级计算机和NVIDIA DGX云超级计算机用于NVIDIA AI的训练、研发、定制化模型的开发,它将拥有1.6万个最新的GH200超级芯片,提供65 ExaFLOPS的算力。

当前,跨节点的分布式训练已经成为训练大模型的标准范式,除了GPU单个芯片处理性能之外,卡之间的通信、主机节点之间的通信,都会成为影响整个集群训练的关键因素。据介绍,亚马逊云科技的Amazon EFA,提供3.2T的网络互联能力,客户可以在单个集群中部署多达两万个GPU芯片的超级规模集群,提供相当于20个ExaFLOPS的集成能力,等同于一台超级计算机。

推进无服务器服务创新

除了芯片业务外,亚马逊云科技在re:Invent大会上宣布的三项无服务器服务创新也颇受人关注。陈晓建解释称,对于绝大多数客户而言,无服务器(Serverless)提供了更好的成本效率,客户可以在业务高峰时拓展更多资源,而在低谷时降低资源占用,并且无需自己进行服务器维护升级,这使得整体投入和风险降低,并获得了更好的业务灵活性。可以说,Serverless已经成为了云服务的必然趋势。

Amazon Aurora Limitless Database。正如其名字Limitless所言,它简化了跨单台服务器读写吞吐量限制进行扩展,能够让客户超越单个Aurora写入器实例的限制,扩展数据库的写入吞吐量和存储容量。对于大规模应用程序而言,客户无需再构建复杂的跨多个数据库的方案,可以实现真正意义上的无扩展上线的关系性数据库。

Amazon ElastiCache Serverless,可以帮助客户在一分钟内创建高可用的缓存,并实时进行垂直和水平扩展以支持客户复杂的应用程序,且无需管理基础架构。

Amazon Redshift Serverless,它大大简化了数据库管理的工作,让企业的数据分析人员无需管理数据仓库基础设施即可轻松运行任何规模的分析工作负载,并且可根据多个工作负载维度自动调整资源并执行优化操作以完成客户预设的性价比目标。

而以上三项Serverless创新服务的基础,均来自亚马逊云科技的关系型数据库服务Amazon Aurora,以及背后的两大底层技术——底层Grover系统和“协同资源管理”的系统Caspian。前者自2014年以来,帮助Amazon Aurora实现了数据和计算资源的分离,可提供跨多个可用区的数据持久化支持,能横向扩展读取副本,实现了数据库存储的无服务器扩展;Caspian自2018年以来,通过采取重塑全新的Hypervisor+热点调度系统的方式来工作,让Amazon Aurora serverless数据库可以在毫秒内响应变化的数据库负载并调整大小。

结语

生成式AI给云计算业务带来的颠覆是全方位的,随着数据量越来越大、模型规模越来越大,算力的性价比将越来越被重视,除此之外,软硬件的协同、强大的数据基础等要素也不可或缺,相信这也是亚马逊云科技提出“重塑云计算”的核心原因所在。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
微电子和软件技术的快速发展正在深刻地改变车载娱乐中控和安全系统设计,重新定义驾驶体验。
本系列文章从数字芯片设计项目技术总监的角度出发,介绍了如何将芯片的产品定义与设计和验证规划进行结合,详细讲述了在FPGA上使用硅知识产权(IP)内核来开发ASIC原型项目时,必须认真考虑的一些问题。
在即将到来的慕尼黑国际电子元器件博览会(electronica 2024)上,英飞凌科技股份公司将展示其创新的解决方案如何推动全球低碳化和数字化进程,充分展现半导体产品如何为实现净零经济铺平道路,并释放人工智能的全部潜力。
vivo旗下品牌iQOO正式发布了年度性能旗舰iQOO 13,除了高通骁龙8芯片、vivo自研的电竞芯片Q2外,最值得一提的是还采用了汇顶科技提供的多项创新技术,包括超声波指纹识别、新一代屏下光线传感器以及智能音频放大器与软件方案。
亚化咨询重磅推出《中国半导体材料、晶圆厂、封测项目及设备中标、进口数据全家桶》。本数据库月度更新,以EXCEL表格的形式每月发送到客户指定邮箱。中国大陆半导体大硅片项目表(月度更新)中国大陆再生晶圆项
本文来源:智能通信定位圈10月24日,全球领先的物联网(IoT)解决方案提供商Silicon Labs(下称“芯科科技“)在上海成功举办2024年“Works With开发者大会”。本届大会以“创新结
近日,有网友曝光了小米汽车员工职级与薪资一览表。据了解,小米汽车员工分为专员、专家/经理/主管、总监、VP/CXO等四类,职级从13 级到 22级共10级。值得一提的是。小米科技有限责任公司创始人、董
10月30日,上汽集团发布第三季度财报。财报显示,第三季度上汽集团营业收入1425.60亿元,同比下滑25.58%;净利润仅2.80亿元,同比下降93.53%。归属于上市公司股东的扣除非经常性损益的净
动动手指,关注公众号并加星标哦这几天一直在老家,整不了要特别费脑子的事情,比如那个做题。所以只能搞一些不太费脑子的事情,还有零零星星地回答课程号友们的一些问题。这两天,有两位号友分别问了ADS和Gen
Oct. 31, 2024 产业洞察近年来,产业界对固态电池应用的追求与期盼加速了这项技术的商业化进程。根据TrendForce集邦咨询最新调查,丰田、日产、三星SDI等全球制造商已开始试制全固态电池
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓10月31日消息,荣耀引入了中国电信、中金资本旗下基金、基石旗下基金、特发基金,以及新一轮代理商投资
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓10月31日消息,据外媒报道,英特尔CEO基辛格上任3年,搞砸了和台积电的关系,在公司处于困境的时刻
互联网与科技企业每日重点资讯文 | 苏丁巨头动向荣耀股改引入新一轮投资者荣耀股改引入新一轮投资者,中国电信、中金资本旗下基金、基石旗下基金、特发基金,以及新一轮代理商投资平台(金石星耀)等机构加入,对
市场传出消息称,荣耀公司近期引入了包括中国电信、中金资本旗下基金、基石旗下基金、特发基金及新一轮代理商投资平台(金石星耀)等在内的多个投资者。           对于本轮融资,荣耀表示始终坚持公开透