随着全球企业对生成式AI的深入应用,数据不仅实现跨区域的传输与协同,更实现跨地域、跨区域的深度连接。亚马逊云科技大中华区产品部总经理陈晓建日前在亚马逊云科技2024 re:Invent中国行活动上发表主题演讲时指出,“几乎所有的应用程序都可以分解成为几个核心的构建单元,亚马逊云科技所做的就是构建出非常优秀的核心单元,用户可以通过自由搭建这些核心单元,满足他们在特定场景下不同的业务需求。”
亚马逊云科技大中华区产品部总经理陈晓建
这其中,又以计算、存储、数据库和大数据分析四大核心构建单元最为关键。因此,本届re:Invent大会上除了新发布更加侧重于产品的实际应用和工具优化外,也更强调从数据存储、治理到管理的全流程提升,旨在简化AI对数据的使用,构建全栈联动的大规模创新。
计算服务
按照陈晓建的说法,目前,亚⻢逊云科技提供的计算实例类型比其他任何云服务提供商都要多。作为亚马逊云科技的核心计算产品,Amazon EC2为用户提供了更多选择、更多实例类型和更多功能,让客户能为应⽤和⼯作负载找到更具性价比的解决⽅案。
Amazon EC2与Amazon Nitro System
Amazon EC2为用户提供了广泛的实例选择,涵盖从小型开发应用到大规模企业级工作负载的各类需求。无论是需要大规模并行计算的高性能计算(HPC)应用,还是要求灵活弹性的开发环境,EC2都能为客户提供最具性价比的解决方案。目前,搭载Nvidia Blackwell芯片的Amazon EC2 P6实例系列在亚⻢逊云科技海外区域正式上线,其计算性能较是当前GPU的2.5倍。
Amazon Nitro System是虚拟化系统,采⽤了亚马逊云科技自主设计的芯片,能够承担⽹络、计算和存储的虚拟化工作。它提供裸机性能、高安全性、隔离性和灵活性,推动计算领域创新,为后续芯片创新奠定基础。
通用自研芯片Amazon Graviton4
自2018年推出Amazon Graviton处理器以来,亚马逊云科技不断优化其性能,并在几个月前推出了迄今为止最强大的Graviton芯片——Amazon Graviton4,其单核计算性能提升了30%,虚拟CPU数量和内存容量都是上一代的3倍。
陈晓建分享的数据显示,在Amazon数据中心新增的处理器中,Amazon Graviton的占比已经超过50%,在其规模最大的1000家Amazon EC2客户中,已有超过90%开始使用Amazon Graviton。以社交平台Pinterest为例,该公司此前运行着数千个x86实例,后来决定迁移到Graviton平台,不仅性能得到了显著提升,计算成本更是降低了47%,同时碳排放量更是降低了62%。
Amazon EC2 Trn2 UltraServer
Amazon EC2 Trn2 UltraServer通过NeuronLink互连技术将4个Trn2实例(共64个Trainium2芯⽚)连接在⼀起,单个计算节点的峰值计算性能超过83Petaflops。这不仅能为超⼤规模模型提供更好的推理性能,还能让构建超⼤规模训练集群的过程更加⾼效。在与Anthropic合作打造的⼀个名为Rainier项目的Trn2 UltraServer集群中,数十万个Trainium2芯片的使用规模,是其之前集群的五倍以上。
Amazon Trainium3
在自主研发的AI芯片领域,Amazon在2019年推出了首款推理芯片Amazon Inferentia,2022年又推出了首款训练芯Amazon Trainium1;2023年则宣布了Amazon Trainium2的开发计划。
2024年,搭载Amazon Trainium2的Amazon EC2 Trn2实例现已正式在海外区域推出。每个Trn2实例都配备了16个Amazon Trainium2芯片,这些芯片通过NeuronLink的⾼带宽、低延迟互连技术相连,使单个实例能够提供⾼达20.8 Petaflops的计算性能。这也使得与当前⼀代基于GPU的实例相⽐,Amazon Trainium2的性价比提升了30-40%。
Amazon Trainium2芯片
根据规划,Amazon Trainium3将于2025年后期推出。这是⾸款采⽤3纳⽶制程⼯艺的芯⽚,计算速度提⾼到2倍,能效最⾼提升40%,可以帮助客户能以更低的成本构建规模更⼤、性能更强的应⽤。
存储服务
在云服务的整体架构中,计算与存储是两个互相依赖且密不可分的关键构建单元。计算为数据处理和业务逻辑提供了执行平台,而存储则是数据的栖息地,它确保数据可以高效、安全且持久地存放。在云计算环境中,存储不仅仅是为了存放数据,它还是数据管理、访问、保护以及后续分析和挖掘的核心支撑。
10年前,在Amazon S3中存储容量达到1PB的客户还不到100家。如今,Amazon S3存储的对象数量已突破400万亿,甚⾄有几家客户的存储量已经突破了1EB。同时,还有超过100万个客户把Amazon S3作为数据湖的首选平台,凭借出色的扩展性、性能、成本效益、易用性和先进功能,Amazon S3成了企业数据湖构建的不二选择。这些数据湖为不同领域的分析、金融建模、实时广告投放、AI等各类工作负载提供支持。
而最新发布的Amazon S3 Tables则是⼀种专为Iceberg表设计的全新存储桶类型,查询速度提高到3倍,与常规Amazon S3存储桶相⽐,每秒可处理事务数量提升到10倍。Amazon S3 Metadata元数据服务也是新业务之一,能帮助客户即时发现和理解Amazon S3中的数据,能够自动为客户创建可查询的元数据,并且几乎实时进行更新。
数据库服务
Amazon提供了多种适⽤于不同场景下专门构建的数据库——从关系型数据库,到图数据库到文档数据库,每种使用场景都能找到合适的数据库⼯具。这些专门构建的数据库广受欢迎,让许多此前无法实现的工作负载变成了现实,但关系型数据库依然是众多应用的最佳选择之一。
2024年,是完全兼容MySQL和PostgreSQL的数据库服务Amazon Aurora发布10周年的纪念。“客户需要Amazon Aurora的这种关系型数据库,它既能提供商业数据库级别的可靠性,又能像开源数据库⼀样具有可移植性。而且较之自托管开源数据库,性能提升到3-5倍,成本仅为商业数据库的十分之⼀。”陈晓建说。
他同时指出,⼀个完美的数据库解决⽅案应该有这些功能:具有高可用性、支持跨区域部署、具备低延迟性能、支持强⼀致性、运维负担接近于零,还必须兼容SQ。为此,Amazon开发出了⼀种全新的事务处理⽅法——将事务处理与存储层分离,这样就不⽤每条语句都去查询存储层,只需在提交时进⾏⼀次性检查。在提交阶段,再将所有写操作并⾏地执⾏到各个区域,由此既保证了强⼀致性,⼜实现了极速的数据库写⼊。
Amazon Aurora DSQL是一款全新的无服务器分布式SQL数据库,它结合Amazon Time Sync服务,采用完全无服务器设计,可在多区域实现近乎无限扩展,可用性高达99.999%,支持强一致性,具备低延迟的读写性能,完全兼容PostgreSQL。与其他的流行分布式SQL数据库相比,其读写速度提升了4倍。
Amazon DynamoDB global tables现已支持多区域强一致性,⽆论客户选择SQL还是NoSQL数据库,都能享受到这些优势:⽀持主动-主动的多区域部署,同时具备强⼀致性、低延迟和⾼可⽤性。
数据分析服务
在这个信息时代,数据已经成为了企业的重要资产。目前,在数据分析领域,Amazon提供了包括数据仓库Amazon Redshift、⼤数据处理Amzon EMR、搜索分析Amazon Opensearch、流数据分析Amazon Kinesis/Amazon MSK、数据集成Amazon Glue,交互查询的Amazon Athene,以及BI⼯具Amazon Quicksight在内的专⽤服务组合。
例如,新⼀代Amazon SageMaker涵盖了分析、数据处理、搜索、数据准备、AI模型开发和训练、⽣成式AI等所有必需功能,全部功能都可以通过统⼀的企业数据视图实现;一站式数据和AI开发平台Amazon SageMaker Unified Studio整合了多种功能,支持创建包含AI或分析资源的共享项目,方便数据科学家、分析师和机器学习专家开展协同工作,同时内置数据目录和治理功能,通过安全控制确保组织中的不同用户只能访问其权限范围内的资源和数据。
Amazon SageMaker Lakehouse为所有数据源提供简单统一的访问方式,兼容Apache Iceberg。用户可以在统一开发环境中轻松处理所有数据,也可以通过任何支持Apache Iceberg API的第三方AI或分析工具、查询引擎直接访问SageMaker数据湖仓;全新的Zero-ETL与领先的软件即服务(SaaS)应用程序的集成,让客户无需复杂的数据管道,即可在Amazon SageMaker Lakehouse和Amazon Redshift中访问第三方SaaS应用程序的数据,并进行分析或机器学习。
除了基础的分析功能,亚马逊云科技也不断推动AI和数据科学领域的创新。Amazon SageMaker HyperPod是亚马逊云科技推出的一项新功能,它允许用户定义灵活的训练计划,并根据任务的优先级动态调整资源,确保高优先级的模型训练按时完成。HyperPod的任务治理功能,能够有效管理不同类型的训练任务,为数据科学家提供更高效的工作环境。
此外,亚马逊云科技还强化了AI平台与第三方合作伙伴的整合,发布了通过合作伙伴构建的AI应用,客户可以直接在SageMaker中访问这些应用,并加速模型的开发和部署。
生成式AI推理
生成式AI推理将成应用核心构建块,未来应用需支持规模化推理平台,利用专有数据,平衡性能、安全性和成本,模型选择至关重要。
新发布的Amazon Nova系列模型,包括多种类型。Nova Micro是文本到文本模型,能以极低成本提供低延迟响应;Nova Lite为成本极低的多模态模型,可快速处理多种输入;Nova Pro是功能强大的多模态模型,在准确性、速度和成本间平衡;即将推出的Nova Premier是其中能力最强的多模态模型,可处理复杂推理任务并指导定制模型蒸馏。
新一代图像生成模型Amazon Nova Canvas,它能帮助客户生成高质量图像,还具备图像编辑功能,最高可以生成高达两K(2000乘以2000)、2048乘以2048这样的图像,并且用户很快就可以通过Canvas这个模型进行微调。
而通过Amazon Bedrock Marketplace平台,用户不仅可以使用领先供应商提供的一百多个新兴和专业基础模型,还能够通过统一界面发现、测试各类新兴专业模型,部署模型后,可使用Amazon Bedrock的统一API,以及知识库、安全防护、Agent等工具,同时享受其安全和隐私保护。
其中的一些新功能也很值得关注:
- 模型蒸馏功能,用户只需提供示例提示,平台自动完成工作,通过蒸馏得到的模型运行速度提升到5倍,成本降低75%,显著提升生成式AI项目投资回报。
- 自动推理检查功能,预防模型幻觉引起的事实性错误,基于数学验证检查模型事实性陈述准确性并展示推理过程,如在保险领域可确保回答准确性。
- 多智能体协作功能,支持多个Agent协作处理复杂工作流程,为特定任务创建一系列独立Agent,创建监督Agent负责设置信息访问权限、决定任务执行方式并确保协作,用户无需单独管理Agent,可轻松处理复杂任务。
此外,poolside、Luma AI、Stability AI的Stable Diffusion 3.5模型等将很快在Amazon Bedrock上线。其中,poolside专为软件开发流程打造,其模型在代码生成、测试、文档编写方面表现出色,基于深层次上下文实现实时代码补全;Luma在模型创新方面取得重大突破,可将文本和图像转化为高品质、逼真的视频;Stable Diffusion 3.5是基于SageMaker HyperPod训练的高级文生图模型,性能强大。
结语
陈晓建在回顾2024年AI发展历程是表示,许多客户正从思考阶段进入实践阶段,并进行了大量场景试验。进入2025年,很多客户将从原型验证阶段转化为生产阶段,这是必经之路。届时,客户需求将更加复杂,不仅是选择模型,还需要各种技术支持。因此,亚马逊云科技不仅需要在云的核心服务层面持续创新,更需要在从芯片到模型,再到应用的每一个技术堆栈取得突破,让不同层级的创新相互赋能、协同进化。