国产芯片仿真云的孤勇突围

芯通社 2023-01-19 09:54


必须赶到上海。
2022年9月2日深夜,这个念头冒出来时,腾讯云副总裁许华彬的朋友圈正被第二天深圳将全城静默的消息刷屏。
他果断买了机票。上海芯片企业燧原科技的新一代AI芯片研发即将进入临门一脚的“冲桥”阶段。
这个阶段,芯片仿真验证任务处于关键支撑阶段,需要大量计算资源。可以预见腾讯云和燧原、速石科技三方合作的芯片仿真混合云平台项目也将迎来算力波峰。
这是腾讯云支持国产芯片企业的第一个项目,也是燧原第一个上云的芯片项目。
面对大考,必须火速赶往,当面进行交流并支持。
事实证明了“抢飞”决定的正确性。随后的三个月,算力以远超预期的幅度攀升,各方都投入了最高规格的技术和人力保障平台稳定、高效运行,全程护航。
随着芯片仿真验证工作收官,在国内首次采用“存算分离”架构的芯片仿真混合云平台项目,也宣告突围成功。
//   大芯片研发上云,赌得起吗?
燧原上云的这一步并不容易。
芯片是一个相对传统的行业,比云计算早诞生了几十年的时间。很多企业部署了较重的线下IDC资产,遵循着一套标准化的使用流程。
但其实,芯片设计在不同阶段对算力的需求不同,波动明显且难以预测。为了突发的需求部署大量的冗余资源,从成本角度很不划算。而且,芯片研发需要的是高性能的先进计算资源,如果要一直更新机型,负担很重。
另一方面,随着这个行业市场愈发繁荣,竞争激烈,芯片研发争分夺秒,如果一年时间不推新,可能就错失机遇。以常规的方式采购、部署服务器的话,光测试上线这些设备就要花掉几周时间。
要快速、灵活地获取海量高性能计算资源,显然,云计算的弹性特点却能很好适配。
然而,下定吃螃蟹的决心,并不容易。
人工智能大芯片设计精密复杂,而燧原正在研发的新一代芯片迈入新的制程,每减少1纳米,制程的难度指数级增加。
要在如此关键的项目上“闹革命”吗?更何况,这个制程的芯片研发上云,国内尚无先例。
因此,此前腾讯云多次抛出橄榄枝,燧原迟疑不定。
“云计算是一个很好的方向,但我们确实有疑虑。”
变化出现在2022年3月。项目马上就要开始仿真验证了,这也是整个芯片研发过程中,算力需求最大的环节之一。算力波峰如果达到几万核,常规上要在一周甚至一天内加设百台级的服务器。
然而,上海疫情全面爆发,“封城”期间,新的机器根本进不来。常规的算力补充路径被彻底阻断。
亿级投入的芯片项目,赌不起。
这是燧原第一次深刻地认识到,这个行业有多么需要基础IT资源的“确定性”。用上云这短期的一步,换来后续的稳定保障,是否一劳永逸?
他们试探性地问:能否把所有的存储放在本地,只在需要弹性算力的环节使用云?
乍一听,这个要求很“别扭”。
云计算时代,服务器和服务器之间需要进行大量的数据交换。因此,数据中心通常会将存储和计算资源部署到一起。
当然,在大数据领域,应对数据大爆发的挑战,行业也在不断探索“存算分离”架构,即让云上的计算节点和存储节点解耦,可以只扩容存储资源而不影响算力资源,并引入低成本存储工具配合计算节点运行大数据作业。
但腾讯云能理解燧原这个需求,完全是从数据安全的角度上考虑的。核心知识代码和流程工艺等数据的安全是重中之重,是芯片企业的命门。
他们需要的是更加彻底的“存算分离”,云上仅包含计算,所有数据存储在本地,通过专线远程访问。相比起云上的存算分离,这种架构对网络时延、带宽吞吐率和效率的要求都会更加严苛。
这也是国内芯片企业从未实践过的构想。
但如果这个顾虑是燧原上云前最大的障碍,那就必须搞定。业内没有,就自己搞一个。
随后的几个月,腾讯云、速石与燧原一起,大胆假设、小心求证,搭建了“存算分离”芯片仿真混合云平台。
为此,腾讯云提供足够多的算力机型,在需要弹性算力时,根据业务作业的不同类型,配置相应的算力资源。
速石平台的云原生调度器,则能在不改变用户的使用习惯,让使用者无感地调用云资源,减少上云的学习成本。
而为了进一步提高安全性,在传输层面,一条连接腾讯云和燧原的超大带宽的专线拉起,保证传输通道安全可信。同时,腾讯云的iOA方案,可确保终端的安全、信息的保护。
“我们整个项目对于算力非常迫切的需求。这是我们上云的一个契机。”燧原科技项目负责人Eli回忆,在解决了数据安全的顾虑后,他们决定放胆一试。
一场突围战开始了。
//   最快速度集结兵力,冲桥!
一款人工智能大芯片包含百亿级别的晶体管。每一个角落的前端工艺设计和各种功能指标,都需要进行全方位的仿真验证。
因此,芯片仿真需要大量算力,但波峰会达到多高,项目组也无法精准预估。
从某种意义上来说,这是一场“未知之战”。
芯片仿真混合云平台于6月正式上线,在9月许华彬造访之前,算力迅速爬升的势头已经显露。10 月,算力达到初始规划的数倍。11月,算力继续爬升。
算力“爆炸”背后,是一个关键的环节——芯片各项功能的一致性验证。
可以理解为,前期,燧原的研发人员,分成一支支小队,各自负责一部分编码和功能设计。后期,在芯片正式流片之前,就要将各项功能集结做“期末考”。
“所有的模块要在同一时刻冲过独木桥。”
整个验证过程,就是无数次过桥的尝试。研发团队小时级 stand by ,一旦发现问题,马上找问题,修复,再尝试冲过桥。
这就像在用穷举法解一道排列组合题,仿真、验证、测试、回归、再测试,不断循环往复,这让云平台始终处于高压状态。
有时候,算力会突然冲到几万核——这相当于在一瞬间同时拉起数百台的大规格的机器,整个系统必须保持高稳定性和实时响应能力。
而每一次系统报错后,他们就要经历一场或大或小的排查:是网络的问题,云的问题,存储的问题还是调度器的问题?有时,问题可能只是适配或兼容的问题,因为各环节使用的软件、工作方式差别巨大。
在战况最激烈的时刻,三方人员进行了长达两周的7x24 小时轮班值守。每天晚上10 点,上海、深圳、北京、杭州的业务人员要开例会,复盘当天遇到的状况。
效率,效率,效率。工作群里高频出现这个词。要成功闯关,必须在有限的时间内做频繁验证,有效利用研发效能。团队很多,作业很多,各模块要并行计算。
腾讯云具备丰富多元的裸金属实例、 GPU 实例,在芯片的仿真验证和性能对比测试环节,可一站式完成多代次,多卡型的验证工作,极大提升部署效率和测试效率。
这还不够,在远端,腾讯云越来越多的专家加入,工作群随时都有总监级的研发人员被拉进去提供支持。速石也这个项目投入了包括首席架构师在内的大量精锐。
经过不断的改进调优,平台最终做到充分的并行作业,在两分钟时间里即能快速完成服务器交付,小时级别完成研发环境交付。研发在晚上提交的作业,次日早上就能收到结果,为一次又一次的“冲桥”最快速度集结兵力。
最终,经过16天*24小时值守,他们提前到达了桥那边。
//   给芯片企业带去更多“确定性”
“大家一起摸着石头过河。”事后回顾这次合作,三方都觉得这是一次共同学习,深入“know—how”的过程。这次合作充分展现了云计算对于芯片行业的价值。
中国的芯片企业从2021年的2800多家,跃升至2022年的3200多家。这个池子需要注入新技术的“春水”。
云计算提供的弹性算力支持,既满足了在有限时间内快速获得大量算力资源的要求,也让研发人员可以并发作业,研发效率得到极大优化。在成本上,上云也避免了IT基础设施的重复建设。
长达八个月的实战后,燧原看到了一张成绩单:总体任务并发量通过云端弹性同步提高,缩短仿真周期30%-50%,节省了可观的IT投入的综合效益。
未来,燧原打算逐步扩大用云规模,把使用弹性算力的环节尽量都上云。
“这个项目对整个混合云建设架构的要求是比较高的,这是一个特定的挑战点。”速石高级技术总监陈琳涛指出,这次的合作对网络时延、带宽吞吐率和效率的高要求的挑战,对于他们也是一次难得的操练。
腾讯云高性能计算行业高级经理Kevin在工作内外都关注芯片行业。亲身参与这场突围之战,他分外钦佩和感谢燧原的选择。
这次孤勇,为行业提供了上云场景的新认知。芯片仿真云本身专业属性很强,并不能用一套通用的方案和架构搞定。一开始看起来“别扭”的存算分离的方案,事后证明对这类芯片企业才是最优解。
它减少了数据流转步骤,统一了数据安全访问策略,简化了上云场景选择和数据准备过程。在守住数据安全的命门后,云端的算力红利有望惠及更多的芯片企业。
此外,芯片行业的云上使用,只是前沿高科技领域对云端高性能计算(HPC)需求的缩影。传统的高性能计算算力红利相对陈旧,不少科研机构和科技企业已经转向云上。
从2021年开始,腾讯云就在HPC领域加大投入,持续进行底层技术储备。目前,腾讯云部署了BMM5c 裸金属机型、M5大规格内存机型等,单机最大具备3TB内存,单机单日可完成数百个仿真验证作业。通过云端规模优势、新代次优势等,综合效率相比本地自建提升50%
此次项目攻坚结束后,技术人员梳理了一张技术问题清单,上面列出了超过具体问题的解决方案。比如,如何通过内存优化的技术防止仿真过程的报错。
这些沉淀下来的经验,将用以服务更多合作方,更好地满足HPC领域存算分离的场景落地。
芯片、科研计算、生命科学……海量高性能算力是科技创新的助推剂,更多前沿探索,将乘“云”启航。
来源:腾讯云


免责声明

本平台所刊载的所有资料及图表仅供参考使用。刊载这些文档并不构成对任何股份的收购、购买、认购、抛售或持有的邀约或意图。投资者依据本网站提供的信息、资料及图表进行金融、证券等投资项目所造成的盈亏与本网站无关。除原创作品外,本平台所使用的文章、图片、视频及音乐属于原权利人所有,因客观原因,或会存在不当使用的情况,如部分文章或文章部分引用内容未能及时与原作者取得联系,或作者名称及原始出处标注错误等情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系及时处理,共同维护良好的网络创作环境。




芯通社

- SemiWebs -


专注半导体-手机通信-人工智能

请长按下面二维码关注芯通社


伙伴们

错过也许就是一辈子
还不快关注我们?






芯通社 专注半导体/手机通信/人工智能/区块链等科技领域!
评论
  • 在不断发展的电子元件领域,继电器——作为切换电路的关键设备,正在经历前所未有的技术变革。固态继电器(SSR)和机械继电器之间的争论由来已久。然而,从未来发展的角度来看,固态继电器正逐渐占据上风。本文将从耐用性、速度和能效三个方面,全面剖析固态继电器为何更具优势,并探讨其在行业中的应用与发展趋势。1. 耐用性:经久耐用的设计机械继电器:机械继电器依靠物理触点完成电路切换。然而,随着时间的推移,这些触点因电弧、氧化和材料老化而逐渐磨损,导致其使用寿命有限。因此,它们更适合低频或对切换耐久性要求不高的
    腾恩科技-彭工 2025-01-10 16:15 100浏览
  • 数字隔离芯片是现代电气工程师在进行电路设计时所必须考虑的一种电子元件,主要用于保护低压控制电路中敏感电子设备的稳定运行与操作人员的人身安全。其不仅能隔离两个或多个高低压回路之间的电气联系,还能防止漏电流、共模噪声与浪涌等干扰信号的传播,有效增强电路间信号传输的抗干扰能力,同时提升电子系统的电磁兼容性与通信稳定性。容耦隔离芯片的典型应用原理图值得一提的是,在电子电路中引入隔离措施会带来传输延迟、功耗增加、成本增加与尺寸增加等问题,而数字隔离芯片的目标就是尽可能消除这些不利影响,同时满足安全法规的要
    华普微HOPERF 2025-01-15 09:48 78浏览
  • ARMv8-A是ARM公司为满足新需求而重新设计的一个架构,是近20年来ARM架构变动最大的一次。以下是对ARMv8-A的详细介绍: 1. 背景介绍    ARM公司最初并未涉足PC市场,其产品主要针对功耗敏感的移动设备。     随着技术的发展和市场需求的变化,ARM开始扩展到企业设备、服务器等领域,这要求其架构能够支持更大的内存和更复杂的计算任务。 2. 架构特点    ARMv8-A引入了Execution State(执行状
    丙丁先生 2025-01-12 10:30 466浏览
  •   在信号处理过程中,由于信号的时域截断会导致频谱扩展泄露现象。那么导致频谱泄露发生的根本原因是什么?又该采取什么样的改善方法。本文以ADC性能指标的测试场景为例,探讨了对ADC的输出结果进行非周期截断所带来的影响及问题总结。 两个点   为了更好的分析或处理信号,实际应用时需要从频域而非时域的角度观察原信号。但物理意义上只能直接获取信号的时域信息,为了得到信号的频域信息需要利用傅里叶变换这个工具计算出原信号的频谱函数。但对于计算机来说实现这种计算需要面对两个问题: 1.
    TIAN301 2025-01-14 14:15 108浏览
  • 流量传感器是实现对燃气、废气、生活用水、污水、冷却液、石油等各种流体流量精准计量的关键手段。但随着工业自动化、数字化、智能化与低碳化进程的不断加速,采用传统机械式检测方式的流量传感器已不能满足当代流体计量行业对于测量精度、测量范围、使用寿命与维护成本等方面的精细需求。流量传感器的应用场景(部分)超声波流量传感器,是一种利用超声波技术测量流体流量的新型传感器,其主要通过发射超声波信号并接收反射回来的信号,根据超声波在流体中传播的时间、幅度或相位变化等参数,间接计算流体的流量,具有非侵入式测量、高精
    华普微HOPERF 2025-01-13 14:18 482浏览
  • 电动汽车(EV)正在改变交通运输,为传统内燃机提供更清洁、更高效的替代方案。这种转变的核心是电力电子和能源管理方面的创新,而光耦合器在其中发挥着关键作用。这些不起眼的组件可实现可靠的通信、增强安全性并优化电动汽车系统的性能,使其成为正在进行的革命中不可或缺的一部分。光耦合器,也称为光隔离器,是一种使用光传输电信号的设备。通过隔离高压和低压电路,光耦合器可确保安全性、减少干扰并保持信号完整性。这些特性对于电动汽车至关重要,因为精确控制和安全性至关重要。 光耦合器在电动汽车中的作用1.电池
    腾恩科技-彭工 2025-01-10 16:14 78浏览
  • 01. 什么是过程能力分析?过程能力研究利用生产过程中初始一批产品的数据,预测制造过程是否能够稳定地生产符合规格的产品。可以把它想象成一种预测。通过历史数据的分析,推断未来是否可以依赖该工艺持续生产高质量产品。客户可能会要求将过程能力研究作为生产件批准程序 (PPAP) 的一部分。这是为了确保制造过程能够持续稳定地生产合格的产品。02. 基本概念在定义制造过程时,目标是确保生产的零件符合上下规格限 (USL 和 LSL)。过程能力衡量制造过程能多大程度上稳定地生产符合规格的产品。核心概念很简单:
    优思学院 2025-01-12 15:43 522浏览
  • Snyk 是一家为开发人员提供安全平台的公司,致力于协助他们构建安全的应用程序,并为安全团队提供应对数字世界挑战的工具。以下为 Snyk 如何通过 CircleCI 实现其“交付”使命的案例分析。一、Snyk 的挑战随着客户对安全工具需求的不断增长,Snyk 的开发团队面临多重挑战:加速交付的需求:Snyk 的核心目标是为开发者提供更快、更可靠的安全解决方案,但他们的现有 CI/CD 工具(TravisCI)运行缓慢,无法满足快速开发和部署的要求。扩展能力不足:随着团队规模和代码库的不断扩大,S
    艾体宝IT 2025-01-10 15:52 164浏览
  • 新年伊始,又到了对去年做总结,对今年做展望的时刻 不知道你在2024年初立的Flag都实现了吗? 2025年对自己又有什么新的期待呢? 2024年注定是不平凡的一年, 一年里我测评了50余块开发板, 写出了很多科普文章, 从一个小小的工作室成长为科工公司。 展望2025年, 中国香河英茂科工, 会继续深耕于,具身机器人、飞行器、物联网等方面的研发, 我觉得,要向未来学习未来, 未来是什么? 是掌握在孩子们生活中的发现,和精历, 把最好的技术带给孩子,
    丙丁先生 2025-01-11 11:35 457浏览
  • 随着数字化的不断推进,LED显示屏行业对4K、8K等超高清画质的需求日益提升。与此同时,Mini及Micro LED技术的日益成熟,推动了间距小于1.2 Pitch的Mini、Micro LED显示屏的快速发展。这类显示屏不仅画质卓越,而且尺寸适中,通常在110至1000英寸之间,非常适合应用于电影院、监控中心、大型会议、以及电影拍摄等多种室内场景。鉴于室内LED显示屏与用户距离较近,因此对于噪音控制、体积小型化、冗余备份能力及电气安全性的要求尤为严格。为满足这一市场需求,开关电源技术推出了专为
    晶台光耦 2025-01-13 10:42 498浏览
  • 食物浪费已成为全球亟待解决的严峻挑战,并对环境和经济造成了重大影响。最新统计数据显示,全球高达三分之一的粮食在生产过程中损失或被无谓浪费,这不仅导致了资源消耗,还加剧了温室气体排放,并带来了巨大经济损失。全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,艾迈斯欧司朗基于AS7341多光谱传感器开发的创新应用来解决食物浪费这一全球性难题。其多光谱传感解决方案为农业与食品行业带来深远变革,该技术通过精确判定最佳收获时机,提升质量控制水平,并在整个供应链中有效减少浪费。 在2024
    艾迈斯欧司朗 2025-01-14 18:45 61浏览
  • 根据Global Info Research(环洋市场咨询)项目团队最新调研,预计2030年全球无人机电池和电源产值达到2834百万美元,2024-2030年期间年复合增长率CAGR为10.1%。 无人机电池是为无人机提供动力并使其飞行的关键。无人机使用的电池类型因无人机的大小和型号而异。一些常见的无人机电池类型包括锂聚合物(LiPo)电池、锂离子电池和镍氢(NiMH)电池。锂聚合物电池是最常用的无人机电池类型,因为其能量密度高、设计轻巧。这些电池以输出功率大、飞行时间长而著称。不过,它们需要
    GIRtina 2025-01-13 10:49 182浏览
  • 随着通信技术的迅速发展,现代通信设备需要更高效、可靠且紧凑的解决方案来应对日益复杂的系统。中国自主研发和制造的国产接口芯片,正逐渐成为通信设备(从5G基站到工业通信模块)中的重要基石。这些芯片凭借卓越性能、成本效益及灵活性,满足了现代通信基础设施的多样化需求。 1. 接口芯片在通信设备中的关键作用接口芯片作为数据交互的桥梁,是通信设备中不可或缺的核心组件。它们在设备内的各种子系统之间实现无缝数据传输,支持高速数据交换、协议转换和信号调节等功能。无论是5G基站中的数据处理,还是物联网网关
    克里雅半导体科技 2025-01-10 16:20 444浏览
  • 随着全球向绿色能源转型的加速,对高效、可靠和环保元件的需求从未如此强烈。在这种背景下,国产固态继电器(SSR)在实现太阳能逆变器、风力涡轮机和储能系统等关键技术方面发挥着关键作用。本文探讨了绿色能源系统背景下中国固态继电器行业的前景,并强调了2025年的前景。 1.对绿色能源解决方案日益增长的需求绿色能源系统依靠先进的电源管理技术来最大限度地提高效率并最大限度地减少损失。固态继电器以其耐用性、快速开关速度和抗机械磨损而闻名,正日益成为传统机电继电器的首选。可再生能源(尤其是太阳能和风能
    克里雅半导体科技 2025-01-10 16:18 325浏览
  • PNT、GNSS、GPS均是卫星定位和导航相关领域中的常见缩写词,他们经常会被用到,且在很多情况下会被等同使用或替换使用。我们会把定位导航功能测试叫做PNT性能测试,也会叫做GNSS性能测试。我们会把定位导航终端叫做GNSS模块,也会叫做GPS模块。但是实际上他们之间是有一些重要的区别。伴随着技术发展与越发深入,我们有必要对这三个词汇做以清晰的区分。一、什么是GPS?GPS是Global Positioning System(全球定位系统)的缩写,它是美国建立的全球卫星定位导航系统,是GNSS概
    德思特测试测量 2025-01-13 15:42 491浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦