腾讯云,盯上了芯片设计赛道

芯通社 2023-01-18 10:22


除了芯片设计产业,腾讯也将重点布局云渲染、生命科学等多个高性能计算赛道。


文|游勇
编|石兆


随着上云和用云的需求逐渐深化,云厂商在积极往行业渗透,打造最佳客户实践。


不久前,腾讯云联合速石科技为芯片设计企业燧原科技,打造了一个面向HPC(高性能计算)场景的行业解决方案。该方案基于腾讯和速石科技共建的一站式芯片设计研发云平台,快速自动地调用腾讯云IaaS资源构建仿真环境,满足了燧原科技的业务弹性需求,提升了整体的项目研发效率。


“它是一个可见的有巨大潜力的蓝海”,腾讯云高性能计算行业高级经理Kevin说,腾讯云会在这方面加大投入。据数智前线获悉,除了芯片设计产业,腾讯也将重点布局云渲染、生命科学等多个高性能计算赛道。



01 

芯片设计产业上云正在成为趋势


燧原科技作为国内领先的AI芯片设计企业,当初创造过仅用18个月就将技术门槛很高的AI训练芯片一次性流片成功的纪录。


但随着工艺制程越来越先进,燧原也面临着IT资源和效率无法满足业务需要的矛盾。


芯片的研发周期通常都比较紧张,尤其是大芯片,中后期经常是按天来做任务排期。而行业内普遍采用的是自建IDC(数据中心),Kevin告诉数智前线,这么做主要是当时的芯片工艺没那么先进,对算力的需求也没那么大。


而且,燧原科技IT负责人Vincent透露,芯片项目在前期会做大量论证和规划,包括需要多少算力和存储。但问题在于,在项目推进过程中经常会有变更,包括制程的改进、功能变化及性能指标调整。这种变更会造成大量突发的算力需求。如果要通过采买服务器或者是租借服务器的方式来满足需求,从部署、上线测试,需要相当长的一段时间业务团队才能用上这些算力,影响研发进度。


这样的效率显然是无法接受的。尤其是这几年的疫情导致采买硬件的周期不可控,但芯片项目周期是明确的,这就意味着,芯片设计企业要面临一个不确定的IT资产的风险。比如一天之内要准备一两百台服务器,只有上云才能够做到,如果是原有的IT流程,从确认服务器型号到采购,从安装服务器上机柜到机房运维,最快要8到12周,而且IT资金占用成本太高。


“这是我们上云的一个契机吧。”Vincent提到。


大芯片设计周期超过12个月,包括产品定义、前端设计、IP验证、SOC验证、综合、布局布线等多个阶段,不同阶段对算力的需求不相同。验证环节是算力使用的高峰期。所以,燧原也选择将部分仿真验证搬到云上,“前端IP验证的过程基本都上云了,后续我们肯定是希望把整个弹性的部分尽量都上云。”燧原科技项目负责人Eli说。


燧原有大量弹性作业的需求,比如需要在同一个时间配置数百台的服务器,对稳定性和实时响应的要求非常高。目前,腾讯云联合速石可以做到让客户在1小时内快速把仿真作业跑起来,让客户在有限时间更频繁地去跑仿真和验证任务,提高流片前的成功率。同时基于速石对业务场景优化和CAD方面的能力,帮助燧原整体Job运行时间降低了50%,加快了整个项目的研发进度。


而且,芯片设计行业如今已经进入到7nm甚至3nm时代,一颗芯片上会有几百亿级的晶体管,它对算力的需求会大大增加。这就意味着,芯片企业在高峰期的算力需求非常明显,燧原等芯片设计企业开始向云厂商寻求弹性的算力解决方案。


“上云是一个行业趋势。”Vincent说,“都在尝试,但全部都上云还需要一些时间。”



02 

安全、效率和成本的铁三角


芯片设计企业最核心的是各种芯片代码和知识产权,相比于很多行业,这个赛道对数据安全有着更高的要求。


燧原科技在上云的态度是,所有的数据要放在本地,只有弹性的部分在云上,中间不做数据存储。所以,腾讯云和速石在燧原的建议和启发下,大家探索出了“存算分离”的混合云计算架构,并且花了五六个月时间去验证。


它能够在保障核心数据、代码存储在本地的前提下,通过速石的调度平台与本地计算集群打通,使得计算任务能够灵活选取本地或云端算力队列。


速石科技技术总监陈琳涛透露,此次采用的存算分离方案本质上是一个混合云方案,在燧原的项目中,该方案面临进一步的技术挑战,例如在整个混合云建设架构上,对网络的时延、带宽的吞吐率和效率的要求都非常高,这就要求三方共同在这个项目里寻求最优的架构布置方式。


Vincent坦言,因为做了存算分离的架构,数据在本地,所以企业对安全的担忧会有降低。


以前的存算分离,是在同一自治域内,比如都在腾讯云上实现。但现在燧原的方案是在两个自治域内,混合云部署,这增加了物理距离,而且各种接口的调度变得更加复杂,更加考验云厂商和合作伙伴的能力。而速石平台不改变用户的使用习惯,让使用者无感地调用云资源,对资源的调用更加便捷,减少上云的学习成本。


这也是云厂商在深入行业时经常遇到的难题。腾讯云和速石之前考虑的是直接把客户的数据上云,方便高效。但沟通之后发现,芯片客户对数据安全的要求,还是采用混合云存算分离的架构最为合适。腾讯云目前仅做算力的支撑,速石平台提供自动化高效的环境构建,燧原的知识代码等企业核心数据都是放在线下。不过,在Kevin看来,有些不敏感的数据理论上可以上云,通过缓存技术来提高仿真效率。


Kevin告诉数智前线,早期初创企业,存量数据和存量资产少,对安全没那么大顾虑,使用全云方案是首选,但规模大了之后,很多企业则倾向采用混合云架构。


而且,很多芯片设计企业以前就有很多IDC资产,如何把原有的资源利用起来,也是企业的诉求,可以比较好的平衡既有资产的投资投入,同时又兼顾云的弹性、灵活、快捷、便捷。“所以从这个角度上来说,混合云是目前来看一个比较好的选择。”


像燧原并没有将全部业务搬到云上,其中一部分依然用到了本地的算力,比如项目前期运行还是更适合本地已有的算力。事实上,很多芯片设计企业还是以本地为主,云上做弹性的部分。


混合云的部署方式,对IT成本的节约也在逐渐成为共识。


燧原算过一笔账,如果自己采买服务器、自建机房,按照三五年的周期财务进行对比,每个月均摊的成本会比每个月上云均摊的成本更低。但如果从节省时间和人力、提升效率以及整体的综合成本考虑,上云的优势还是非常明显。因为云不需要水电,也不需要自己运维,这部分都是省下来的,而且快速部署和弹性扩容的能力,能让昂贵的研发人员提高效率,缩短研发周期。


除了采用存算分离的架构,腾讯云联合速石也为燧原等芯片设计客户打造了从终端到云端的完整安全方案:在终端,腾讯云的零信任安全的iOA方案,可以保障燧原全国各地的研发人员,能无缝体验一致的仿真环境,同时确保终端安全、信息保护以及一些漏洞的保护。


在云端,使用了腾讯的主机安全,保障整个计算环境是安全授信的,通过这个部分确保整个计算过程不会有入侵、数据泄露、勒索病毒等等的问题。甚至是传输层面,腾讯云与燧原之间有一条超大带宽的网络保障,确保了整个传输的通道安全可信。


不难发现,通过存算分离的架构和混合云的部署方案,既满足了对弹性算力和效率的需要,又能满足节约成本和数据安全的需要。而这些都是企业在上云和用云过程中最在意的东西,也是云厂商需要重视和解决的方面。


目前,“存算分离”的混合云架构已经帮助燧原节省了可观的IT投入,任务并发量可以通过云端弹性同步提高,同时部分仿真周期缩短30%-50%。


当然,Eli也提到,现阶段使用这一套三方共创的存算分离方案满足了部分业务在弹性算力使用量上的需求去做的各种定义。而下一步我们还要进一步优化,提升使用效率,“如何更高效的利用云上机器,如何契合业务使用进行高效优化,并迁移更多的业务,这个是我们接下来要做的事情。”


不难发现,通过存算分离的架构和混合云的部署方案,既满足了对弹性算力和效率的需要,又能满足节约成本和数据安全的需要。


未来,GPU加速芯片仿真及提供智能芯片设计优化是行业的新方向,腾讯云也将与国内外EDA软件合作共建加速仿真生态,为芯片仿真作业带来数倍的加速并提供AI智能PPA优化能力。同时腾讯云也在尝试探讨云端开发,把芯片设计前流程部署云上,基于全云构建芯片设计流程,进一步提升大芯片研发设计效率。在高并发场景下,腾讯云通过遨驰云原生操作系统的海量大规模调度能力,及丰富多元的裸金属实例、 GPU 实例,在芯片的仿真验证和性能对比测试环节,可一站式完成多代次,多卡型的验证工作,节省自建购买费用,极大提升部署效率和测试效率。




©本文为数智前线(szqx1991)原创内容,经授权转载

部分图片来源:pixabay.com


免责声明

本平台所刊载的所有资料及图表仅供参考使用。刊载这些文档并不构成对任何股份的收购、购买、认购、抛售或持有的邀约或意图。投资者依据本网站提供的信息、资料及图表进行金融、证券等投资项目所造成的盈亏与本网站无关。除原创作品外,本平台所使用的文章、图片、视频及音乐属于原权利人所有,因客观原因,或会存在不当使用的情况,如部分文章或文章部分引用内容未能及时与原作者取得联系,或作者名称及原始出处标注错误等情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系及时处理,共同维护良好的网络创作环境。




芯通社

- SemiWebs -


专注半导体-手机通信-人工智能

请长按下面二维码关注芯通社


伙伴们

错过也许就是一辈子
还不快关注我们?






芯通社 专注半导体/手机通信/人工智能/区块链等科技领域!
评论
  •           近日受某专业机构邀请,参加了官方举办的《广东省科技创新条例》宣讲会。在与会之前,作为一名技术工作者一直认为技术的法例都是保密和侵权方面的,而潜意识中感觉法律有束缚创新工作的进行可能。通过一个上午学习新法,对广东省的科技创新有了新的认识。广东是改革的前沿阵地,是科技创新的沃土,企业是创新的主要个体。《广东省科技创新条例》是广东省为促进科技创新、推动高质量发展而制定的地方性法规,主要内容包括: 总则:明确立法目
    广州铁金刚 2025-02-28 10:14 103浏览
  • 在物联网领域中,无线射频技术作为设备间通信的核心手段,已深度渗透工业自动化、智慧城市及智能家居等多元场景。然而,随着物联网设备接入规模的不断扩大,如何降低运维成本,提升通信数据的传输速度和响应时间,实现更广泛、更稳定的覆盖已成为当前亟待解决的系统性难题。SoC无线收发模块-RFM25A12在此背景下,华普微创新推出了一款高性能、远距离与高性价比的Sub-GHz无线SoC收发模块RFM25A12,旨在提升射频性能以满足行业中日益增长与复杂的设备互联需求。值得一提的是,RFM25A12还支持Wi-S
    华普微HOPERF 2025-02-28 09:06 143浏览
  • 美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?‌美国加州CEC能效认证与美国DOE能效认证在多个方面存在显著差异‌。认证范围和适用地区‌CEC能效认证‌:仅适用于在加利福尼亚州销售的电器产品。CEC认证的范围包括制冷设备、房间空调、中央空调、便携式空调、加热器、热水器、游泳池加热器、卫浴配件、光源、应急灯具、交通信号模块、灯具、洗碗机、洗衣机、干衣机、烹饪器具、电机和压缩机、变压器、外置电源、消费类电子设备
    张工nx808593 2025-02-27 18:04 120浏览
  • 在2024年的科技征程中,具身智能的发展已成为全球关注的焦点。从实验室到现实应用,这一领域正以前所未有的速度推进,改写着人类与机器的互动边界。这一年,我们见证了具身智能技术的突破与变革,它不仅落地各行各业,带来新的机遇,更在深刻影响着我们的生活方式和思维方式。随着相关技术的飞速发展,具身智能不再仅仅是一个技术概念,更像是一把神奇的钥匙。身后的众多行业,无论愿意与否,都像是被卷入一场伟大变革浪潮中的船只,注定要被这股汹涌的力量重塑航向。01为什么是具身智能?为什么在中国?最近,中国具身智能行业的进
    艾迈斯欧司朗 2025-02-28 15:45 221浏览
  • 一、VSM的基本原理震动样品磁强计(Vibrating Sample Magnetometer,简称VSM)是一种灵敏且高效的磁性测量仪器。其基本工作原理是利用震动样品在探测线圈中引起的变化磁场来产生感应电压,这个感应电压与样品的磁矩成正比。因此,通过测量这个感应电压,我们就能够精确地确定样品的磁矩。在VSM中,被测量的样品通常被固定在一个震动头上,并以一定的频率和振幅震动。这种震动在探测线圈中引起了变化的磁通量,从而产生了一个交流电信号。这个信号的幅度和样品的磁矩有着直接的关系。因此,通过仔细
    锦正茂科技 2025-02-28 13:30 100浏览
  • 更多生命体征指标风靡的背后都只有一个原因:更多人将健康排在人生第一顺位!“AGEs,也就是晚期糖基化终末产物,英文名Advanced Glycation End-products,是存在于我们体内的一种代谢产物” 艾迈斯欧司朗亚太区健康监测高级市场经理王亚琴说道,“相信业内的朋友都会有关注,最近该指标的热度很高,它可以用来评估人的生活方式是否健康。”据悉,AGEs是可穿戴健康监测领域的一个“萌新”指标,近来备受关注。如果站在学术角度来理解它,那么AGEs是在非酶促条件下,蛋白质、氨基酸
    艾迈斯欧司朗 2025-02-27 14:50 400浏览
  • RGB灯光无法同步?细致的动态光效设定反而成为产品客诉来源!随着科技的进步和消费者需求变化,电脑接口设备单一功能性已无法满足市场需求,因此在产品上增加「动态光效」的形式便应运而生,藉此吸引消费者目光。这种RGB灯光效果,不仅能增强电脑周边产品的视觉吸引力,还能为用户提供个性化的体验,展现独特自我风格。如今,笔记本电脑、键盘、鼠标、鼠标垫、耳机、显示器等多种电脑接口设备多数已配备动态光效。这些设备的灯光效果会随着音乐节奏、游戏情节或使用者的设置而变化。想象一个画面,当一名游戏玩家,按下电源开关,整
    百佳泰测试实验室 2025-02-27 14:15 137浏览
  • 振动样品磁强计是一种用于测量材料磁性的精密仪器,广泛应用于科研、工业检测等领域。然而,其测量准确度会受到多种因素的影响,下面我们将逐一分析这些因素。一、温度因素温度是影响振动样品磁强计测量准确度的重要因素之一。随着温度的变化,材料的磁性也会发生变化,从而影响测量结果的准确性。因此,在进行磁性测量时,应确保恒温环境,以减少温度波动对测量结果的影响。二、样品制备样品的制备过程同样会影响振动样品磁强计的测量准确度。样品的形状、尺寸和表面处理等因素都会对测量结果产生影响。为了确保测量准确度,应严格按照规
    锦正茂科技 2025-02-28 14:05 134浏览
  • 1,微软下载免费Visual Studio Code2,安装C/C++插件,如果无法直接点击下载, 可以选择手动install from VSIX:ms-vscode.cpptools-1.23.6@win32-x64.vsix3,安装C/C++编译器MniGW (MinGW在 Windows 环境下提供类似于 Unix/Linux 环境下的开发工具,使开发者能够轻松地在 Windows 上编写和编译 C、C++ 等程序.)4,C/C++插件扩展设置中添加Include Path 5,
    黎查 2025-02-28 14:39 141浏览
  •         近日,广电计量在聚焦离子束(FIB)领域编写的专业著作《聚焦离子束:失效分析》正式出版,填补了国内聚焦离子束领域实践性专业书籍的空白,为该领域的技术发展与知识传播提供了重要助力。         随着芯片技术不断发展,芯片的集成度越来越高,结构也日益复杂。这使得传统的失效分析方法面临巨大挑战。FIB技术的出现,为芯片失效分析带来了新的解决方案。它能够在纳米尺度上对芯片进行精确加工和分析。当芯
    广电计量 2025-02-28 09:15 116浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦