最近有个叫SCALE的工具出现了,据说有了它CUDA程序就能跑在AMD GPU上,而且比以前那些兼容工具都高效,英伟达危?

上周末,英国初创企业Spectral Compute宣布推出一个名为SCALE的GPGPU工具链:主要作用是能够让CUDA程序直接跑在AMD GPU上,不需要进行代码修改——此事最早应该是国外媒体Phoronix报道的。

SCALE在此扮演的主要角色是,针对AMD处理器自动编译CUDA代码。换句话说,也就是原本给英伟达GPU写的软件,借助SCALE可以很方便地切换到其他非英伟达平台,不需要进行代码移植,而且据说是完全遵守EULA最终用户许可协议的。

 

SCALE工具怎么工作的?

从外媒的报道来看,SCALE面向非英伟达GPU——现在应该确切为AMD GPU,编译CUDA代码,生成binary;实现了CUDA兼容,包括“对于Inline PTX asm以及nvcc C++的支持”;生成的代码实现了AMD ROCm 6的可用。

Phoronix在报道中提到,SCALE的能力令其成为了英伟达nvcc编译器的“即插即用替代品”,“还有个‘扮演’NVIDIA CUDA Toolkit的runtime”;

虽然我们之前也见过不少所谓“CUDA兼容”的工具,但那些软件和方案一般都是把CUDA代码转义为其他语言。这次发布的SCALE则是直接编译CUDA源码,特别针对AMD GPU。官网总结SCALE的工作方式大致上是这样的:

介绍中提到,SCALE解决方案用到了一些开源LLVM组件。据说这套方案不仅高效,而且使用起来也很友好,相比ZLUDA提供更加无缝和高集成度的解决方案。ZLUDA应该算得上是行业内相对知名的、让CUDA库最终能够为AMD ROCm服务的开源移植项目。

Spectral Compute表示SCALE开发了长达7年时间。据说SCALE已经成功通过了包含Blender, Llama-cpp, XGboost, FAISS, GOMC, STDGPU, Hashcat, 乃至NVIDIA Thrust在内的软件测试;Spectral Compute自己也做了针对AMD的RDNA2/RDNA3架构GPU测试,以及RDNA1的基础测试,Vega架构的支持则还在进行中。

 

SCALE有什么价值?

这里援引Spectral Compute公司首席执行官Michael Sondergaard的说法:“我们相信,写一次代码就让它跑在任何硬件平台,应该成为可能。对于CPU代码而言,这原本就是个存在多年的事实,为什么GPU就不行呢?我们尝试通过桥接流行的CUDA编程语言与其他硬件供应商的兼容性,以直接解决这个问题。”

所以口号是“one codebase, multiple vendors”——也就是写一次基础代码,就面向多供应商。这应该也是绝大部分HPC与AI应用开发者一直以来期望做到的。毕竟用户总是希望有更多选择,而不是绑定在一个供应商身上的。

比如单就AI来看,Intel过去半年宣传自家的AI生态,就在反复强调应该给用户“选择”,要打造“开放”和“开源”的生态——所以Intel的oneAPI甚至支持英伟达GPU,OpenVINO推理引擎通过插件可支持Arm。我们当时评论说,这实际是在英伟达形成排他且强大生态以后,其他芯片企业及供应商要发展的不二之选——AI这么大的蛋糕,大家总是希望能一起分食的。

外媒的评价普遍集中在“打破英伟达软件栈的统治地位”,以及GPU应当构建起开源环境,实现互连接、互操作性等话题。SCALE则作为这种媒介,可能某种程度打破了英伟达的限制,让CUDA从“排他”走向相对更广泛的可用范围。

需要注意的是SCALE本身并不是开源的,只不过用户仍然可以通过免费软件授权的方式来使用。微软Copilot认为,SCALE没有违反任何相关协议却实现了CUDA兼容性,可能与其使用诸多开源组件——比如LLVM、也不依赖于英伟达的代码有关;另外借助自家的runtime确保兼容性也遵循了授权协议。

最后还是值得提一句,虽然很多媒体普遍认为CUDA在英伟达统治的AI市场上也扮演极其重要的角色,CUDA也作为英伟达推出诸多加速库、微服务和上层应用的基础,但在我们过去半年接触的AI芯片企业中,很多参与者都认为CUDA的影响力或扮演的角色在AI时代正在弱化。

这里援引一段今年Intel Vision媒体预沟通会上,Intel发言人说的话:“在PyTorch之下,的确有很多开发者选择来自单一供应商、专用的CUDA”,“但行业正在朝着寻找替代方案、更多选择的路子上走,典型的比如Triton(由OpenAI开发,也用于GPU编程);要确保能够以开放的方式、像是用MLIR,让所有的kernel跑起来。”

另外“如果我们去看软件栈的下一个层级,像是OpenVINO这样的inference runtime,大概95%的开发者和数据科学家都工作在这个层级或更高层级。”“只有很少一部分人是工作在CUDA或者oneAPI层级的。”

“这个层级固然在优化和支持上非常重要,但毕竟会需要用到它的开发者少。”“而且我们认为,未来这部分群体还会变得更少。”“尤其现在随着抽象层接入,Triton语言、MLIR能力、各种编译基础,实现跨架构更广泛的支持,编程模型更低层级的角色不会那么重要。”

当然,CUDA也不单是用在AI生态上,以及要考虑这是英伟达竞争对手的发言,在此仅供参考。而且还需要注意的是,当前英伟达于HPC和AI市场的护城河优势并不单纯在CUDA上,包括NVLink, NVSwitch等在内的硬件及系统生态亦足够为竞争对手感到汗颜。

虽然到目前为止,我们也还没有看到英伟达对于SCALE的态度,但此前英伟达对于任何借助CUDA兼容工具跑在其他硬件上的方案,显然都是没什么好感的。比如说今年3月外媒报道英伟达在CUDA的EULA协议中出现新的警示,针对的应该就是SCALE这样的工具。毕竟谁希望自己多年培育出的生态,最后为他人做了嫁衣呢?

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 只有竞争才有发展,垄断是行不通的
阅读全文,请先
您可能感兴趣
此次仲裁的核心争议在于,杨植麟和张宇韬在未取得循环智能投资方的同意豁免书之前,便启动了融资并创立了月之暗面。2024年3月,月之暗面旗下AI应用产品Kimi大火,甚至出现二级市场Kimi概念股。
有人评论:AlphaFold-3解决了长距离依赖问题,还能预测RNA等分子结构,甚至细胞内部生化过程,这简直就是生物信息学领域的一场革命。
英国以向俄罗斯军事工业提供支持为由,宣布对多国实体及个人实施制裁,其中包括10家来自中国大陆和香港的企业。
这款芯片不仅适用于AI汽车,还可以应用于AI机器人和未来可能的飞行汽车领域,体现了小鹏在智能化领域的雄心壮志。据悉,图灵AI芯片的算力非常强大,一颗芯片的算力相当于三颗主流智驾芯片。这使得它能够同时驱动自动驾驶系统、智能座舱大模型等多种应用。
汪洋特别提到,第十三届芯原CEO论坛五大预测之一是2028年用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。目前,推理和端侧微调也是芯原重点关注的领域,同时也希望在这一发展趋势中寻找新的机遇。 
三星电子的晶圆代工业务亏损重要原因之一是错失HBM风口和尖端制程良率问题。作为全球最大的存储芯片制造商,三星电子巅峰时期曾独占全球45%以上的内存市场。然而,近两年来,三星电子在先进制程芯片及AI芯片领域的进展缓慢。
为了更直观地了解FinFET到GAAFET架构世代的差异,本文利用高倍率的电子显微镜影像进行深入的探讨与分析,观察其于结构微观层面上的特征...
汽车技术领域正处于关键的转折点,其未来依托于动态且适应性强的系统,并可通过软件不断提升驾驶体验。
连接标准联盟很高兴宣布 Matter 1.4 现已正式发布,可供设备制造商和生态平台开发应用。这次更新是Matter生态系统迈出的重要一步。Matter 1.4带来了一系列增强功能......
根植雄厚研发实力及物联网领域的深耕实践,汇顶科技面向新兴车载互联应用全力进击。旗下首款高可靠性、高性能车规级低功耗蓝牙SoC——GR5405,已成功通过AEC-Q100 Grade 2认证。
据36氪报道,保时捷负责采购的执行董事傅伦轲(Barbara Frenkel)向其透露,“我正在与电池、ADAS、互联、娱乐系统等方向的中国供应商接触,希望建立新的合作。”今年前三季度,保时捷在中国市
台积电7nm停供中国大陆!集微网报道称,从多个消息源获悉,台积电已经向目前所有中国大陆AI芯片客户发送正式电子邮件,宣布自下周(11月11日)起,将暂停向中国大陆AI/GPU客户供应所有7纳米(nm)
互联网与科技企业每日重点资讯文 | 苏丁巨头动向歌尔股份被曝成为苹果2026年两款新品供应商天风国际分析师郭明錤爆料称,苹果将首次进军智能家居IP Camera(网络摄像头)市场,计划2026年量产,
东芝电子今日宣布,最新开发出一款用于车载牵引逆变器[1]的裸片[2]1200 V碳化硅(SiC)MOSFET“X5M007E120”,其创新的结构可实现低导通电阻和高可靠性。X5M007E120现已开
新原型的耐用性增强意味着它可以重复拉伸超过10000次。美通社消息,全球领先的显示技术创新者LG Display宣布,推出了全球首款可拉伸显示器,其伸长率可达50%,是业内最高的伸长率。可拉伸显示器被
 会 议 预 告  活动倒计时 8 天11月20-21日 | 行家说新型显示全产业链年会近期,点莘技术、秋水半导体、纳视智能、睿励科学仪器等4家Micro LED相关企业相继完成新一轮融资,单笔金额最
芯片超人现有1600平米芯片智能仓储基地,现货库存型号1000+,品牌高达100种,5000万颗现货库存芯片,总重量10吨,库存价值高达1亿+。同时,芯片超人在深圳设有独立实验室,每颗物料均安排QC质
中国新能源车市场的变化速度用“日新月异”来形容毫不夸张,短短几年时间,车企们的发力方向就从“冰箱彩电大沙发”的卷配置,到猛堆电池的卷续航,再到蜂拥而上卷智能化。各种方向的技能树都没少点,但由于补能效率
近日,市场中有关“美国商务部要求台积电暂停对中国大陆AI芯片企业供货7nm及以下芯片代工服务”的消息不断蔓延。台积电于11月8日表示:作为一家守法的公司,一向致力于遵循所有可适用的法令与法规,包括可适
11月11日,据路透社消息,华为技术有限公司要求美国法官驳回一项针对其的联邦起诉书的大部分内容。该起诉书指控华为试图窃取美国竞争对手的技术机密,并就其相关业务误导银行。           报道称,华