以后CUDA程序直接跑在AMD显卡上：英伟达护城河没了？-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

最近有个叫SCALE的工具出现了，据说有了它CUDA程序就能跑在AMD GPU上，而且比以前那些兼容工具都高效，英伟达危？

上周末，英国初创企业Spectral Compute宣布推出一个名为SCALE的GPGPU工具链：主要作用是能够让CUDA程序直接跑在AMD GPU上，不需要进行代码修改——此事最早应该是国外媒体Phoronix报道的。

SCALE在此扮演的主要角色是，针对AMD处理器自动编译CUDA代码。换句话说，也就是原本给英伟达GPU写的软件，借助SCALE可以很方便地切换到其他非英伟达平台，不需要进行代码移植，而且据说是完全遵守EULA最终用户许可协议的。

SCALE工具怎么工作的？

从外媒的报道来看，SCALE面向非英伟达GPU——现在应该确切为AMD GPU，编译CUDA代码，生成binary；实现了CUDA兼容，包括“对于Inline PTX asm以及nvcc C++的支持”；生成的代码实现了AMD ROCm 6的可用。

Phoronix在报道中提到，SCALE的能力令其成为了英伟达nvcc编译器的“即插即用替代品”，“还有个‘扮演’NVIDIA CUDA Toolkit的runtime”；

虽然我们之前也见过不少所谓“CUDA兼容”的工具，但那些软件和方案一般都是把CUDA代码转义为其他语言。这次发布的SCALE则是直接编译CUDA源码，特别针对AMD GPU。官网总结SCALE的工作方式大致上是这样的：

介绍中提到，SCALE解决方案用到了一些开源LLVM组件。据说这套方案不仅高效，而且使用起来也很友好，相比ZLUDA提供更加无缝和高集成度的解决方案。ZLUDA应该算得上是行业内相对知名的、让CUDA库最终能够为AMD ROCm服务的开源移植项目。

Spectral Compute表示SCALE开发了长达7年时间。据说SCALE已经成功通过了包含Blender, Llama-cpp, XGboost, FAISS, GOMC, STDGPU, Hashcat, 乃至NVIDIA Thrust在内的软件测试；Spectral Compute自己也做了针对AMD的RDNA2/RDNA3架构GPU测试，以及RDNA1的基础测试，Vega架构的支持则还在进行中。

SCALE有什么价值？

这里援引Spectral Compute公司首席执行官Michael Sondergaard的说法：“我们相信，写一次代码就让它跑在任何硬件平台，应该成为可能。对于CPU代码而言，这原本就是个存在多年的事实，为什么GPU就不行呢？我们尝试通过桥接流行的CUDA编程语言与其他硬件供应商的兼容性，以直接解决这个问题。”

所以口号是“one codebase, multiple vendors”——也就是写一次基础代码，就面向多供应商。这应该也是绝大部分HPC与AI应用开发者一直以来期望做到的。毕竟用户总是希望有更多选择，而不是绑定在一个供应商身上的。

比如单就AI来看，Intel过去半年宣传自家的AI生态，就在反复强调应该给用户“选择”，要打造“开放”和“开源”的生态——所以Intel的oneAPI甚至支持英伟达GPU，OpenVINO推理引擎通过插件可支持Arm。我们当时评论说，这实际是在英伟达形成排他且强大生态以后，其他芯片企业及供应商要发展的不二之选——AI这么大的蛋糕，大家总是希望能一起分食的。

外媒的评价普遍集中在“打破英伟达软件栈的统治地位”，以及GPU应当构建起开源环境，实现互连接、互操作性等话题。SCALE则作为这种媒介，可能某种程度打破了英伟达的限制，让CUDA从“排他”走向相对更广泛的可用范围。

需要注意的是SCALE本身并不是开源的，只不过用户仍然可以通过免费软件授权的方式来使用。微软Copilot认为，SCALE没有违反任何相关协议却实现了CUDA兼容性，可能与其使用诸多开源组件——比如LLVM、也不依赖于英伟达的代码有关；另外借助自家的runtime确保兼容性也遵循了授权协议。

最后还是值得提一句，虽然很多媒体普遍认为CUDA在英伟达统治的AI市场上也扮演极其重要的角色，CUDA也作为英伟达推出诸多加速库、微服务和上层应用的基础，但在我们过去半年接触的AI芯片企业中，很多参与者都认为CUDA的影响力或扮演的角色在AI时代正在弱化。

这里援引一段今年Intel Vision媒体预沟通会上，Intel发言人说的话：“在PyTorch之下，的确有很多开发者选择来自单一供应商、专用的CUDA”，“但行业正在朝着寻找替代方案、更多选择的路子上走，典型的比如Triton（由OpenAI开发，也用于GPU编程）；要确保能够以开放的方式、像是用MLIR，让所有的kernel跑起来。”

另外“如果我们去看软件栈的下一个层级，像是OpenVINO这样的inference runtime，大概95%的开发者和数据科学家都工作在这个层级或更高层级。”“只有很少一部分人是工作在CUDA或者oneAPI层级的。”

“这个层级固然在优化和支持上非常重要，但毕竟会需要用到它的开发者少。”“而且我们认为，未来这部分群体还会变得更少。”“尤其现在随着抽象层接入，Triton语言、MLIR能力、各种编译基础，实现跨架构更广泛的支持，编程模型更低层级的角色不会那么重要。”

当然，CUDA也不单是用在AI生态上，以及要考虑这是英伟达竞争对手的发言，在此仅供参考。而且还需要注意的是，当前英伟达于HPC和AI市场的护城河优势并不单纯在CUDA上，包括NVLink, NVSwitch等在内的硬件及系统生态亦足够为竞争对手感到汗颜。

虽然到目前为止，我们也还没有看到英伟达对于SCALE的态度，但此前英伟达对于任何借助CUDA兼容工具跑在其他硬件上的方案，显然都是没什么好感的。比如说今年3月外媒报道英伟达在CUDA的EULA协议中出现新的警示，针对的应该就是SCALE这样的工具。毕竟谁希望自己多年培育出的生态，最后为他人做了嫁衣呢？

责编：Illumi

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

只有竞争才有发展，垄断是行不通的

阅读全文，请先

人工智能处理器/DSP

您可能感兴趣

英伟达推出AI超级电脑Jetson Orin Nano Super，价格仅249美元

新款开发板售价仅为249美元，而上一代40 TOPS开发板售价为499美元，价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”，特别适合商业AI开发者、爱好者和学生使用。

AWS计划追加100亿美元投资，在美国俄亥俄州扩建数据中心

近年来，AWS还积极投资于人工智能（AI）、机器学习（ML）、大数据分析和边缘计算等前沿技术，以保持其在这些领域的竞争优势。

【ICCAD2024】EDA新势力：芯行纪以AI重塑数字实现新未来

通过机器学习技术，EDA工具可以获取更精确的模型来预测设计中存在的问题，如布线拥塞、信号干扰、热效应等，从而为用户提供更准确快速的指导，避免后期返工。

美国计划推出“守门人”新规：简化AI芯片出口审批的同时，管制AI芯片出口

这一新规则可能会引起美国在世界各地的合作伙伴和盟友的重大担忧，以及一些国家的不满，担心美国会充当单方面仲裁者，决定谁可以获得对AI至关重要的先进芯片。

谷歌指控微软与OpenAI涉嫌垄断，要求FTC终止独家云服务协议

谷歌认为，这种独家协议可能会限制市场竞争，导致其他公司无法自由地使用OpenAI的技术，从而增加了用户面临额外成本的风险，比如数据迁移和员工培训等。

马斯克刷新世界首富记录：身家超过4000亿美元，未来看涨万亿美元

有鉴于电动汽车、自动驾驶和人工智能业务等未来增长潜力，以及在马斯克在当选总统特朗普政府中的“特殊地位”，多家分析机构认为，马斯克的财富未来还将进一步增长。

“一碰交互，共触未来”ITMA峰会盛大开启近场交互新生态

目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。

中科院微电子所在忆阻神经-模糊硬件及应用探索方面取得新进展

中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……

直角照明轻触开关为复杂电子应用提供定制性和多功能性

C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置，为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。

投身国产浪潮向上而行，英韧科技再获“中国芯”认可

投资20亿！路芯半导体掩膜版生产项目首批工艺设备机台入厂

来源：苏州工业园区12月17日，江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来，专注于半导体掩膜版的研发与生产，掌握130nm至28n

雷曼光电与辰显光电签约，推进MicroLED商业化

‍‍12月18日，深圳雷曼光电科技股份有限公司（下称“雷曼光电”）与成都辰显光电有限公司（下称“辰显光电”）在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势，共同推进Mi

京东方晶芯MLED项目，已完成设备搬入

12月18日，珠海京东方晶芯科技举行设备搬入仪式。插播：加入LED显示行业群，请加VX：hangjia188在10月31日，珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品

iPhone17系列迎六年来首次设计大换代：回归铝合金背板

有博主基于曝光的信息绘制了iPhone 17系列渲染图，对比iPhone 16系列，17系列最大变化是采用横置相机模组，背部DECO为条形跑道设计，神似谷歌Pixel 9系列，这是iPhone六年来的

又输了！《黑神话：悟空》年度最佳PS5游戏败给《宇宙机器人》

2024年度PlayStation游戏奖今日公布，《宇宙机器人》获得年度最佳PS5游戏，《使命召唤：黑色行动6》获得年度最佳PS4游戏。在这次评选中，《宇宙机器人》获得多个奖项，包括最佳艺术指导奖、最

AI日报丨超级AI独角兽来了！拿下100亿美元融资，估值升至620亿美元

“ 洞悉AI，未来触手可及。”整理 | 美股研究社在这个快速变化的时代，人工智能技术正以前所未有的速度发展，带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势，为您提供深度的

柔宇显示资产降价拍卖

阿里资产显示，随着深圳柔宇显示技术有限公司（下称：“柔宇显示”）旗下资产一拍以流拍告终，二拍将于12月24日开拍，起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产，其中不

巨头疲软行业内卷，极越为谁而“亡”？

在上海嘉定叶城路1688号的极越办公楼里，最显眼的位置上，写着一句话：“中国智能汽车史上，必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景，未曾想这原来是命运的嘲弄。毕竟，极越用一种极其荒唐的

REDMI全球首发！联发科天玑8400官宣：挑战高通骁龙8系

今天上午，联发科宣布新一代天玑芯片即将震撼登场，新品会在12月23日15点正式发布。据悉，这场发布会联发科将推出全新的天玑8400处理器，这颗芯片基于台积电4nm制程打造，采用Arm Cortex A

【倒计时3天】2024RT-Thread开发者大会，本周六见！

亲爱的企业用户和开发者朋友们距离2024 RT-Thread开发者大会正式开幕仅剩最后3天！还没报名的小伙伴，抓紧报名噢，12月21日不见不散！大会时间与地点时间：2024年12月21日 9:30-1

文章评论

最新
热门

换一换

EE直播

更多>

以后CUDA程序直接跑在AMD显卡上：英伟达护城河没了？

SCALE工具怎么工作的？

SCALE有什么价值？

杂志声明