目前AI芯片设计人员通常会在系统CPU旁边集成单独的IP模块,以满足AI日益增长的需求。这种方法导致了AI芯片的配置不够理想,因为通常需要依赖三家不同的IP供应商和三套工具链,这不仅使得功率、性能和面积(PPA)指标较差,也增加了适应新算法的难度。

Semidynamics推出了一款集RISC-V、向量、张量和自有Gazzillion技术于一体的一体化IP解决方案,该解决方案仅使用一个指令集和一套工具链即可实现AI工作负载。

据该公司介绍,目前AI芯片设计人员通常会在系统CPU旁边集成单独的IP模块,以满足AI日益增长的需求。这种方法导致了AI芯片的配置不够理想,因为通常需要依赖三家不同的IP供应商和三套工具链,这不仅使得功率、性能和面积(PPA)指标较差,也增加了适应新算法的难度(图1)。

图1:目前AI芯片设计人员通常会在系统CPU旁边集成单独的IP模块,以满足AI日益增长的需求。这种方法导致了AI芯片配置不够理想,因为通常需要三家不同的IP供应商和三套工具链,这不仅使得PPA指标不佳,也增加了适应新算法的难度。(来源:Semidynamics)

Semidynamics首席执行官Roger Espasa(2)解释说:“比如,现有的方案无法很好地处理Transformer这样的AI算法,但我们的一体化AI IP却非常适合。我们创造了一种全新的方法,只用RISC-V指令集和单一开发环境,使得编程变得简单。将各种模块集成到一个RISC-V AI处理单元中,意味着可以轻松部署新的AI算法,而不必担心如何分配工作负载。数据存储在矢量寄存器中,可以由矢量单元或张量单元使用,每个部分只需依次等待访问同一位置即可。因此,零通信延迟和最小化的缓存使得PPA得以优化,更重要的是,它能够轻松扩展以满足更大的数据处理要求。”

图2:Semidynamics公司CEO Roger Espasa.

Semidynamics的主张是将其四个IP组合在一起,形成一个完全集成的解决方案,即所谓的“一体化AI”IP处理单元(图3)。它具备完全可定制的RISC-V 64位内核、矢量单元(充当GPGPU)、张量单元(充当NPU)及其Gazzillion单元,以确保可以从内存中的所有位置处理大量数据,而不会出现缓存未命中的情况。由此,开发人员可以仅与一个IP供应商、一个RISC-V指令集和一个工具链合作,从而使实施变得更容易、更快,同时降低风险。此外,还可以将尽可能多的这种新型处理单元组合在一个芯片上,以打造下一代AI芯片。

Espasa表示:“我们已经建立了一种全新的方法来构建更强大的芯片,我们相信这将帮助AI克服现有最先进设计的局限性。借助我们的新配置工具,用户可以在处理单元中创建张量和矢量单元与RISC-V控制功能之间的适当平衡。”

图3:Semidynamics的主张是将其四个IP组合在一起,形成一个完全集成的解决方案,即所谓的“一体化AI”IP处理单元。(图片:Semidynamics)

重心从CPU移开

当被问及关键在于集成的原因以及为何以前没有这样做时,Espasa称这是一个范式问题。RISC-V的早期发展重心完全放在CPU上——无论是在RISC-V社区还是客户中。“我们比其他人更早地认识到了向量的优势,而AI最近对于如Transformer和大语言模型(LLM)提出了更高的灵活性要求。”他说,这也是为什么迄今为止没有实现如此高度的集成:“这并不是一件容易的事,这也是过去没有这样做的原因。特别是在2023年12月CPU+向量和Semidynamics的张量技术出现之前,在一个环境中还没有一致的指令集。”

他介绍了其全新一体化AI IP的几个关键创新点:

  • 消除其他NPU解决方案中常见的“极难编程的直接内存访问(DMA)”,用RISC-V内核中的正常加载和存储功能代替,从而获得了更好的持续性能。据说这种特殊功能仅在Semidynamics的Gazzillion技术的RISC-V内核中可用。Espasa表示:“使用我们的解决方案,软件只需要执行常规RISC-V指令就能将数据(准确地说是矢量加载和存储)移动到张量单元中,而不需要去用那些令人头疼的DMA。”
  • 将张量单元连接到现有的矢量单元,其中矢量寄存器用于保存张量数据。这减少了面积和数据重复,实现了更低的功耗,并且再次简化了方案的编程难度。Espasa评论道:“现在,启动张量单元变得非常简单:不再需要复杂的AXI命令序列,而只需一个普通的RISC-V指令(称为vmxmacc,是‘矩阵乘法累加’的缩写)。如果采用AXI命令,就意味着CPU必须读取NPU数据,然后要么缓慢地自行处理,要么通过AXI发送到GPGPU等器件以继续在那里进行计算。”
  • 添加了专门针对AI卷积中使用的“平铺”数据类型进行了优化的矢量加载指令,并且可以利用Semidynamics底层的Gazzillion技术。

总结来说,Espasa表示:“只有那些恰好拥有高带宽RISC-V内核、优秀的矢量单元和张量单元的IP提供商才能实现这一结果,并且可以提出新的指令将这三种解决方案结合在一起。”

统一计算单元

Espasa表示,最终的目标是“统一计算单元”,它需要:

  • 可以通过简单的复制来扩展,以达到客户的TOPS目标——就像现在构建的多核系统一样。他指出:“似乎没有人担心拥有一个多核系统,其中每个核心都是一个浮点运算单元(FPU),但是一旦有多个FPU,即一个矢量单元,就没人再理解它了。”
  • 在扩展过程中,在控制(内核)、激活性能(矢量单元)和卷积性能(张量单元)之间保持良好的平衡。
  • 面向未来。Espasa表示:“通过在解决方案中拥有一个完全可编程的矢量单元,客户可以获得面向未来的IP。无论未来发明哪种类型的AI,内核+矢量+张量的组合都能保证运行它。”

简化编程

随着AI数据量和处理需求的不断增加,当前的解决方案本质上是集成更多独立的功能块。CPU将部分专用工作负载分配给GPGPU和NPU,并管理这些单元之间的通信。但这种方式有一个主要问题,即在各模块之间移动数据会产生高延迟。使用三种不同类型的IP模块进行编程也非常困难,每种模块都有自己的指令集和工具链。

Semidynamics表示,由于不断有新的AI算法问世,现有的不可编程固定功能NPU模块甚至在进入硅片之前就可能过时。今天设计的AI芯片到2027年进入硅片时很可能就已经过时了,因为软件的发展速度总是比硬件快。

“我们的一体式AI IP中的RISC-V内核提供了‘智能’,可以适配当前最复杂的AI算法,甚至是还未发明的算法。张量单元为卷积提供了纯粹的矩阵乘法能力,而向量单元则具有完全通用的可编程性,可以​​处理当今所有的激活层以及未来人工智能软件社区可能想到的各种东西。拥有一个简单且可重复的一体化处理单元解决了可扩展性问题,因此我们的客户可以通过在芯片上使用尽可能多的处理单元,将速度从1/4TOPS扩展到数百TOPS。此外,我们的IP仍然完全可定制,使得公司能够创建独特的解决方案,而不是使用标准的现成芯片。”Espasa总结说。

(原文刊登于EE Times姊妹网站Embedded,参考链接:Semidynamics launches AI IP based on single ISA and one toolchain,由Franklin Zhao编译。)

本文为《电子工程专辑》2024年10月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里

责编:Franklin
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
硬件若无软件支持就毫无意义。而软件始终是Arm计算平台不可或缺的一部分,其技术已经涵盖整个软件栈的各个层面。从底层固件和操作系统的开发,到与游戏引擎、开源社区和独立软件供应商(ISV)的战略合作,确保所有这些在Arm平台上都能“开机即用”。
如果没有智能化技术,许多行业的转型将难以实现,人工智能(AI)智能技术已成为C端市场、物流、能源等多个行业不可或缺的一部分。在智能数字化转型的浪潮中,AI扮演着至关重要的角色,推动着各行各业的创新与发展。
汪洋特别提到,第十三届芯原CEO论坛五大预测之一是2028年用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。目前,推理和端侧微调也是芯原重点关注的领域,同时也希望在这一发展趋势中寻找新的机遇。 
通信技术领域目前处于技术发展迅速、市场广阔且竞争激烈的阶段,这必然导致越来越多的企业或主动或被动地成为专利纠纷的当事方……
尽管思瑞浦在模拟混合信号设计方面拥有丰富经验,其MCU产品在市场上的表现并不理想。究其原因,是因为国内MCU领域竞争已经非常激烈,产品同质化严重,企业之间的竞争主要集中在性价比上,导致利润空间被严重压缩。
随着工艺技术的发展放缓而晶体管数量增加,芯片开发变得越来越困难。Synopsys选择了收购设计分析和仿真巨头Ansys,此后,拥有管理和优化 EDA 计算环境所需所有工具的Altair,成为了最后一个可以挑战 Ansys 而不受约束的玩家。如今,花落西门子……
自托管加密钱包是一种数字工具,它让用户可以完全掌控加密货币的私钥,特别是像比特币这样的数字资产。对于初次接触加密货币的用户来说,了解如何购买比特币是使用自托管钱包的第一步......
12月11-12日,“上海集成电路2024年度产业发展论坛暨第三十届集成电路设计业展览会”(ICCAD-Expo 2024)将在上海世博展览馆隆重举行。
NS800RT系列实时控制MCU凭借更加高效、功能更强大的实时控制能力和丰富的外设,使工程师能够在光伏/储能逆变器、不间断电源、工业自动化、协作机器人、新能源汽车大/小三电、空调压缩机等系统中,实现皮秒级别的PWM控制,从而显著提升系统运行精度和效率。
Google曾于2019年宣布退出平板市场,但在2023年藉由Pixel Tablet重返,然而,最新消息指出,Google可能再次退出这一领域!根据外媒Android Headlines的独家报导,
蓝牙(Bluetooth)技术又迎来了里程碑式进步。2024年9月,蓝牙技术联盟(Bluetooth SIG)发布了蓝牙核心规范6.0及其中新功能信道探测(Channel Sounding)。相比过去
芯片超人现有1600平米芯片智能仓储基地,现货库存型号1000+,品牌高达100种,5000万颗现货库存芯片,总重量10吨,库存价值高达1亿+。同时,芯片超人在深圳设有独立实验室,每颗物料均安排QC质
★欢迎星标 果壳硬科技★“撒尿!撒尿!”旁边的两个小孩不断调整口音,力求最标准地喊出“撒尿”两个字。终于,桌上的机器狗缓缓抬起一只后腿,做出了狗狗撒尿的动作。与机器狗同出一家的桌面机器猫,同样能执行“
我是芯片超人花姐,入行20年,有40W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。扫码加我本人微信👇近期电子人关注的焦点——德国慕尼黑电子展,在前两天结
三星的翻盖式摺叠手机 Galaxy Z Flip 系列近年频繁出现在韩剧中,凭借小巧可爱的外型掳获不少女性消费者喜爱!如今市场传出好消息,三星可能会在明年的Galaxy Z Flip 7 加码平价款机
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,11月19日,国家发展改革委政策研究室副主任、委新闻发言人李超在11月新闻发布会上透露,将研究提出未来继续加大“两新”政策支持力度、扩大
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,11月20日,据路透社报道,在大众汽车计划削减超过170亿欧元的成本之际,德国大众汽车工会周三威胁要进一步升级与大众汽车的争端。IG M
三星电子劳资双方经过长时间谈判达成的临时工资谈判协议在工会投票中被否决。三星电子全国工会于今日(21日)将劳资协商方案提交工会成员投票,结果确认以41.36%赞成、58.64%反对的结果被否决。这一临
印尼准备评估苹果公司提出的1亿美元投资提案,此时苹果公司试图说服政府解除对iPhone 16设下的销售禁令。印尼工业部在22日晚间发出的声明说,印尼确认已经收到苹果最新的投资提案,内容包含要在西爪哇省