深圳AI芯片初创公司鲲云科技近日发布全球首款基于数据流技术的AI芯片,定位于高性能AI推理,适合安防监控、图像处理、智能制造、智慧电力、自动驾驶/ADAS,以及航空航天遥感监测等应用领域。

深圳AI芯片初创公司鲲云科技近日发布全球首款基于数据流技术的AI芯片,定位于高性能AI推理,适合安防监控、图像处理、智能制造、智慧电力、自动驾驶/ADAS,以及航空航天遥感监测等应用领域。

此次发布的CAISA芯片采用鲲云自研的定制数据流架构CAISA 3.0,相较于上一代芯片架构在效率和实测性能方面有了大幅提升。CAISA3.0在多引擎支持上提供了4倍的并行度选择,架构的可拓展性大大提高。在AI芯片内,每一个CAISA都可以同时处理AI工作负载,在峰值算力提升6倍的同时保持了高达95.4%的芯片利用率。此外,该芯片在算子支持上更加通用,可支持绝大多数神经网络模型快速实现检测、分类和语义分割部署。

鲲云科技创始人牛昕宇发布全球首款数据流AI芯片

鲲云通过自主研发的数据流技术在芯片实测算力上实现了技术突破,其芯片利用率超过95%,较同类产品提升最高达11.6倍。第三方测试数据显示,CAISA芯片仅用英伟达T4 1/3的峰值算力,即可实现最高3.91倍的实测性能。这种定制化数据流技术不依靠先进的晶圆制造工艺和更大的芯片面积,而是通过数据流动控制计算顺序来提升实测性能,可为用户提供更高的算力性价比。

数据流架构 VS. 指令集架构

传统的指令集架构采用冯诺依曼计算方式,通过指令执行次序控制计算顺序,并通过分离数据搬运与数据计算提供计算通用性。CAISA架构依托数据流流动次序控制计算次序,采用计算流和数据流重叠运行方式消除空闲计算单元,并采用动态配置方式保证对于人工智能算法的通用支持,从而突破了指令集技术对于芯片算力的限制。

CAISA3.0架构图(来源:鲲云科技)

升级版的CAISA3.0架构解决了数据流架构作为人工智能计算平台的三大挑战:

  1. 算力性价比:在保持计算正确前提下,通过不断压缩每个空闲时钟推高芯片实测性能以接近芯片物理极限,让芯片内的每个时钟、每个计算单元都在执行有效计算;
  2. 架构通用性:在保证每个算法在CAISA上运行能够实现高芯片利用率的同时,CAISA3.0架构通用支持所有主流CNN算法;
  3. 软件易用性:通过专为CAISA定制的编译工具链实现算法端到端自动部署,用户无需底层数据流架构背景知识,简单两步即可实现算法迁移和部署,降低使用门槛。

具体来讲,鲲云CAISA3.0架构的三大技术突破主要通过以下技术方式实现:

  1. 时钟级准确的计算提高算力性价比

CAISA3.0架构由数据流来驱动计算过程,无指令操作,可以实现时钟级准确的计算,最大限度的减少硬件计算资源的空闲时间。CAISA3.0架构通过数据计算与数据流动的重叠,压缩计算资源的每一个空闲时钟;通过算力资源的动态平衡,消除流水线的性能瓶颈;通过数据流的时空映射,最大化复用芯片内的数据流带宽,减少对外部存储带宽的需求。上述设计使CNN算法的计算数据在CAISA3.0内可以实现不间断的持续运算,最高可实现95.4%的芯片利用率,在同等峰值算力条件下,可获得相对于GPU 3倍以上的实测算力,从而为用户提供更高的算力性价比。

       2.流水线动态重组增强架构通用性

CAISA3.0架构可以通过流水线动态重组实现对不同深度学习算法的高性能支持。通过CAISA架构层的数据流引擎、全局数据流网、全局数据流缓存,以及数据流引擎内部的人工智能算子模块、局部数据流网、局部数据流缓存的分层设计,在数据流配置器控制下,CAISA架构中的数据流连接关系和运行状态都可以被自动化动态配置,从而生成面向不同AI算法的高性能定制化流水线。在保证高性能的前提下,支持用户使用基于CAISA3.0架构的计算平台实现如目标检测、分类及语义分割等广泛的人工智能算法应用。

       3.算法端到端自动化部署提高软件易用性

RainBuilder架构图(来源:鲲云科技)

专为CAISA3.0架构配备的RainBuilder编译工具链支持从算法到芯片的端到端自动化部署,用户和开发者无需了解架构的底层硬件配置,简单两步即可实现算法快速迁移和部署。RainBuilder编译器可自动提取主流AI开发框架(TensorFlow,Caffe,Pytorch,ONNX等)中开发的深度学习算法的网络结构和参数信息,并面向CAISA结构进行优化;工具链中的运行时(Runtime)和驱动(Driver)模块负责硬件管理并为用户提供标准的API接口,运行时可以基于精确的CAISA性能模型,实现算法向CAISA架构的自动化映射,同时提供可以被高级语言直接调用的API接口;最底层的驱动可以实现对用户透明的硬件控制。RainBuilder工具链使用简单,部署方便,通用性强,可以让用户快速和低成本的部署和迁移已有算法到CAISA硬件平台上。

数据流带来AI芯片研发新方向

作为全球首款采用数据流技术并实现量产的AI芯片,CAISA搭载四个CAISA 3.0引擎,具有超过1.6万个MAC(乘累加)单元,峰值性能可达10.9TOPs。该芯片采用28nm工艺,通过PCIe 3.0×4接口与主处理器通信,同时具有双DDR通道,可为每个CAISA引擎提供超过340Gbps的带宽。

CAISA芯片架构图(来源:鲲云科技)

作为一款面向边缘和云端推理的人工智能芯片,CAISA可实现最高95.4%的芯片利用率,为客户提供更高的算力性价比。CAISA芯片具有良好的通用性,可支持所有常用AI算子,通过数据流网络中算子的不同配置和组合,CAISA芯片可支持绝大多数的CNN算法。针对CAISA芯片,鲲云提供RainBuilder 3.0工具链,可实现推理模型在芯片上的端到端部署,使软件工程师可以方便的完成CAISA芯片在AI应用系统中的集成。

聚焦数据流定制计算,加速AI应用落地

鲲云科技由数据流定制计算领域专家陆永青(Wayne Luk)院士及其研发团队创立,致力于提供下一代人工智能计算平台,加速人工智能落地。鲲云科技已英特尔、浪潮和戴尔等行业巨头达成战略合作,并与帝国理工学院、哈尔滨工业大学、北京航空航天大学、天津大学、香港城市大学等成立联合实验室,在定制计算、AI芯片安全、工业智能等领域开展前沿研究合作。

星空加速卡系列产品图(来源:鲲云科技)

在发布会上,鲲云科技创始人和CEO牛昕宇博士宣布推出基于CAISA芯片的星空系列边缘和数据中心计算平台 -- X3加速卡和X9加速卡,并公布了由人工智能产业技术联盟(AIIA)测试的包括ResNet-50, YOLO v3等在内的主流深度学习网络的实测性能。

星空X3加速卡是搭载单颗CAISA 芯片的数据流架构深度学习推断计算平台,为工业级半高半长单槽规格的PCIe板卡。得益于其轻量化的规格特点,X3加速卡可以与不同类型的计算机设备进行适配,包括个人电脑、工业计算机、网络视频录像机、工作站、服务器等,满足边缘和高性能场景中的AI计算需求。相较于英伟达边缘端旗舰产品Xavier,X3可实现1.48-4.12倍的实测性能提升。

X3 vs Xavier 芯片利用率对比图(来源:鲲云科技)

X3 vs Xavier 性能对比图(来源:鲲云科技)

X3 vs Xavier 延时对比图(来源:鲲云科技)

星空X9加速卡发布(来源:鲲云科技)

星空X9加速卡为搭载4颗CAISA 芯片的深度学习推断板卡,峰值性能43.6TOPS,主要满足高性能场景下的AI计算需求。同英伟达旗舰产品T4相对,X9在ResNet-50, YOLO v3等模型上的芯片利用率提升2.84-11.64倍。在实测性能方面,X9在ResNet50可达5240FPS,与T4性能接近,在YOLO v3、UNet Industrial等检测分割网络,实测性能相较T4有1.83-3.91倍性能提升。在达到最优实测性能下,X9处理延时相比于T4降低1.83-32倍。实测性能以及处理延时的大幅领先,让数据流架构为AI芯片的发展提供了提升峰值性能之外的另一条技术路线。

X9 vs T4 芯片利用率对比图(来源:鲲云科技)

X9 vs T4 性能对比图(来源:鲲云科技)

X9 vs T4 延时对比图(来源:鲲云科技)

鲲云科技通过CAISA数据流架构提高芯片利用率,同样的实测性能,对芯片峰值算力的要求可大幅降低3-10倍,从而降低芯片的制造成本,为客户提供更高的算力性价比。

责编:Yvonne Geng

阅读全文,请先
您可能感兴趣
半导体行业正迎来一个新的建设高峰期,SEMI预测,2025年,全球范围内将有18个新的晶圆厂项目开始建设,其中15座为12英寸晶圆厂,3座为8英寸晶圆厂,大部分预计将于 2026 年至 2027 年开始运营......
尽管Imagination在RISC-V领域取得了一定的成就,但公司似乎认为继续投入资源于RISC-V处理器核心的开发并不符合其长期战略目标。Imagination决定终止其基于RISC-V指令集架构的GPGPU内核的研发工作,并将重心转向其擅长的GPU和AI领域......
这款机器人头上的摄像头可以录制视频或使用人工智能识别物体,虽然该机器人的动作仅限于挥动细小的手臂和眨动动画眼睛,但它可以与一把小型电动椅子配对,自动在家中导航。
Ken Glueck认为,美国2800亿美元的芯片法案所取得的成就,将被出口管制框架夺走,“因为在一项IFR中,它成功地将美国公司的全球芯片市场缩小了80%,并将其交给了中国。”
IP供应商、芯片设计服务提供商和AI专家在以AI为中心的设计价值链中的地位正变得更加突出。本文给出了四个设计用例,强调了服务于AI应用的芯片设计模型的重新调整。
英特尔临时联席CEO Michelle Johnston还表示,“英特尔会在2025年及以后继续增强AI PC产品组合,向客户提供领先的英特尔18A产品样品,并在2025年下半年量产”。
• 目前,iPhone在翻新市场中是最热门的商品,并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展,其平均销售价格(ASP)现已超过新手机。 • 新兴市场是增长的最大驱动力,消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年,这些翻新机平均销售价格将首次超过新手机。
从全球厂商竞争来看,三季度凭借多个新品发布,石头科技市场份额提升至16.4%,连续两季度排名全球第一……
最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准,配套USB网关,可轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成
其中包含Wi-Fi 7和蓝牙5.4 模组FME170Q-865、Wi-Fi 6和蓝牙5.4 模组FCS962N-LP、Wi-Fi 6和蓝牙5.3模组FCU865R 、独立Wi-Fi和蓝牙模组FGM840R、高功率Wi-Fi HaLow模组FGH100M-H……
大疆发布DJI Matrice 4T旗舰无人机,售价38888元。该无人机可用于电力巡检、应急抢险、公共安全、水利林业监测等众多应用场景。DJI Matrice 4T的镜头模组拥有“六个眼”,除了广角
小米15 Ultra目前已经三证齐全,静待2月份发布了,大概率会是2025年第一款超大杯旗舰。博主定焦数码最新公布了一张该机的渲染图,后摄区域是根据内部结构绘制,展示了全新的排列方式。四摄呈L形排列,
01周价格表02周价格观察硅料环节本周硅料价格:N型复投料主流成交价格为40元/KG,N型致密料的主流成交价格为38元/KG;N型颗粒硅主流成交价格为35元/KG。供给动态头部料企继续推进减产策略,月
今天推荐的视频介绍了单片机(MCU)和数字信号控制器(DSC)之间的差异、Microchip DSC的单核和双核架构、DSC的应用示例以及可将您的设计推向市场的开发资源。更多更全视频尽在Microch
1月9日,市场研究机构CINNO Research发布2024年全球智能手机面板出货报告称,2024年全球智能手机面板出货量或将同比增长8.7%至22.7亿片,达到历史新高。主流手机品牌全球面板采购量
当地时间2025年1月7日,全球备受期待的技术盛宴——国际消费电子展(CES 2025)在美国拉斯维加斯盛大开幕。作为显示领域的领军企业,天马携一系列前沿创新技术和最新智能座舱解决方案惊艳登场,带来手
    大联大控股宣布,其旗下世平推出基于安森美(onsemi)NCP5156x芯片的双通道隔离驱动IC评估板方案。    图
日前,微信安卓版迎来8.0.56正式版更新,这是2025年首次版本更新。关于更新内容,依然是那9个字:“修复了一些已知问题”。虽然官方没有公布具体更新内容,但体验后发现,新版增加了朋友圈视频倍速播放等
  在千级电子净化车间中设置通风系统时,需要综合考虑多个因素,包括洁净度要求、换气次数、气流组织、空气处理、温湿度控制以及节能与环保等。以下是合洁科技电子洁净工程公司的一些具体的设
戴尔科技AI PC产品组合助力终端用户释放创造力并提高工作效率。 戴尔科技统一旗下产品组合品牌命名,旨在帮助用户更轻松、快速地找到相匹配的PC、配件及服务。 搭载英