独角兽寒武纪在AI造芯路上已经成功实现了技术产业化输出与应用,在云端AI加速卡先推出思元100和思元270芯片系列,11月3日最新消息,寒武纪正式发布第三代云端AI芯片思元370。
据介绍,思元370基于7nm工艺打造,也是寒武纪首款采用chiplet(芯粒)技术的AI芯片。思元370集成了390亿个晶体管,最大算力高达256TOPS(INT8),是寒武纪第二代产品思元270算力的2倍。
同时,寒武纪全新升级了CambriconNeuware软件栈,新增推理加速引擎MagicMind,实现训推一体,显著提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。
新一代智能处理器架构MLUarch03
官方表示,凭借寒武纪最新智能芯片架构MLUarch03,相较于峰值算力的提升,思元370实测性能表现更为优秀。寒武纪智能处理器架构MLUarch03,拥有新一代张量运算单元,内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完备,更高效且向前兼容。
▲ Supercharger和多算子硬件融合技术
思元 370 实测性能和实测能效超市场主流 GPU 产品
* 测试环境:
MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU 数据:ResNet-50 来自于相关产品官网,Transformer、VGG16、YOLOv3 均取自实测最大吞吐性能。
两款基于思元370的加速卡正式亮相:高密度、半高半长、功耗75W的MLU370-S4智能加速卡和高性能、全高全长、功耗150W的MLU370-X4智能加速卡。与上一代产品相比,370系列加速卡在性能、能效方面都有更为卓越的表现。例如,对标准ResNet-50v1进行软件定制优化后,MLU370-X4加速卡性能高达30204fps,MLU370-S4加速卡(半高半长)实测性能为同尺寸主流GPU的2倍。LU370-X4加速卡(全高全长)实测性能与同尺寸主流GPU相当,能效则大幅领先。
值得一提的是,思元370也是国内第一颗支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。
思元 370 视频编码质量显著提升
*测试环境:
MLU270-S4:SYS-4029GP-TRT/2x Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz
MLU370-S4:NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz
视频内容:BQTerrace_1920x1080_60.yuv
解码方面,思元370升级了视频图像编解码单元,可提供更高效的视频处理能力和更优的编码质量,支持更复杂、更繁重、低延时要求的计算机视觉任务。思元370支持132路1080p视频解码或10路8K视频解码。
编码上,全新编码器通过灵活的码率优化(RDO)控制、多参考帧、二次编码等特性组合,在相同图像质量(全高清视频PSNR)的情况下比上一代产品节省42%带宽,有效降低带宽成本。
责编:editorAlice