墨芯人工智能S40计算卡(下文简称S40计算卡)为数据中心的AI推理应用而打造。作为通用深度学习推理加速器,外形规格采用双槽全高全长 PCIe x16金手指物理形式。S40计算卡支持80GB LPDDR4x内存,理论内存峰值带宽为256GB/s,最大功耗300W。被动冷却板设计使其在热限制内,通过系统气流来实现计算卡的操作。
S40计算卡基于墨芯人工智能Antoum®️架构构建。通过软硬件紧密结合的架构设计,强调平衡的结构化稀疏性,支持高达32倍的高稀疏率。基于Antoum®️架构,S40计算卡支持BF16和INT8计算。同时,S40计算卡支持包括集成模型稀疏器的软件工具链、编译器和运行时在内的端到端软件解决方案,确保主流AI推理作业可以快速实现。
硬件与软件紧密结合的设计使得Antoum®️成为一个高效的人工智能片上系统处理器。此外,S40计算卡还支持硬件视频编解码器和JPEG解码器,使其能够处理各种视频和图像应用场景。同时,S40计算卡随设备发货时,为系统DDR开启ECC功能,防止内存出现可检测的错误。