芯原从2016年就开始做AI相关的IP了,到现在采用其NPU IP的芯片出货量也突破了1亿颗。芯原的AI相关IP及其生态则覆盖从云到端,这个生态大致上是这样的...

前不久的Computex大会上,黄仁勋在主题演讲中谈自家面向生成式AI数据中心集群的Spectrum交换机,计划中未来的Spectrum-X1600会用于连接百万量级的显卡。换句话说AI数据中心的GPU数量过两年就会来到百万张——要知道现在搞AI的企业能做万卡计算就已经十分了得。

原因很简单,AI模型变得越来越大了,人们对于生成式AI的需求也越来越强烈。最近的芯原AI专题技术研讨会上,乌镇智库理事长张晓东也援引OpenAI的预测,2027、2028年最大的模型需要用1000万张卡来训练。“1000万张卡的功耗会达到GigaWatt级别,相当于美国一个中小型的州。”

生成式AI是否往这个方向走我们不知道,但生成式AI正在深刻变革人与计算机的交互方式,乃至人们的生活方式。芯原执行副总裁、IP事业部总经理戴伟进评价微软Copilot“不只是AI”,而是“深刻影响到与计算机交互方式的某种功能(function)”,“我们甚至无法分辨它是不是AI”。 

随着AI Everywhere走向AI for Everyone的时代到来,包括英伟达、芯原在内的所有市场参与者普遍认同,AI要从数据中心,走向边缘、走向端侧,乃至走向嵌入式应用。今年4月份的IIC Shanghai期间,戴伟进在接受我们采访时就强调了AI全面走向边缘的趋势,而芯原现在正在思考的是如何在算力有限、功耗敏感的设备上,达成这一目标;与此同时芯片要兼顾可编程性与性能。

借着这次研讨会的机会,我们就来看看芯原具体是怎么做的,未来边缘AI又将发展成怎样。对芯片的AI相关IP做探讨,也有机会窥见英伟达之外的AI生态发展情况。

 

AI深入到端侧的时代

戴伟进说,我们现在所处的时代,已经是大模型进入嵌入式设备的时代。他举例谈到智能驾驶应用AI技术;智能手机现在能在本地跑文生图的Stable Diffusion 1.5,以及可进行本地对话的Llama 2-7B,能做以图搜图、实时翻译、智能拍照等;Copilot+PC的Recall特性,实时字幕、渲染交互等,AI PC也进入到了医疗和工业市场。“计算已经不限于CPU,NPU也加入进来;而且NPU最终的计算负载也将高于CPU。”

嵌入式领域内,前不久我们还在探讨MCU的AI化,微控制器都在强调指令级AI加速,以及融合专用的加速器。虽然要跑大模型暂时还不行,但电视、相机、PoS机及各类IoT设备都出现了芯原NPU/GPU/DSP/VPU IP的身影。

戴伟进表示芯原早在2016年就开始做NPU,到现在采用芯原NPU IP的芯片出货量已经突破1亿颗——覆盖72家客户128款AI芯片;GPU全球也累计出货了近20亿颗。从初期的AI视觉,到语音、图形到现如今的自然语言,覆盖AR/VR、自动驾驶、PC、智能手机、可穿戴设备、机器人等不同设备。

“再后来我们也走向了Transformer。”戴伟进在主题演讲中谈到,“所以这8年多的时间,我们和行业、客户共同成长。其实我们很多技术是头部客户驱动的——所以我们能够进入那么多行业。”

上面这张图展示的是芯原的AI软硬件堆栈。除了上层软件和中间件之外,硬件IP部分涵盖具图形单元的GPU,强调shader通用单元的GPGPU,以及着力在MAC加速的NPU。所以戴伟进说芯原“的技术具备相当好的伸缩性”。

IP本身,及其间相互搭配可满足不同的应用场景,加上各模块本身的可伸缩,在通用性和AI加速上实现平衡,“各种新技术都可以在这个组合中得以实现”。当这些IP覆盖不同算力需求的应用场景时,则如下图所示:

边缘和嵌入式设备AI推理与fine-tuning领域,主要采用芯原的VIP9X00系列NPU IP——可以是与其他IP紧耦合类似AI-ISP这样的的DSA加速,也可以是AIoT设备中的专用AI加速——规模上主要是2b-13b参数量的语言模型,以及其他感知和生成模型;

当追求一定的通用性时,考虑GPGPU IP;对于也需要图形渲染加速,兼顾通用与效率的AI PC这类场景,可以选择NPU + GPU IP;另外芯原也有面向数据中心的CCTC-MP方案,大语言模型为70b及更大参数量,这里的Tensor Core GPU IP也是考虑训练场景相对更为多样化,及对通用性的要求。

有关数据中心的解决方案这里多提一句。芯原高级副总裁、定制芯片平台事业部总经理汪志伟大略谈到了某颗数据中心AIGC芯片的少量信息:提及计算核是多核高性能CPU,加速器采用芯原GPGPU-AI IP,存储部分为HBM3;而且整体是基于chiplet方案构建的。

“我们还为客户设计了,和硬件结合、充分挖掘硬件性能的、完整的从底层到中间层的软件协议栈,满足推理、训练要求;包括解决芯片之间、板卡之间互联的通信协议软件。”汪志伟说。

值得一提的是,此前谷歌开启了一个名为Project Open Se Cura的开源项目在“从云到边缘”AI实现上是颇具代表性的,芯原是其中的关键参与者。这是个开源框架,旨在加速安全、可扩展、透明和高效的AI系统开发。

其中提供一系列的开源设计工具和IP库,通过联合设计和开发的方式,加速机器学习负载的全栈系统开发。芯原自然是在IP、芯片设计、BSP开发和商业化的过程中提供自家的专业技能。

戴伟进介绍说这个项目追求边缘与云的协同计算,比如在智能眼镜这样的设备上以低功耗always-on的方式感知环境,而AI模型跑在移动设备和云上。具体到芯片层面,其中的低功耗安全智能传感芯片用于端侧大模型数据采集,其中内置了芯原的多种处理器IP。

本地跑AI模型的价值在于低延时的响应,具隐私和安全性,以及更具个性化(如此例中的情境感知)。“我们每个人都有手机。而当有更高的计算需求时,也可以发往云。”“不仅为数据中心提供了价值,更重要的是AI也进入到了嵌入式设备,而且还是协同计算。”

“我想这其中的价值,是AI真的可以以离我们很近的方式为我们赋能,而且十分自然(less intrusive,少打扰)。”

 

从端到云的生态概况

谈得再具体一点,芯原NPU IP研发副总裁查凯南展示了NPU IP架构大致的框图:

芯原的NPU核心部分,大框架有个可编程引擎——可类比于GPU里面的shader核心,可做“通用运算,不管是科学运算还是训练网络的优化、损失函数等”;中间是我们日常所说真正用于AI加速的tensor core,进行矩阵乘的密集型运算;另外还有前文提到DSA相关的诸如AI-ISP、AI-Video加速的部分。

值得一提的是,在Transformer成为绝对的主流以后——包括视觉、音频、LLM等方面的全面开花,很多AI芯片也逐渐开始加入所谓的Transformer引擎——即便这并非一个单独的物理模块。查凯南在演讲中提到了芯原的NPU IP在Transformer加速上的考量。

包括数据格式的混合精度支持,INT4/INT8/FP8/FP16都是常规,还有AF16W4, AF16W8——查凯南解释说是16×4, 16×8“一些比较特殊的数据格式,把权重做4bit和8bit的量化压缩,大幅降低带宽消耗”;矩阵运算GEMM/GEMV(General Matrix Multiplication/General Matrix-Vector Multipilication)加速支持,矩阵转置引擎,流处理器等...

“在VIP9000架构里面,我们针对Transformer网络的性能提升达到了10倍。”

再来是软件栈的情况——这也是AI芯片竞争的关键。应用层的PyTorch, TensorFlow, ONNX Runtime支持都算是常规。推理部分的工具,芯原自研了Acuity Toolkit,“可通过工具链直接导入所有流行的框架”,“内部嵌入了模型转换、量化,及优化的相关功能”,“可直接生成易于部署的network binary”;

LLM推理引擎选择的则是支持vLLM(Vectorized Large Language Model)——一个开源的LLM推理库,查凯南说这是芯原最新做出的适配;硬件支持主流数据格式INT4/INT8/INT16/FP16/BFP16/FP8。

训练部分的框架,则主要是PyTorch 2.0的Torch Dynamo以及TensorFlow XLA后端接入;“芯原提供完整的计算库,包括可编程tensor core的引擎”;还有“我们自己写的”AI Compiler部分,以及再往上层分布式训练所需对接的Megatron和DeepSpeed支持。

有关训练比较值得一提的是支持Triton——Triton本身是OpenAI开发用于GPU编程的开放语言,一般我们说它是打破CUDA霸权的关键技术,也是诸多AI技术企业打算对接的新标准。“PyTorch 2.0之后的inductor会包含Triton的编译器。硬件厂商就可以直接通过编译的方式去接入Triton。我们的后端编译器也可以通过Triton接进来。”查凯南表示芯原计划于今年10月“完整接入Triton”

从整个结构来看,芯原的AI生态走的也是开放路线。这也是在英伟达AI制霸时代下的常规思路。

最后有关芯原NPU IP性能有个粗线条数据:VIP核心构成48TOPS算力的NPU,设定20 steps迭代跑Stable Diffusion 1.5生图<2秒;Llama2-7B模型推理则达成20 tokens/s的性能。虽然这个数据还是模糊了点,但总体都是相当出色的指标。

 

AI的征程刚刚开始

AI专题技术研讨会也可以算作是芯原AI生态布局的一环。所以研讨会上,我们也看到了不少采用芯原AI技术相关IP的芯片企业参与,比如AI-ISP,比如所谓具身智能机器人所需的3D空间计算芯片——“机器人加上大模型,能够与人进行更自然的交互。”戴伟进说,“计算机未来能够移动,一直在你身旁,跟着你,甚至能对你笑。”

神顶科技(南京)有限公司董事长、CEO袁帝文说PC、手机和嵌入式领域的AI发展,会为机器人大模型的发展提供助力;但与此同时,机器人本身还需要感知世界、导航避障、与物理空间交互。而且机器人也同时作为一个典型的端侧、边缘设备,AI算力需求又将远高于PC这样的端侧,因为其感知和交互是多维的,还涉及空间计算。

近两年英伟达开发者大会都将机器人技术视作AI从数字世界走向物理世界的关键,这其中涉及到方方面面的技术,“3D空间计算芯片+NPU,是掀起物理AI浪潮的必备组合。”而机器人在我们看来也会是AI、生成式AI下一个要全面应用和大力发展的市场,并由此影响到工业制造、医疗健康、零售、智慧城市千行百业。半导体这个万亿规模的产业,也会因此撬动全球经济。

芯原创始人、董事长兼总裁戴伟民在圆桌环节说,“前三次工业革命我们起步晚,不过我们有机会追得上;但这次我们不加快步伐的话,恐怕就永远追不上了。”“因为这是相关各行各业的技术,不是汽车、手机、PC或者任意的某一个领域。”“所以这一次,我们没有选择,无论如何非追上不可。”这大概也是芯原在生成式AI时代下努力加强技术研发,加强合作的动力之一。

张晓东说,“以前物理学家费曼说微积分是上帝的语言;但现在上帝的语言已经变成了图灵机。”而“图灵机是最广义的计算装置”;与此同时“所有的学习问题等价于图灵机求逆”,“所有的学习问题等价于next token prediction”......似乎生成式AI现如今的发展是计算机科学走向的必然。

从历史尺度来看,自然语言处理从过去几十年才进入新范式,到10年一迭代,以及后续以年为更新单位,“到今天大模型的迭代速度已经以周为单位了,几周就会有新的东西出现。”这似乎让我们看到了AI快速行进的开端,以及未来的无限可能。生成式AI的征程才刚刚开始。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
如果没有智能化技术,许多行业的转型将难以实现,人工智能(AI)智能技术已成为C端市场、物流、能源等多个行业不可或缺的一部分。在智能数字化转型的浪潮中,AI扮演着至关重要的角色,推动着各行各业的创新与发展。
汪洋特别提到,第十三届芯原CEO论坛五大预测之一是2028年用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。目前,推理和端侧微调也是芯原重点关注的领域,同时也希望在这一发展趋势中寻找新的机遇。 
通信技术领域目前处于技术发展迅速、市场广阔且竞争激烈的阶段,这必然导致越来越多的企业或主动或被动地成为专利纠纷的当事方……
尽管思瑞浦在模拟混合信号设计方面拥有丰富经验,其MCU产品在市场上的表现并不理想。究其原因,是因为国内MCU领域竞争已经非常激烈,产品同质化严重,企业之间的竞争主要集中在性价比上,导致利润空间被严重压缩。
随着工艺技术的发展放缓而晶体管数量增加,芯片开发变得越来越困难。Synopsys选择了收购设计分析和仿真巨头Ansys,此后,拥有管理和优化 EDA 计算环境所需所有工具的Altair,成为了最后一个可以挑战 Ansys 而不受约束的玩家。如今,花落西门子……
具体来说,对于涉及某些先进集成电路设计或制造、超级计算机、量子计算机及其关键部件、以及特定用途的AI系统的交易,美国将采取禁止或要求通报的措施。
为了更直观地了解FinFET到GAAFET架构世代的差异,本文利用高倍率的电子显微镜影像进行深入的探讨与分析,观察其于结构微观层面上的特征...
汽车技术领域正处于关键的转折点,其未来依托于动态且适应性强的系统,并可通过软件不断提升驾驶体验。
连接标准联盟很高兴宣布 Matter 1.4 现已正式发布,可供设备制造商和生态平台开发应用。这次更新是Matter生态系统迈出的重要一步。Matter 1.4带来了一系列增强功能......
根植雄厚研发实力及物联网领域的深耕实践,汇顶科技面向新兴车载互联应用全力进击。旗下首款高可靠性、高性能车规级低功耗蓝牙SoC——GR5405,已成功通过AEC-Q100 Grade 2认证。
互联网与科技企业每日重点资讯文 | 苏丁巨头动向歌尔股份被曝成为苹果2026年两款新品供应商天风国际分析师郭明錤爆料称,苹果将首次进军智能家居IP Camera(网络摄像头)市场,计划2026年量产,
全新产品几乎适用于任何应用,大幅减少元件数量、BOM成本和占板空间   瑞萨电子今日宣布,推出全新AnalogPAK™ IC系列,其中包括低功耗——SLG47001/
由前苹果和英特尔等资深人士共同创立的硅谷人工智能芯片初创公司Tenstorrent,近日宣布与日本政府达成一项重要协议。根据协议,Tenstorrent将在未来五年内,于其美国办公室为日本培训多达20
今天,万众瞩目的德国慕尼黑电子展开始了。这次慕展很有可能会是史上规模最大的一次慕展!三星、博通、TI、ST、ADI、Infineon、NXP、ON、高通、Skyworks、TDK等众多芯片大厂,艾睿、
大联大控股宣布,其旗下诠鼎推出基于高通(Qualcomm)IPQ5322、QCN6422、QCN6432和QCA8386芯片的Wi-Fi 7家庭网关方案。   &nb
ABOUT US研鼎公司总部位于上海浦东张江高科技园区,在深圳、北京和韩国设立研发和运营。是影像测试设备与解决方案领军企业,致力于视觉测试设备和分析软件产品的研发,可为客户提供优质的影像实验室Turn
EETOP 11月12日消息,据外媒报道,华为公司已要求美国法官驳回一项联邦起诉书中的大部分指控。该起诉书指控华为试图窃取美国竞争对手的技术机密,并在其伊朗业务问题上误导银行。华为在上周五晚间提交给法
11月12日,东风日产宣布成为首个与华为鸿蒙座舱全方位合作的合资品牌,双方将共创智能舒适的出行体验。                          近日,东风日产副总经理周锋在接受采访时分享了公司
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据报道,面对AMD和NVIDIA的激烈竞争,英特尔计划在2025年通过扩大与台积电
EETOP讯,据中国台湾《经济日报》报道,美国出口管制措施进一步升级,不仅传闻台积电将因遵循规定而停止向中国大陆的非消费类AI芯片客户提供7纳米制程产品,三星也同样受到限制,无法承接相关订单。(参考阅