借助存算一体技术做AI芯片并不新鲜,但存算一体的AI大算力芯片却是新课题——亿铸科技要做的就是这类芯片,为此我们和亿铸科技创始人、董事长兼CEO熊大鹏博士聊了聊...

近期,GPT-40的发布再次引爆生成式AI话题——自ChatGPT出现至今,生成式AI堪称月月有爆点,这也让AI芯片热度持续不减。其中有一类与众不同的芯片,这两年正以其独特的架构吸引着产业界的关注。

存算一体,相比传统冯诺依曼架构,不仅避开“存储墙”限制;而且借着AI发展的东风,显得格外有潜力。亿铸科技作为市场上为数不多基于存算一体技术的AI大算力芯片企业,正计划从芯片到板卡、服务器,最终将算力横向扩展至大规模运算集群,并最终借助存算一体技术在生成式AI时代站稳脚跟。

对此,我们采访了亿铸科技创始人、董事长兼CEO熊大鹏博士,解读AI浪潮下大算力AI芯片的新形态——基于ReRAM的全数字存算一体芯片。

 

大算力存算一体芯片何时商用

传统冯诺依曼架构芯片的“存储墙”问题日益严重。在需要海量数据搬运的场景内,传统芯片不仅面临计算单元闲置导致系统效率降低的问题;还面临存储、通信和数据搬运的功耗开销都远高于计算的“能耗墙”问题。除此之外,亿铸科技此前在中国临港国际半导体大会上,还提到“编译墙”问题——即动态数据流调度复杂,编译器无法在静态、可预测情况下自动优化可执行程序,依赖手动调优等情况。以上三点都极大限制了资源日益紧缺、功耗大幅增长的AI产业的发展。

对此,熊大鹏博士在主题演讲中曾提到“阿姆达尔定律(Amdahl Law)”,谈到存算一体相比传统GPGPU在做加速时的优势在于数据搬运量大幅下降,令访存限制趋近于0,实现有效算力密度的增长;其数据访问模式可预测,数据流和控制流简单,易于算子和可执行层代码自动优化。

基于以上优势,在性能和效率方面,存算一体芯片能够以成熟制造工艺比肩基于先进制造工艺的冯诺依曼架构传统芯片,并实现更低成本。“存算一体芯片的算力密度更高,拥有更好的能效比,”熊大鹏博士在接受采访时表示,“用更少的晶体管达成相同的算力”“而且存算一体可以减少数据搬运量和距离,这也是实现更高能效比的主要原因”。

即便存算一体芯片的优势已经被越来越多的人所知,但这类芯片到现在尚未全面占领大众视野。熊大鹏博士认为存算一体芯片是新技术,“不管是架构设计、软件生态,都还面临着相当程度的挑战”。熊大鹏博士透露,亿铸在和昕原半导体合作,“目前市场公认能够实现ReRAM这类新型存储量产的,只有昕原和台积电,这两家的制造工艺也都比较成熟。”

“但在AI大算力、大模型等应用方面,存算一体技术落地,从架构设计等各方面细节来看,还是存在不少挑战。”“大算力存算一体芯片毕竟也是最近两三年才出现的,新技术推向市场也需要时间磨合。” 熊大鹏博士强调,“2025-2026年,大算力存算一体芯片应该会逐步在商用市场推广开来。”

 

全数字化存算一体如何解决技术挑战?

在此前的主题演讲中,熊大鹏博士曾提到存算一体的“三把刀”,或者说三大类方案,分别是模拟、数模混合与全数字化的方案。

在一般模拟的存算一体系统中,数据以模拟信号的方式存储,以存储单元内不同的电压电平来表示,基于欧姆定律和基尔霍夫定律(Kirchhoff’s Laws)执行MAC等运算。这种方案的最大问题在于精度,模拟电路噪声和各种变量是其中原因。“不管是制造工艺还是工作环境,都会让忆阻器代表的完整数有误差或漂移”。数模混合方法尝试平衡效率和精度问题,但依旧不能保证高精度。

所以亿铸的方案是基于ReRAM的全数字化存算一体。因为是全数字化,数据以二进制的方式放进存储单元内,“一个忆阻器(ReRAM)只表示一位,也就只有高低电平、高低电阻、高低电流的区别,这种情况下就能做到可靠”。

熊大鹏博士在谈到存算一体芯片的算力大规模扩展时,提出当前面临的三大挑战。其一是精度不可信的问题;其二,基于模拟计算,数模模数转换带来了能耗、die size和性能的瓶颈;其三,AI大模型对容量有要求。全数字化路径能够很好地解决这些问题,这也是亿铸科技做AI大算力推理芯片的依据。

而存储介质选择ReRAM(Resistive Random Access Memory),“是性能、能效比、容量密度、工艺成熟度等方面的综合考虑。”“ReRAM技术本身也在不断提升。”另外ReRAM是CMOS兼容的,能够基于标准CMOS工艺制造,享受CMOS的很多先进技术,实现密度持续提升及未来更高的算力与能效比。

在解决技术问题以后,去年亿铸科技点亮了基于ReRAM的高精度、低功耗存算一体AI大算力PoC芯片。“无论是能效比还是算力,都超出了我们的预期。”熊大鹏博士谈到,“我们也运行了一些典型的demo,比如以图搜图,比如(基于)LoRA跑比较小规模的Transformer网络,结果都远超竞争对手。至于量产芯片,目前处于设计冲刺阶段。”

 

亿铸的芯片会是什么样?

采访中我们还是获悉了有关亿铸这颗要问世的AI大算力芯片的少量细节:性能方面,亿铸的芯片 “有效性能、能效比都会有优势”,即便是相较竞争对手 “最新的解决方案”,“也不会输”,虽然“不敢说打开垄断局面,但至少也能撕开一条缝,给用户新的选择”。

另外对于存算一体芯片的“通用性和可编程性”,鉴于“采用异构结构,存算一体本身只做大规模矩阵计算,通用性和可编程性要依靠通用处理器,包括SIMT(single instruction multiple threads)。”熊大鹏解释道,“我们定义了一套完整的ISA。”CPU指令集主体为RISC-V,“SIMT、存算一体,和其他组成部分,将不同架构、不同体系计算单元融合在一起,最终“将通用计算与存算一体有效融合”。

“另外以前的AI芯片主要基于CNN(卷积神经网络),造成了很大的通用性局限,对现在主流Transformer的支持不是特别友好。”“亿铸的芯片兼顾CNN和Transformer。”与此同时,“不少科学家工程师也在探讨Transformer替代方案。我们也会关注未来AI模型、算法会往哪个方向演进。”“不管是Transformer 2, Transformer 3,还是多模态、MoE,各种流派都在往前走。”

以上是芯片层面的信息。对于要实现算力扩展的AI芯片而言,芯片、板卡系统与节点间的高速互联是当代系统层面AI性能发挥的瓶颈。所以熊大鹏博士特别提到,“芯片互联、板间互联、节点互联是非常关键的技术,我们也花了不少精力去做。”

个中细节熊大鹏博士并未透露,不过他提到不同层级的互联会采用开放标准,“比如RDMA”。他还强调了DPU的重要性,对于大模型而言,“DPU扮演的角色越来越清晰,作用也越来越重要”,“我们会跟合作伙伴一起去开发针对大模型的DPU”。 系统层面,“我们会和合作伙伴一起,做到服务器级别”,将来算力扩展至整个大规模计算集群。

 

如何构建存算一体软件及应用生态

对于加速器类型的芯片而言,软件开发生态是另一大难点。“从用户的角度来看,亿铸的芯片就相当于一颗GPGPU,只不过是基于存算一体的GPGPU。”存算一体架构对开发者是不可见的。“很多企业、前人基于GPGPU做了各种各样的开源开发工具和生态构建,我们都用得上。”

“现在我们打算集中力量,在AI大模型应用场景上发展。比如说Llama 2-70B等等,容量大的、小的模型,我们都会去支持。”熊大鹏博士谈到,“存算一体自身的特点,决定了对算子的优化相对简单,更容易支持典型的AI大模型。所以在支持典型AI大模型的基础上,泛化到其他AI模型。”

从AI大模型角度切入,实则涵盖了终端应用领域的方方面面,包括数据中心、金融、游戏、安防、教育、工业、机器人、交通等等。

“建立软件团队要一步步来。先是围绕芯片建立团队,这一步基本已经达到了目标。后续还要针对用户使用、部署、各类工具等等完善软件团队。”“生态构建是需要打磨的,也关乎用户接受度方方面面的问题,这些都需要时间。”

亿铸科技在宣传中提到,团队具备数字化存算一体全栈研发经验及垂直整合能力——研发团队申请的专利已经超过40项,国际最早先进工艺非冯体系架构设计和芯片流片;具备主流架构SoC量产交付能力——团队此前的SoC设计、量产及销售的芯片已经有20+颗;

更重要的是在软件和编译器方面,也有200+和350+案例的团队系统软件研发交付经验;加上还具备“国内外一线公司算法积累”,到最终应用场景和生态可能都只是时间问题。

 

结语

最后,熊大鹏博士表示,中国要发展自己的AI芯片与技术,首先要“立足国内的供应链”,并强调,“不立足国内供应链,即使做出来能够达到国际先进水平的芯片,最终也会受到各种限制”;“其次,一定要走不同的技术路线,才有机会实现换道超车。”而亿铸科技就在走这样一条明确的道路:与国内Foundry与IP供应商合作;走与众不同的存算一体路线,这也让亿铸科技的大算力全数字存算一体芯片更加值得期待!

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣
最近收到一款Jetson Orin Nano Super开发套装,我打算拿它来做个简单的AI应用开发...在没有任何AI应用和嵌入式应用开发经验的基础上...主打传说中的零代码开发~
2024 年,中国人工智能专业在校生约 4 万多人,而整个领域的人才缺口却高达 500 万……
从品牌战略的角度来看,华为本次选择古代神话中的人物作为商标,可能是为了借助这些神话角色的知名度和文化内涵,打造具有中国特色的品牌形象……
随着全球数字化转型市场蓬勃发展,云计算、人工智能、大数据、5G等技术的应用范围不断扩大,全球企业的数字化转型已经来到了持续发展阶段,这也促使了企业不断加大其在数字化转型的投入。其中 AI、机器视觉和 RFID 等先进技术在实现高效生产物流方面发挥着关键作用。
荣耀新任CEO李健首次公开亮相即宣布投入100亿美元布局AI终端生态,并推动Magic系列提供7年系统更新......
假设 GPU 租赁成本为 2 美元 / 小时,经计算,DeepSeek 每日总成本约为 87072 美元。若按照 DeepSeek R1 的定价计算所有 tokens 的收入,理论上一天的总收入可达……
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
千万级中标项目5个,百万级中标项目12个。文|新战略根据公开信息,新战略移动机器人产业研究所不完全统计,2025年2月,国内发布35项中标公告,披露总金额超15527.01万元。(由新战略移动机器人全
插播:历时数月深度调研,9大系统性章节、超百组核心数据,行家说储能联合天合光能参编,发布工商业储能产业首份调研级报告,为行业提供从战略决策到产品方向、项目资源的全维参考!点击下方“阅读原文”订阅又一地
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----图1 采用自上而下方法实
‍‍据“龙岩发布”3月5日消息,蓝天LED显示屏产业链生产项目一期装修已完成50%,预计3月底可完工,4月初试投产。加入LED显示行业群,请加VX:hangjia188图源:龙岩发布据介绍,蓝天LED
点击上方蓝字谈思实验室获取更多汽车网络安全资讯01摘要近年来,电子控制单元(ECU)不再局限于简单的便利功能,而是将多种功能整合为一体。因此,ECU 拥有比以往更多的功能和外部接口,各种网络安全问题也
DeepSeek的崛起不仅是技术革新,更是一场从“机器语言”到“人类语言”的范式革命,推动了AGI时代到来。各个行业的应用场景不断拓展,为企业数字化发展带来了新机遇,同时也面临诸多挑战。不同企业在落地
国际电子商情讯,昨日(3月3日)晚间,TCL科技发布公告称,拟以115.62亿元收购深圳市华星光电半导体显示技术有限公司(以下简称深圳华星半导体)21.5311%股权。A股市场又一起百亿并购2025年
差分运算放大电路,对共模信号得到有效抑制,而只对差分信号进行放大,因而得到广泛的应用。差分电路的电路构型    上图是差分电路。    目标处理电压:是采集处理电压,比如在系统中像母线电压的采集处理,
回顾2024年,碳化硅和氮化镓行业在多个领域取得了显著进步,并经历了重要的变化。展望2025年,行业也将面临新的机遇和挑战。为了更好地解读产业格局,探索未来的前进方向,行家说三代半与行家极光奖联合策划
插播:历时数月深度调研,9大系统性章节、超百组核心数据,行家说储能联合天合光能参编,发布工商业储能产业首份调研级报告,为行业提供从战略决策到产品方向、项目资源的全维参考!点击下方“阅读原文”订阅刚开年