当前,算力的增速远远超过了摩尔定律,社会对算力的需求也呈现爆炸性增长,但目前的芯片却难以满足这种增长需求,那么,芯片行业有没有另外一种架构呢?

当前,算力的增速远远超过了摩尔定律,社会对算力的需求也呈现爆炸性增长,但目前的芯片却难以满足这种增长需求,那么,芯片行业有没有另外一种架构呢?

在6月8日全球电子技术领域知名媒体集团AspenCore联合深圳市新一代信息通信产业集群举办的“2023 国际AIoT生态发展大会”上,清微智能图像产品总监高旭麟以《可重构计算赋能视觉芯片更高效、更智能》分为主题进行了分享。

清微智能

清微智能是以智能化芯片为产品的一家公司,目前是全球最大的可重构计算团队。目前员工有400多人,总部在北京,在杭州、天津、南京、上海、深圳、西安和成都都有分公司,研发和销售团队。

清微智能的前身是清华微电子所的可重构实验室,于2006年成立,当时也就是在国家课题背景下,摩尔定律逼近极限以后,未来的芯片架构是向什么方向发展,这是当时成立微所、成立可重构实验室的目的。当初以可重构目的为实验室的研究方向,历经了十几年的沉淀,到2018年一直在以研究所的形式进行研发。在可重构计算方面是一个老兵。

在十多年研发期间,清华微电子所陆续发表了300多篇论文和专利,获得了国家基础方面较高的奖项。2018年出于产业化的需求,正式成立了公司,迈上了产品产业化的道路。2018年北京清微智能正式成立,到今天,5年时间内有20余款的芯片投片和量产。尽管5年时间在芯片行业算是新兵,但在整个半导体设计行业沉淀了十多年。

什么是可重构?

什么是可重构以及为什么要做可重构。

行业背景

“AIoT是一个快速发展的行业,作为计算类芯片怎么来适应这种行业发展的需求,这是我们为什么要用可重构这个方面入手的原因。”高总监一语道出了可重构的行业背景,

“AIoT发展很快,整个视觉类产品对于芯片的需求非常高,尤其是近几年随着算力需求增长,万物皆智能,所有对算力芯片都有相应的需求,因为算力就是生产力。”

据权威机构预测,AIoT行业市值大概10万亿的规模,整个计算类的规模大概在1万亿左右,在这个高速增长和高速发展的市场中,高算力的场景对芯片设计来主要有四个方面的要求:

高算力

算力是爆发期,算力的提升基本上是无止境的,算力越高,赋予设备智能化的场景和智能化的工作会越来越多。尤其是随着ChatGPT的出现,大家对算力的需求出现暴增的场景,从0点几T迅速上升到百T、万T的需求。

高能效

算力是以能耗增长作为代价的,算力越高,对应的往往是能耗越大,但这种增长是不可持续的,我们需要既在算力增长的前提下,又将能效比提高,用更小的能耗获得更大的算力需求。

灵活性

现在万物智联时代,任何设备都可能会做智能化,但是万物智联带来的结果是什么?智能化的需求是多种多样的,智能化的需求算是千行百业都会有自己的需求,需求是非常多变的,做芯片一定要适应各个场景、各个行业需求的发展。如果做的芯片只能适应某种场景或者某一个行业,随着需求的迭代,对芯片创新设计的代价会非常大。所以随着算力以及应用场景增多,对芯片的需求尽可能需要适应不同算法、不同模型的变化,尽可能做到灵活性。

安全性

随着智能化的普及,数据安全、信息安全提升到了一个非常敏感的程度,需要芯片层级来支撑对整个系统安全化的要求。

目前现在主流的芯片计算架构并不能完全满足目前的形势。当前,对算力的需求呈现一个爆炸性的增长,以前是每2年算力增长1倍,现在上升到每4个月算力增长一倍,随着ChatGPT的出现,这个速度可能会更快,比如以GPT3的模型为例,它的模型参数基本多是以百亿或者千亿起,据说正在研究10万亿次的模型数据,未来算力增长需求非常大。

因此,我们目前的芯片架构运行能力的增长远远跟不上算力的需求,这方面需要做突破。

此外,计算能效在某种程度上限制了智能化范围的延伸,现在的大算力一定程度上是以能耗为代价的,我们要做大算力,往往制造一个能量的推动,比如现在的超算中心最大的费用是电费,都希望算力提升的同时,把能效比也提升上来,用更小的能耗提升更大的算力。这是做下一代芯片架构的核心诉求。

当前芯片架构存在的问题

现在的芯片架构存在什么问题呢?

1、目前无论是CPU还是GPU,这种计算架构天然带来的能效比不会太高,CPU、GPU都是基于指令来驱动,真正在程序执行过程中用到计算只会是整个流程的1/4,或者用流水线的方式进行优化,大概率很多的能耗和时间都耗在指令集,真正用在运算上是整个功耗的一半,是传统的冯·诺依曼架构带来的天然的劣势,它必须有一定的时间和能耗耗在指令集的方面。

2、算力增长会出现瓶颈,这个瓶颈在于:

第一,做大算力第一个遇到的瓶颈墙是内存墙,往往运算可以满足整个算力的需求,但是数据交互无法满足,因为内存的带宽和容量增长都受一定物理条件限制的。最后可能是数据能算过来,但运不过来,内存成了整个系统的瓶颈。尽管有高带宽内存,但它的增长速度仍然满足不了目前的需求。

3、通信强,未来做运算很难做单卡或者单G的运算,很难满足大模型、大算力的需求。如果做多卡集联或者多机集联必定会有一个通信的问题,要做几个机器或者几个互联,一定要通过网络、交换机,这样网络成本和网络的速度也构成了对整个大算力平台的瓶颈。

“因此,现在的运算架构对整体的充分投入还是偏高。未来我们要做的架构要解决什么问题或者我们做到什么样的芯片架构来解决这个问题呢?”高总监提出了这个问题,然后做出了解答:

1、做灵活数据流重构的方式,要尽量集中更多的硬件资源,把硬件资源集中在运算上,而不是指令集的取值和译码上。

2、要有高的Scale-out的能力,要解决通信墙、解决芯片之间以及板卡与板卡之间通信成本过高的问题,解决大模型运算的通信问题。

3、存储-计算更为紧密,解决存储墙,提高整体运算带宽,让数据更少在内存和运算单元之间流动,而更多在数据的运算单元间流动,减少对外存访存的时间和消耗。这是新一代芯片架构设计的要点。

最后,高总监总结了可重构技术的技术优势。

1、将宝贵的计算资源用于运算,基于非指令驱动的,基本上全是数据单元在数据流驱动不同的PE的运算,节省了传统的译码的操作,可以把90%进行运算,配置只占整个运算的10%,传统的GPU和CPU都会超过50%。

2、让数据在运算单元之间流起来,减少了对内存访问的操作,对大内存的访问,大内存带宽是运算的一个瓶颈。这种设计是基于数据流来进行运算的,基本上数据是不出运算单元的,不需要在单元之间进行反复的数据交互,减少了内存的带宽,不需要做大量的内存访问。另外基于数据流的方式既可以支持片内,PE和PE之间,也可以支持跨芯片的,芯片和芯片直连也是同样的数据流可以做到芯片到芯片之间的数据流动,更大程度上节省带宽。数据流的可控量可以实现打破芯片的边界,对我们来说这种直连方式做一个芯片的编程或者做多芯片的编程是一样的,几个芯片可以迅速扩展出更大的算力网络来进行运算。

大芯片原则上芯片设计上是带关口,芯片可以和芯片之间直接进行数据的连通,而不再依赖交换机这种方式,可以为大模型、大数据天然而生的运算架构,可以迅速拓展我们的算力和网路效果。

如果基于这种考虑,其实是节省了大集成计算的交换机的设备,大家知道GPU的运算能力很强,但DPU集成的大网络,DPU解决不了还得进行网络处理的交换,我们最终还在网络交换机,或者网络交换机也是我们进行组网直连中一个非常大的开销,而我们是支持芯片到芯片之间的直连、设备与设备之间的直连,而且中间不用加任何额外的网络设备,芯片自带的跨芯片直连的架构。我们为此设置了9种片间和片内的通信协议,都是基于高速总线的,完全能解决我们芯片的片到片之间的直连的通用需求。我们整个设备的组网会非常的方便。

“与其它方案相比较,同样的1000P算力下,我们整体功耗、能耗只有1/3,而架构系统成本是1/5,可以用更便宜的、更低的功耗实现更强的性能。”高总监用可重构计算芯片算力做了一个比较。

清微智能产品体系

清微智能从端侧到边侧到云侧整体的产品体系,目标是打造CGRA+的产品网络。现在产品分成三大系列。

按算力来看,0点几T算力是2系,主要主打可穿戴设备,譬如蓝牙、语音芯片、TWS芯片。

现在产品最多的是5系,主打中等算力芯片,从0.5-16T的算力范围,主打端侧和边缘侧的AI芯片,主要是视觉类的,比如智能门锁以及边缘计算的盒子、移动机器人领域都可以用清微智能的芯片。

再往上是100T为界限,100T以上是8系,第一款是512T的训推一体芯片,今年下半年会推出,我们会打造基于CGRA+从端侧到云侧全面的产品体系。

同时,清微智能提供相应的软件平台支持,有训练平台和工具链,支持所有的主流的算法模型的,譬如对Paddle,Caffe进行了完美的支持,而且是在各个上面有比较好的口碑。工具链可以提供从模型的压缩量和仿真的全套过程,方便算法开发者快速落地算法到芯片和产品中去。

此外,清微智能也可以提供推算一体完整的软件栈,不只做芯片,从芯片开始,一直到多平台驱动,算力开发,框架,都会进行完整的支持。

责编:Challey
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
拍卖标的包括三项域名以及15项软件著作权和14项专利。其中,三项域名的起拍价为13879元,15项软件著作权和14项专利的起拍价为15550元……
Rambus的HBM4控制器IP还具备多种先进的特性集,旨在帮助设计人员应对下一代AI加速器及图形处理单元(GPU)等应用中的复杂需求。这些特性使得Rambus在HBMIP领域继续保持市场领导地位,并进一步扩展其生态系统支持。
一直听说x86指令集天生做不了低功耗,真的是这样吗?这篇文章着重谈谈酷睿Ultra二代是怎么考量低功耗的,有没有可能做到低功耗...
对于股价波动的原因,寒武纪表示,除了公司经营层面的因素外,还可能受到其他因素的影响。寒武纪还提醒投资者,应甄别信息来源,具体情况以公司公告为准。
此次财报也从侧面反应了半导体行业在AI业务上的强劲增长势头,但同时也暴露出非AI业务增长乏力的困境。
今年的CadenceLIVE中国用户大会上,Cadence谈到在芯片领域之外,数据中心、生命科学、航空航天等系统设计领域的仿真技术应用相当有限,这对Cadence而言是重要的市场机会。与此同时AI技术的发展,也在推动着市场前行...
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
点击蓝字 关注我们德州仪器全球团队坚持克服挑战,为电源模块开发新的 MagPack™ 封装技术,这是一项将帮助推动电源设计未来的突破性技术。  ■ ■ ■作为一名经验丰富的马拉松运动员,Kenji K
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
‍‍近期,IC 设计大厂联发科宣布了2024年上半年度的员工分红计划,与8月份薪资一起发放。据外界估算,按照上半年税前盈余约648.66亿新台币(约 144.42 亿元人民币)进行估算,此次分红总额接
近日,又一国产SiC企业宣布实现了主驱突破,并将出口海外。据“行家说三代半”的追踪统计,自2022年起,国内主驱级SiC器件/模块开始在多款车型中得到应用,尤其是2024年,本土供应商的市场份额显著上
‍‍据龙芯中科介绍,近日,基于龙芯3A6000处理器的储迹NAS在南京师范大学附属小学丹凤街幼儿园、狮山路小学、南京大学附属中学等学校相继落地。储迹NAS是基于最新的龙芯CPU--3A6000,其代表
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了长飞先进等众多企业,深入了解
在苹果和华为的新品发布会前夕,Counterpoint公布了2024年第一季度的操作系统详细数据,数据显示, 鸿蒙操作系统在2024年第一季度继续保持强劲增长态势,全球市场份额成功突破4%。在中国市场
随着汽车智能化升级进入深水区,车载ECU(域)以及软件复杂度呈现指数级上升趋势。尤其是多域、跨域和未来的中央电子架构的普及,以及5G/V2X等车云通信的增强,如何保障整车的信息与网络安全,以及防范外部
近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆