当前,算力的增速远远超过了摩尔定律,社会对算力的需求也呈现爆炸性增长,但目前的芯片却难以满足这种增长需求,那么,芯片行业有没有另外一种架构呢?
在6月8日全球电子技术领域知名媒体集团AspenCore联合深圳市新一代信息通信产业集群举办的“2023 国际AIoT生态发展大会”上,清微智能图像产品总监高旭麟以《可重构计算赋能视觉芯片更高效、更智能》分为主题进行了分享。
清微智能
清微智能是以智能化芯片为产品的一家公司,目前是全球最大的可重构计算团队。目前员工有400多人,总部在北京,在杭州、天津、南京、上海、深圳、西安和成都都有分公司,研发和销售团队。
清微智能的前身是清华微电子所的可重构实验室,于2006年成立,当时也就是在国家课题背景下,摩尔定律逼近极限以后,未来的芯片架构是向什么方向发展,这是当时成立微所、成立可重构实验室的目的。当初以可重构目的为实验室的研究方向,历经了十几年的沉淀,到2018年一直在以研究所的形式进行研发。在可重构计算方面是一个老兵。
在十多年研发期间,清华微电子所陆续发表了300多篇论文和专利,获得了国家基础方面较高的奖项。2018年出于产业化的需求,正式成立了公司,迈上了产品产业化的道路。2018年北京清微智能正式成立,到今天,5年时间内有20余款的芯片投片和量产。尽管5年时间在芯片行业算是新兵,但在整个半导体设计行业沉淀了十多年。
什么是可重构?
什么是可重构以及为什么要做可重构。
行业背景
“AIoT是一个快速发展的行业,作为计算类芯片怎么来适应这种行业发展的需求,这是我们为什么要用可重构这个方面入手的原因。”高总监一语道出了可重构的行业背景,
“AIoT发展很快,整个视觉类产品对于芯片的需求非常高,尤其是近几年随着算力需求增长,万物皆智能,所有对算力芯片都有相应的需求,因为算力就是生产力。”
据权威机构预测,AIoT行业市值大概10万亿的规模,整个计算类的规模大概在1万亿左右,在这个高速增长和高速发展的市场中,高算力的场景对芯片设计来主要有四个方面的要求:
高算力
算力是爆发期,算力的提升基本上是无止境的,算力越高,赋予设备智能化的场景和智能化的工作会越来越多。尤其是随着ChatGPT的出现,大家对算力的需求出现暴增的场景,从0点几T迅速上升到百T、万T的需求。
高能效
算力是以能耗增长作为代价的,算力越高,对应的往往是能耗越大,但这种增长是不可持续的,我们需要既在算力增长的前提下,又将能效比提高,用更小的能耗获得更大的算力需求。
灵活性
现在万物智联时代,任何设备都可能会做智能化,但是万物智联带来的结果是什么?智能化的需求是多种多样的,智能化的需求算是千行百业都会有自己的需求,需求是非常多变的,做芯片一定要适应各个场景、各个行业需求的发展。如果做的芯片只能适应某种场景或者某一个行业,随着需求的迭代,对芯片创新设计的代价会非常大。所以随着算力以及应用场景增多,对芯片的需求尽可能需要适应不同算法、不同模型的变化,尽可能做到灵活性。
安全性
随着智能化的普及,数据安全、信息安全提升到了一个非常敏感的程度,需要芯片层级来支撑对整个系统安全化的要求。
目前现在主流的芯片计算架构并不能完全满足目前的形势。当前,对算力的需求呈现一个爆炸性的增长,以前是每2年算力增长1倍,现在上升到每4个月算力增长一倍,随着ChatGPT的出现,这个速度可能会更快,比如以GPT3的模型为例,它的模型参数基本多是以百亿或者千亿起,据说正在研究10万亿次的模型数据,未来算力增长需求非常大。
因此,我们目前的芯片架构运行能力的增长远远跟不上算力的需求,这方面需要做突破。
此外,计算能效在某种程度上限制了智能化范围的延伸,现在的大算力一定程度上是以能耗为代价的,我们要做大算力,往往制造一个能量的推动,比如现在的超算中心最大的费用是电费,都希望算力提升的同时,把能效比也提升上来,用更小的能耗提升更大的算力。这是做下一代芯片架构的核心诉求。
当前芯片架构存在的问题
现在的芯片架构存在什么问题呢?
1、目前无论是CPU还是GPU,这种计算架构天然带来的能效比不会太高,CPU、GPU都是基于指令来驱动,真正在程序执行过程中用到计算只会是整个流程的1/4,或者用流水线的方式进行优化,大概率很多的能耗和时间都耗在指令集,真正用在运算上是整个功耗的一半,是传统的冯·诺依曼架构带来的天然的劣势,它必须有一定的时间和能耗耗在指令集的方面。
2、算力增长会出现瓶颈,这个瓶颈在于:
第一,做大算力第一个遇到的瓶颈墙是内存墙,往往运算可以满足整个算力的需求,但是数据交互无法满足,因为内存的带宽和容量增长都受一定物理条件限制的。最后可能是数据能算过来,但运不过来,内存成了整个系统的瓶颈。尽管有高带宽内存,但它的增长速度仍然满足不了目前的需求。
3、通信强,未来做运算很难做单卡或者单G的运算,很难满足大模型、大算力的需求。如果做多卡集联或者多机集联必定会有一个通信的问题,要做几个机器或者几个互联,一定要通过网络、交换机,这样网络成本和网络的速度也构成了对整个大算力平台的瓶颈。
“因此,现在的运算架构对整体的充分投入还是偏高。未来我们要做的架构要解决什么问题或者我们做到什么样的芯片架构来解决这个问题呢?”高总监提出了这个问题,然后做出了解答:
1、做灵活数据流重构的方式,要尽量集中更多的硬件资源,把硬件资源集中在运算上,而不是指令集的取值和译码上。
2、要有高的Scale-out的能力,要解决通信墙、解决芯片之间以及板卡与板卡之间通信成本过高的问题,解决大模型运算的通信问题。
3、存储-计算更为紧密,解决存储墙,提高整体运算带宽,让数据更少在内存和运算单元之间流动,而更多在数据的运算单元间流动,减少对外存访存的时间和消耗。这是新一代芯片架构设计的要点。
最后,高总监总结了可重构技术的技术优势。
1、将宝贵的计算资源用于运算,基于非指令驱动的,基本上全是数据单元在数据流驱动不同的PE的运算,节省了传统的译码的操作,可以把90%进行运算,配置只占整个运算的10%,传统的GPU和CPU都会超过50%。
2、让数据在运算单元之间流起来,减少了对内存访问的操作,对大内存的访问,大内存带宽是运算的一个瓶颈。这种设计是基于数据流来进行运算的,基本上数据是不出运算单元的,不需要在单元之间进行反复的数据交互,减少了内存的带宽,不需要做大量的内存访问。另外基于数据流的方式既可以支持片内,PE和PE之间,也可以支持跨芯片的,芯片和芯片直连也是同样的数据流可以做到芯片到芯片之间的数据流动,更大程度上节省带宽。数据流的可控量可以实现打破芯片的边界,对我们来说这种直连方式做一个芯片的编程或者做多芯片的编程是一样的,几个芯片可以迅速扩展出更大的算力网络来进行运算。
大芯片原则上芯片设计上是带关口,芯片可以和芯片之间直接进行数据的连通,而不再依赖交换机这种方式,可以为大模型、大数据天然而生的运算架构,可以迅速拓展我们的算力和网路效果。
如果基于这种考虑,其实是节省了大集成计算的交换机的设备,大家知道GPU的运算能力很强,但DPU集成的大网络,DPU解决不了还得进行网络处理的交换,我们最终还在网络交换机,或者网络交换机也是我们进行组网直连中一个非常大的开销,而我们是支持芯片到芯片之间的直连、设备与设备之间的直连,而且中间不用加任何额外的网络设备,芯片自带的跨芯片直连的架构。我们为此设置了9种片间和片内的通信协议,都是基于高速总线的,完全能解决我们芯片的片到片之间的直连的通用需求。我们整个设备的组网会非常的方便。
“与其它方案相比较,同样的1000P算力下,我们整体功耗、能耗只有1/3,而架构系统成本是1/5,可以用更便宜的、更低的功耗实现更强的性能。”高总监用可重构计算芯片算力做了一个比较。
清微智能产品体系
清微智能从端侧到边侧到云侧整体的产品体系,目标是打造CGRA+的产品网络。现在产品分成三大系列。
按算力来看,0点几T算力是2系,主要主打可穿戴设备,譬如蓝牙、语音芯片、TWS芯片。
现在产品最多的是5系,主打中等算力芯片,从0.5-16T的算力范围,主打端侧和边缘侧的AI芯片,主要是视觉类的,比如智能门锁以及边缘计算的盒子、移动机器人领域都可以用清微智能的芯片。
再往上是100T为界限,100T以上是8系,第一款是512T的训推一体芯片,今年下半年会推出,我们会打造基于CGRA+从端侧到云侧全面的产品体系。
同时,清微智能提供相应的软件平台支持,有训练平台和工具链,支持所有的主流的算法模型的,譬如对Paddle,Caffe进行了完美的支持,而且是在各个上面有比较好的口碑。工具链可以提供从模型的压缩量和仿真的全套过程,方便算法开发者快速落地算法到芯片和产品中去。
此外,清微智能也可以提供推算一体完整的软件栈,不只做芯片,从芯片开始,一直到多平台驱动,算力开发,框架,都会进行完整的支持。