当前,算力的增速远远超过了摩尔定律,社会对算力的需求也呈现爆炸性增长,但目前的芯片却难以满足这种增长需求,那么,芯片行业有没有另外一种架构呢?

当前,算力的增速远远超过了摩尔定律,社会对算力的需求也呈现爆炸性增长,但目前的芯片却难以满足这种增长需求,那么,芯片行业有没有另外一种架构呢?

在6月8日全球电子技术领域知名媒体集团AspenCore联合深圳市新一代信息通信产业集群举办的“2023 国际AIoT生态发展大会”上,清微智能图像产品总监高旭麟以《可重构计算赋能视觉芯片更高效、更智能》分为主题进行了分享。

清微智能

清微智能是以智能化芯片为产品的一家公司,目前是全球最大的可重构计算团队。目前员工有400多人,总部在北京,在杭州、天津、南京、上海、深圳、西安和成都都有分公司,研发和销售团队。

清微智能的前身是清华微电子所的可重构实验室,于2006年成立,当时也就是在国家课题背景下,摩尔定律逼近极限以后,未来的芯片架构是向什么方向发展,这是当时成立微所、成立可重构实验室的目的。当初以可重构目的为实验室的研究方向,历经了十几年的沉淀,到2018年一直在以研究所的形式进行研发。在可重构计算方面是一个老兵。

在十多年研发期间,清华微电子所陆续发表了300多篇论文和专利,获得了国家基础方面较高的奖项。2018年出于产业化的需求,正式成立了公司,迈上了产品产业化的道路。2018年北京清微智能正式成立,到今天,5年时间内有20余款的芯片投片和量产。尽管5年时间在芯片行业算是新兵,但在整个半导体设计行业沉淀了十多年。

什么是可重构?

什么是可重构以及为什么要做可重构。

行业背景

“AIoT是一个快速发展的行业,作为计算类芯片怎么来适应这种行业发展的需求,这是我们为什么要用可重构这个方面入手的原因。”高总监一语道出了可重构的行业背景,

“AIoT发展很快,整个视觉类产品对于芯片的需求非常高,尤其是近几年随着算力需求增长,万物皆智能,所有对算力芯片都有相应的需求,因为算力就是生产力。”

据权威机构预测,AIoT行业市值大概10万亿的规模,整个计算类的规模大概在1万亿左右,在这个高速增长和高速发展的市场中,高算力的场景对芯片设计来主要有四个方面的要求:

高算力

算力是爆发期,算力的提升基本上是无止境的,算力越高,赋予设备智能化的场景和智能化的工作会越来越多。尤其是随着ChatGPT的出现,大家对算力的需求出现暴增的场景,从0点几T迅速上升到百T、万T的需求。

高能效

算力是以能耗增长作为代价的,算力越高,对应的往往是能耗越大,但这种增长是不可持续的,我们需要既在算力增长的前提下,又将能效比提高,用更小的能耗获得更大的算力需求。

灵活性

现在万物智联时代,任何设备都可能会做智能化,但是万物智联带来的结果是什么?智能化的需求是多种多样的,智能化的需求算是千行百业都会有自己的需求,需求是非常多变的,做芯片一定要适应各个场景、各个行业需求的发展。如果做的芯片只能适应某种场景或者某一个行业,随着需求的迭代,对芯片创新设计的代价会非常大。所以随着算力以及应用场景增多,对芯片的需求尽可能需要适应不同算法、不同模型的变化,尽可能做到灵活性。

安全性

随着智能化的普及,数据安全、信息安全提升到了一个非常敏感的程度,需要芯片层级来支撑对整个系统安全化的要求。

目前现在主流的芯片计算架构并不能完全满足目前的形势。当前,对算力的需求呈现一个爆炸性的增长,以前是每2年算力增长1倍,现在上升到每4个月算力增长一倍,随着ChatGPT的出现,这个速度可能会更快,比如以GPT3的模型为例,它的模型参数基本多是以百亿或者千亿起,据说正在研究10万亿次的模型数据,未来算力增长需求非常大。

因此,我们目前的芯片架构运行能力的增长远远跟不上算力的需求,这方面需要做突破。

此外,计算能效在某种程度上限制了智能化范围的延伸,现在的大算力一定程度上是以能耗为代价的,我们要做大算力,往往制造一个能量的推动,比如现在的超算中心最大的费用是电费,都希望算力提升的同时,把能效比也提升上来,用更小的能耗提升更大的算力。这是做下一代芯片架构的核心诉求。

当前芯片架构存在的问题

现在的芯片架构存在什么问题呢?

1、目前无论是CPU还是GPU,这种计算架构天然带来的能效比不会太高,CPU、GPU都是基于指令来驱动,真正在程序执行过程中用到计算只会是整个流程的1/4,或者用流水线的方式进行优化,大概率很多的能耗和时间都耗在指令集,真正用在运算上是整个功耗的一半,是传统的冯·诺依曼架构带来的天然的劣势,它必须有一定的时间和能耗耗在指令集的方面。

2、算力增长会出现瓶颈,这个瓶颈在于:

第一,做大算力第一个遇到的瓶颈墙是内存墙,往往运算可以满足整个算力的需求,但是数据交互无法满足,因为内存的带宽和容量增长都受一定物理条件限制的。最后可能是数据能算过来,但运不过来,内存成了整个系统的瓶颈。尽管有高带宽内存,但它的增长速度仍然满足不了目前的需求。

3、通信强,未来做运算很难做单卡或者单G的运算,很难满足大模型、大算力的需求。如果做多卡集联或者多机集联必定会有一个通信的问题,要做几个机器或者几个互联,一定要通过网络、交换机,这样网络成本和网络的速度也构成了对整个大算力平台的瓶颈。

“因此,现在的运算架构对整体的充分投入还是偏高。未来我们要做的架构要解决什么问题或者我们做到什么样的芯片架构来解决这个问题呢?”高总监提出了这个问题,然后做出了解答:

1、做灵活数据流重构的方式,要尽量集中更多的硬件资源,把硬件资源集中在运算上,而不是指令集的取值和译码上。

2、要有高的Scale-out的能力,要解决通信墙、解决芯片之间以及板卡与板卡之间通信成本过高的问题,解决大模型运算的通信问题。

3、存储-计算更为紧密,解决存储墙,提高整体运算带宽,让数据更少在内存和运算单元之间流动,而更多在数据的运算单元间流动,减少对外存访存的时间和消耗。这是新一代芯片架构设计的要点。

最后,高总监总结了可重构技术的技术优势。

1、将宝贵的计算资源用于运算,基于非指令驱动的,基本上全是数据单元在数据流驱动不同的PE的运算,节省了传统的译码的操作,可以把90%进行运算,配置只占整个运算的10%,传统的GPU和CPU都会超过50%。

2、让数据在运算单元之间流起来,减少了对内存访问的操作,对大内存的访问,大内存带宽是运算的一个瓶颈。这种设计是基于数据流来进行运算的,基本上数据是不出运算单元的,不需要在单元之间进行反复的数据交互,减少了内存的带宽,不需要做大量的内存访问。另外基于数据流的方式既可以支持片内,PE和PE之间,也可以支持跨芯片的,芯片和芯片直连也是同样的数据流可以做到芯片到芯片之间的数据流动,更大程度上节省带宽。数据流的可控量可以实现打破芯片的边界,对我们来说这种直连方式做一个芯片的编程或者做多芯片的编程是一样的,几个芯片可以迅速扩展出更大的算力网络来进行运算。

大芯片原则上芯片设计上是带关口,芯片可以和芯片之间直接进行数据的连通,而不再依赖交换机这种方式,可以为大模型、大数据天然而生的运算架构,可以迅速拓展我们的算力和网路效果。

如果基于这种考虑,其实是节省了大集成计算的交换机的设备,大家知道GPU的运算能力很强,但DPU集成的大网络,DPU解决不了还得进行网络处理的交换,我们最终还在网络交换机,或者网络交换机也是我们进行组网直连中一个非常大的开销,而我们是支持芯片到芯片之间的直连、设备与设备之间的直连,而且中间不用加任何额外的网络设备,芯片自带的跨芯片直连的架构。我们为此设置了9种片间和片内的通信协议,都是基于高速总线的,完全能解决我们芯片的片到片之间的直连的通用需求。我们整个设备的组网会非常的方便。

“与其它方案相比较,同样的1000P算力下,我们整体功耗、能耗只有1/3,而架构系统成本是1/5,可以用更便宜的、更低的功耗实现更强的性能。”高总监用可重构计算芯片算力做了一个比较。

清微智能产品体系

清微智能从端侧到边侧到云侧整体的产品体系,目标是打造CGRA+的产品网络。现在产品分成三大系列。

按算力来看,0点几T算力是2系,主要主打可穿戴设备,譬如蓝牙、语音芯片、TWS芯片。

现在产品最多的是5系,主打中等算力芯片,从0.5-16T的算力范围,主打端侧和边缘侧的AI芯片,主要是视觉类的,比如智能门锁以及边缘计算的盒子、移动机器人领域都可以用清微智能的芯片。

再往上是100T为界限,100T以上是8系,第一款是512T的训推一体芯片,今年下半年会推出,我们会打造基于CGRA+从端侧到云侧全面的产品体系。

同时,清微智能提供相应的软件平台支持,有训练平台和工具链,支持所有的主流的算法模型的,譬如对Paddle,Caffe进行了完美的支持,而且是在各个上面有比较好的口碑。工具链可以提供从模型的压缩量和仿真的全套过程,方便算法开发者快速落地算法到芯片和产品中去。

此外,清微智能也可以提供推算一体完整的软件栈,不只做芯片,从芯片开始,一直到多平台驱动,算力开发,框架,都会进行完整的支持。

责编:Challey
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣
全球前十大高产机构中,9家为中国机构(如中国科学院、清华大学等)。其中,中国科学院以 2018-2023 年期间发布的 14,387 篇文章位居榜首。
这一新指导政策不仅反映了中国在芯片产业中减少对外依赖的战略意图,也体现了RISC-V架构在中国芯片产业中的重要地位和发展潜力。
这一成果不仅将芯片上的时间调控速度提升了 100 倍,时钟频率突破100GHz,还为未来智能计算、6G 通信、空天遥感等一系列现实应用的性能提升提供了强大支持。
此次风波始于2月28日,部分自媒体在小红书、微信公众号等平台发布《芯片界最大投资机构之一北京办公室关门》等文章,声称中芯聚源“北京办公室已关闭”、“上海团队人心涣散”、“仅剩最后一期基金”等……
此次调整被视为芯华章迈向规模化发展的关键一步,旨在应对半导体EDA市场日益激烈的竞争与技术挑战。
随着先进芯片设计格局的迅速演变,新的验证和确认方法变得至关重要。众多前沿设计由系统公司在先进的工艺节点下完成,具有大量的逻辑门,并依赖于复杂的片上网络、SRAM池以及精密的电源、时钟和测试架构。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
‍‍据“龙岩发布”3月5日消息,蓝天LED显示屏产业链生产项目一期装修已完成50%,预计3月底可完工,4月初试投产。加入LED显示行业群,请加VX:hangjia188图源:龙岩发布据介绍,蓝天LED
数据民主化终极拷问:借助大模型问数,究竟能不能实现灵活、准确、深入的数据洞察?“华东区会员复购率是多少?”——业务提需求3天,IT排期2周,口径对齐5轮。“为什么A产品毛利异常?”——指标定义模糊,数
国际电子商情讯,昨日(3月3日)晚间,TCL科技发布公告称,拟以115.62亿元收购深圳市华星光电半导体显示技术有限公司(以下简称深圳华星半导体)21.5311%股权。A股市场又一起百亿并购2025年
‍‍近几年,随着Mini/Micro LED技术的高速发展,LED产业呈现几大发展趋势,如LED显示间距持续缩小、LED芯片持续微缩化、产品、工艺制造环节更为集成,以及RGB 封装与COB 降本需求迫
插播:历时数月深度调研,9大系统性章节、超百组核心数据,行家说储能联合天合光能参编,发布工商业储能产业首份调研级报告,为行业提供从战略决策到产品方向、项目资源的全维参考!点击下方“阅读原文”订阅刚开年
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来----来源: 逍遥设计自动化申
据报道,小米集团总裁卢伟冰在西班牙巴塞隆纳的全球发表会上表示,小米汽车计划于2027年进军海外市场。小米的立足之本在于深耕本土市场,作为一家中国车企,唯有在国内市场站稳脚跟,方能谈及海外扩张。因此,小
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来---- 来源:时光沉淀申明:感
如果说华为代表了国产手机芯片的最高水平,那么紫光展锐无疑就是国产中低端芯片最大的依持了。3月3日,巴塞罗那MWC世界移动通信大会上,紫光展锐正式发布手机芯片T8300。据了解,T8300采用的是6nm
2025年3月11-13日,亚洲激光、光学、光电行业年度盛会的慕尼黑上海光博会将在上海新国际博览中心-3号入口厅N1-N5,E7-E4馆盛大召开。本次瑞淀光学展示方案有:■ MicroOLED/Min