当前,算力的增速远远超过了摩尔定律,社会对算力的需求也呈现爆炸性增长,但目前的芯片却难以满足这种增长需求,那么,芯片行业有没有另外一种架构呢?

当前,算力的增速远远超过了摩尔定律,社会对算力的需求也呈现爆炸性增长,但目前的芯片却难以满足这种增长需求,那么,芯片行业有没有另外一种架构呢?

在6月8日全球电子技术领域知名媒体集团AspenCore联合深圳市新一代信息通信产业集群举办的“2023 国际AIoT生态发展大会”上,清微智能图像产品总监高旭麟以《可重构计算赋能视觉芯片更高效、更智能》分为主题进行了分享。

清微智能

清微智能是以智能化芯片为产品的一家公司,目前是全球最大的可重构计算团队。目前员工有400多人,总部在北京,在杭州、天津、南京、上海、深圳、西安和成都都有分公司,研发和销售团队。

清微智能的前身是清华微电子所的可重构实验室,于2006年成立,当时也就是在国家课题背景下,摩尔定律逼近极限以后,未来的芯片架构是向什么方向发展,这是当时成立微所、成立可重构实验室的目的。当初以可重构目的为实验室的研究方向,历经了十几年的沉淀,到2018年一直在以研究所的形式进行研发。在可重构计算方面是一个老兵。

在十多年研发期间,清华微电子所陆续发表了300多篇论文和专利,获得了国家基础方面较高的奖项。2018年出于产业化的需求,正式成立了公司,迈上了产品产业化的道路。2018年北京清微智能正式成立,到今天,5年时间内有20余款的芯片投片和量产。尽管5年时间在芯片行业算是新兵,但在整个半导体设计行业沉淀了十多年。

什么是可重构?

什么是可重构以及为什么要做可重构。

行业背景

“AIoT是一个快速发展的行业,作为计算类芯片怎么来适应这种行业发展的需求,这是我们为什么要用可重构这个方面入手的原因。”高总监一语道出了可重构的行业背景,

“AIoT发展很快,整个视觉类产品对于芯片的需求非常高,尤其是近几年随着算力需求增长,万物皆智能,所有对算力芯片都有相应的需求,因为算力就是生产力。”

据权威机构预测,AIoT行业市值大概10万亿的规模,整个计算类的规模大概在1万亿左右,在这个高速增长和高速发展的市场中,高算力的场景对芯片设计来主要有四个方面的要求:

高算力

算力是爆发期,算力的提升基本上是无止境的,算力越高,赋予设备智能化的场景和智能化的工作会越来越多。尤其是随着ChatGPT的出现,大家对算力的需求出现暴增的场景,从0点几T迅速上升到百T、万T的需求。

高能效

算力是以能耗增长作为代价的,算力越高,对应的往往是能耗越大,但这种增长是不可持续的,我们需要既在算力增长的前提下,又将能效比提高,用更小的能耗获得更大的算力需求。

灵活性

现在万物智联时代,任何设备都可能会做智能化,但是万物智联带来的结果是什么?智能化的需求是多种多样的,智能化的需求算是千行百业都会有自己的需求,需求是非常多变的,做芯片一定要适应各个场景、各个行业需求的发展。如果做的芯片只能适应某种场景或者某一个行业,随着需求的迭代,对芯片创新设计的代价会非常大。所以随着算力以及应用场景增多,对芯片的需求尽可能需要适应不同算法、不同模型的变化,尽可能做到灵活性。

安全性

随着智能化的普及,数据安全、信息安全提升到了一个非常敏感的程度,需要芯片层级来支撑对整个系统安全化的要求。

目前现在主流的芯片计算架构并不能完全满足目前的形势。当前,对算力的需求呈现一个爆炸性的增长,以前是每2年算力增长1倍,现在上升到每4个月算力增长一倍,随着ChatGPT的出现,这个速度可能会更快,比如以GPT3的模型为例,它的模型参数基本多是以百亿或者千亿起,据说正在研究10万亿次的模型数据,未来算力增长需求非常大。

因此,我们目前的芯片架构运行能力的增长远远跟不上算力的需求,这方面需要做突破。

此外,计算能效在某种程度上限制了智能化范围的延伸,现在的大算力一定程度上是以能耗为代价的,我们要做大算力,往往制造一个能量的推动,比如现在的超算中心最大的费用是电费,都希望算力提升的同时,把能效比也提升上来,用更小的能耗提升更大的算力。这是做下一代芯片架构的核心诉求。

当前芯片架构存在的问题

现在的芯片架构存在什么问题呢?

1、目前无论是CPU还是GPU,这种计算架构天然带来的能效比不会太高,CPU、GPU都是基于指令来驱动,真正在程序执行过程中用到计算只会是整个流程的1/4,或者用流水线的方式进行优化,大概率很多的能耗和时间都耗在指令集,真正用在运算上是整个功耗的一半,是传统的冯·诺依曼架构带来的天然的劣势,它必须有一定的时间和能耗耗在指令集的方面。

2、算力增长会出现瓶颈,这个瓶颈在于:

第一,做大算力第一个遇到的瓶颈墙是内存墙,往往运算可以满足整个算力的需求,但是数据交互无法满足,因为内存的带宽和容量增长都受一定物理条件限制的。最后可能是数据能算过来,但运不过来,内存成了整个系统的瓶颈。尽管有高带宽内存,但它的增长速度仍然满足不了目前的需求。

3、通信强,未来做运算很难做单卡或者单G的运算,很难满足大模型、大算力的需求。如果做多卡集联或者多机集联必定会有一个通信的问题,要做几个机器或者几个互联,一定要通过网络、交换机,这样网络成本和网络的速度也构成了对整个大算力平台的瓶颈。

“因此,现在的运算架构对整体的充分投入还是偏高。未来我们要做的架构要解决什么问题或者我们做到什么样的芯片架构来解决这个问题呢?”高总监提出了这个问题,然后做出了解答:

1、做灵活数据流重构的方式,要尽量集中更多的硬件资源,把硬件资源集中在运算上,而不是指令集的取值和译码上。

2、要有高的Scale-out的能力,要解决通信墙、解决芯片之间以及板卡与板卡之间通信成本过高的问题,解决大模型运算的通信问题。

3、存储-计算更为紧密,解决存储墙,提高整体运算带宽,让数据更少在内存和运算单元之间流动,而更多在数据的运算单元间流动,减少对外存访存的时间和消耗。这是新一代芯片架构设计的要点。

最后,高总监总结了可重构技术的技术优势。

1、将宝贵的计算资源用于运算,基于非指令驱动的,基本上全是数据单元在数据流驱动不同的PE的运算,节省了传统的译码的操作,可以把90%进行运算,配置只占整个运算的10%,传统的GPU和CPU都会超过50%。

2、让数据在运算单元之间流起来,减少了对内存访问的操作,对大内存的访问,大内存带宽是运算的一个瓶颈。这种设计是基于数据流来进行运算的,基本上数据是不出运算单元的,不需要在单元之间进行反复的数据交互,减少了内存的带宽,不需要做大量的内存访问。另外基于数据流的方式既可以支持片内,PE和PE之间,也可以支持跨芯片的,芯片和芯片直连也是同样的数据流可以做到芯片到芯片之间的数据流动,更大程度上节省带宽。数据流的可控量可以实现打破芯片的边界,对我们来说这种直连方式做一个芯片的编程或者做多芯片的编程是一样的,几个芯片可以迅速扩展出更大的算力网络来进行运算。

大芯片原则上芯片设计上是带关口,芯片可以和芯片之间直接进行数据的连通,而不再依赖交换机这种方式,可以为大模型、大数据天然而生的运算架构,可以迅速拓展我们的算力和网路效果。

如果基于这种考虑,其实是节省了大集成计算的交换机的设备,大家知道GPU的运算能力很强,但DPU集成的大网络,DPU解决不了还得进行网络处理的交换,我们最终还在网络交换机,或者网络交换机也是我们进行组网直连中一个非常大的开销,而我们是支持芯片到芯片之间的直连、设备与设备之间的直连,而且中间不用加任何额外的网络设备,芯片自带的跨芯片直连的架构。我们为此设置了9种片间和片内的通信协议,都是基于高速总线的,完全能解决我们芯片的片到片之间的直连的通用需求。我们整个设备的组网会非常的方便。

“与其它方案相比较,同样的1000P算力下,我们整体功耗、能耗只有1/3,而架构系统成本是1/5,可以用更便宜的、更低的功耗实现更强的性能。”高总监用可重构计算芯片算力做了一个比较。

清微智能产品体系

清微智能从端侧到边侧到云侧整体的产品体系,目标是打造CGRA+的产品网络。现在产品分成三大系列。

按算力来看,0点几T算力是2系,主要主打可穿戴设备,譬如蓝牙、语音芯片、TWS芯片。

现在产品最多的是5系,主打中等算力芯片,从0.5-16T的算力范围,主打端侧和边缘侧的AI芯片,主要是视觉类的,比如智能门锁以及边缘计算的盒子、移动机器人领域都可以用清微智能的芯片。

再往上是100T为界限,100T以上是8系,第一款是512T的训推一体芯片,今年下半年会推出,我们会打造基于CGRA+从端侧到云侧全面的产品体系。

同时,清微智能提供相应的软件平台支持,有训练平台和工具链,支持所有的主流的算法模型的,譬如对Paddle,Caffe进行了完美的支持,而且是在各个上面有比较好的口碑。工具链可以提供从模型的压缩量和仿真的全套过程,方便算法开发者快速落地算法到芯片和产品中去。

此外,清微智能也可以提供推算一体完整的软件栈,不只做芯片,从芯片开始,一直到多平台驱动,算力开发,框架,都会进行完整的支持。

责编:Challey
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
通过机器学习技术,EDA工具可以获取更精确的模型来预测设计中存在的问题,如布线拥塞、信号干扰、热效应等,从而为用户提供更准确快速的指导,避免后期返工。
该小组汇集了国内外领先的芯片及IP、嵌入式开发工具、操作系统等厂商,形成强有力的组织,使命是通过一站式功能安全认证服务,帮助企业提升认证价值,满足IEC 61508、ISO 26262等国际功能安全认证标准,从而更高效地达成功能安全要求。
在ICCAD 2024主峰会上,中国半导体行业协会集成电路设计分会理事长魏少军教授带来“中国芯片设计业要自强不息”主题报告演讲,深入解读了过去一年中国IC设计业的发展机遇与挑战,权威分析中国IC设计业各环节的主要数据及其背后的意义。
近日,华为终端BG CEO何刚在和紫牛基金创始合伙人张泉灵的对话中表示,华为Mate 70系列每一颗芯片都有国产的能力。此外,日前在深圳宝安中学的一场讲座中,华为终端BG 董事长余承东也自豪地宣布Mate70实现了芯片的100%国产化。
常情况下,英特尔的CEO在65岁时退休,而现年63岁的基辛格突然被退休,让市场感到意外。为了确保平稳过渡,英特尔董事会立即着手寻找新的CEO人选……
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
‍‍12月18日,深圳雷曼光电科技股份有限公司(下称“雷曼光电”)与成都辰显光电有限公司(下称“辰显光电”)在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势,共同推进Mi
投资界传奇人物沃伦·巴菲特,一位94岁的亿万富翁,最近公开了他的遗嘱。其中透露了一个惊人的决定:他计划将自己99.5%的巨额财富捐赠给慈善机构,而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
“ 洞悉AI,未来触手可及。”整理 | 美股研究社在这个快速变化的时代,人工智能技术正以前所未有的速度发展,带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益
点击蓝字 关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日 上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播
极越汽车闪崩,留下一地鸡毛,苦的是供应商和车主。很多人都在关心,下一个倒下的新能源汽车品牌,会是谁?我们都没有未卜先知的超能力,但可以借助数据管中窥豹。近日,有媒体统计了15家造车新势力的销量、盈亏情