"老古董"向量处理机的前世今生(1):从辉煌到低谷

EETOP 2021-03-19 00:00

本文由公众号 MikesICroom 特约供稿

在之前的AI加速器的分析中我们曾经提到,针对这种特殊的计算密集型程序,很多古老的架构被开发出来,获得了意想不到的良好效果。最典型的例子就是TPU的systolic阵列。

在这些老古董中,有一种结构是通用处理器青睐有加的,比如ARM,INTEL以及最近炙手可热的RISC-V都增加或者增强了对该结构的支持。这就是向量处理机(Vector Processor)。

本系列文章希望通过对Vector架构的介绍和分析,探讨一下其在AI领域的应用前景。这个分析会分为几个章节,今天首先介绍下vector的历史。

Vector的辉煌时期

Vector这个概念是相对于Scalar提出的。最初的通用处理器都是标量处理器(Scalar Processor),即一条指令执行一个独立的运算,得到一个数据结果。在Flynn分类法中,这样的处理器也叫做单指令流单数据(SISD:Single Instruction Single Data)。随着对数据计算的需求提升,一个显而易见的方法就是对一组数据执行相同的操作,这样在不改变指令流的情况下,增加了数据的并行处理能力,即单指令流多数据(SIMD:Single Instruction Multiple Data)。

对Scalar执行单元和数据结构进行Replicate所形成的SIMD处理器就是我们通常意义上的Vector Processor,比如RISC-V的“V” extension,以及ARM的SVE(Scalable Vector Extension)。相反的,对scalar的数据结构进行split,形成了另外一种对小数据位宽进行并行加速的的方法,典型结构是Intel的MMX,ARM的DSP Extension以及NEON。

这两种方法在本质上是殊途同归的,都是为提升并行处理能力而提出。然而对于数据的packing和extension方式的不同,造成了两者在硬件设计的PPA,软硬件的扩展性,以及对编译的需求和支持上的差异,这也直接导致了后来这两种技术在商业化进程中截然不同的结果。后者在以ARM为核心的移动领域取得了巨大的成功,而Vector却在supercomputer中经历了短暂的辉煌,现在已经退出了主流领域。这其中的原因还需要另一个topic才能说清,这里不再细表。

虽然说现在Vector架构在商用处理器中日渐式微,在通用处理器刚刚兴起的上世纪70年代,Vector也曾经取得了辉煌发展的15年。这其中就不得不提到Vector的鼻祖,Cray(克雷)。

可以说是Cray一手将Vector架构推到了其历史的顶点。当年的通用处理器还是一个昂贵的产物,因此这阶段的CPU主要是用来构造Supercomputer的,也就是我们通常称作的大型机,只有少数大型企业和研究单位才能负担起购买和维护的费用。

1976年Cray-1的推出标志着Vector的兴起。Cray-1使用了以高性能Scalar unit为核心,配属Vector unit extension的结构,同时提出了Vector Register的概念,以load-store为基本访问模式,一举击败了当时其他架S构的Supercomputer。随着其他公司如NEC,Fujitsu和Hitachi的加入,Vector迎来了第一段高速发展的时代。从Cray-1开始之后的15年,Supercomputer几乎可以和Vector Processor直接划等号,可见其垄断地位。

从Cray-1的结构可以看出,其基本思路和现在的一些设计已经比较接近了。具有8个独立的Vector寄存器,支持多达64个Element的操作。和Vector分离的Scalar寄存器堆S和A可以独立的进行标量运算,也可以和Vector寄存器一起运算。Vector Mask寄存器可以阻挡不需计算的Elements,Vector Length寄存器记录了当前进行的elements长度。这两种机制在现代Vector处理器中一直被保留下来。在其中也能看到一些仍然流行的设计技巧,比如Memory banking,instruction buffer等机制,这表明当时Cray-1的很多思想还是比较先进的。

Vector走向衰落

好景不长,20世纪80年代之后,随着CMOS工艺的成熟,半导体行业开始进入高速发展期,摩尔定律也是在这个时期开始被奉为经典。制造成本的下降使得通用处理器这种原先异常昂贵的设备也开始进入寻常百姓家,成为消费计算机的核心部件。

小型和家用计算机提供了比超级计算机大的多的市场,对通用处理器的设计也提出了不同的需求。巨头Intel就是在这样一种情况下开启了它的传奇生涯。与此同时,Intel和它的X86系列的成功,却带来了另一个意想不到的结果。从超算Top 500的名单中我们看到,1993年有多达310个都是类Vector的架构,提供了将近占总算力的43%。而短短4年之后,这个数字就下降到了17%,而如今的形式更是不言而喻。

究竟是什么造成了Vector在Supercomputer领域如此迅速的溃败?

很多时候,商业上的成功并不能说明技术上的失败,虽然两者有很强的联系,但并不是必然因素,就像ARM和MIPS的结局。Vector的失败也并不是这个架构本身有重大缺陷,甚至可以说Vector的有些思想仍然是比较先进的,但在当时的技术条件和市场情况下,它的一些特性反而制约甚至是导致了其商业上的失利。

Vector的特征就是要使用高带宽和深流水来获得更大的并行度和频率,而这种设计的代价就是复杂度的提升和对存储近乎苛刻的需求,这两者最终体现为成本的提升。由于仅仅针对超算这样一个非常狭窄的市场,研发和制造的NRE费用分摊在每个设备上是非常高的,软件的开发和迭代也是缓慢艰难。而Intel的X86处理器是从消费领域入手,其巨大的市场大大降低了上述费用,导致它反过来进军超算时在成本上获得了很大优势。同时其广泛的应用也使得软件上的进步大大快于前者。

这样就造成了一个很尴尬的局面,Vector想要进军消费领域的话,其性能上的优势并不能带来更大收益,反而主要受到成本的制约。而Intel却可以利用低成本多堆核的简单方法切入Vector的地盘。

这里有一个问题,这样简单的堆砌能够超过Vector processor所能提供的peak performance么?最初当然是不能,但由于庞大的消费市场的反哺,能够使用X86进行编程和优化的程序员要远远多于前者。这些聪明的程序员针对X86的特点设计了更高效的Cache结构,Superscalar机制,以及被称为Symmetric Multiprocessor(SMP)的集群结构和通信方式。这些技术使得X86在超算领域也全面超越了以Cray为代表的Vector superprocessor。


“规模决定一切”。规模不但能够降低成本,从而具有更大的比较优势,同时也能够在规模的扩张中获得广阔的的生态,丰富的经验,最后反过来对技术予以提升。从消费者市场起家的Intel,就像农村包围城市那样,一开始就选择最广阔的领域站稳脚跟,然后再一步步的攻克这些孤立的城市据点,从超算到服务器,一步步的都被X86所占据。

从这个角度而言,未来AI领域的霸主,也许并不是现在看到的一些公司,它们使用复杂的技术设计超大型芯片,成本高昂但却出货寥寥,这样虽然在当下占据了AI超算的高点,但不久之后,在面对那些在广阔的AI蓝海市场中胜出的竞争者们,无论是成本、软件,生态,甚至性能上可能都无法与之抗衡,从而重蹈Cray对抗Intel的覆辙。这个可能性或许值得深思。

作为曾经的超算霸主,Cray在2019年被HPE以区区13亿美元收入囊中,与此同时Intel的市值高达3000亿美元,这个结果有些唏嘘却并不意外。不过,虽然作为supercomputer的Vector处理器已经逐渐走下历史舞台,但作为指令集架构的Vector ISA仍然在一些领域发挥着它的作用,而且也可能在未来取得更大的成功。下一次我们来探讨Vector ISA的发展和未来。

本文由 公众号:MikesICroom 供稿,大家可以关注MikesICroom,在后台回复“课程”获取斯坦福大学AI加速器课程资料

【参考资料/图片来源】

1. Computer Science 252, Lector 7: Vector Processing by David A. Patterson

2.https://developer.arm.com/architectures/instruction-sets/simd-isas/neon

3.https://www.slideserve.com/chinara/eecs-252-graduate-computer-architecture-lec-12-vector-computers

4.https://www.slideserve.com/chinara/eecs-252-graduate-computer-architecture-lec-12-vector-computers

5.https://cpu.zol.com.cn/31/313853.html?via=article

6.https://baike.baidu.com/pic/Cray/5624485/0/9c16fdfaaf51f3de1f836f5197eef01f3a2979d6?fr=lemma&ct=single#aid=0&pic=9c16fdfaaf51f3de1f836f5197eef01f3a2979d6

7.https://3c.3dmgame.com/show-30-9395-1.html

8.http://server.it168.com/a2016/0629/2750/000002750902.shtml

9.http://tech.sina.com.cn/other/2004-09-21/1024428796.shtml?from=wap


EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论 (0)
  • 引言:小型化趋势下的语音芯片需求随着消费电子、物联网及便携式设备的快速发展,产品设计对芯片的小型化、高集成度和低功耗提出了更高要求。厂家凭借其创新的QFN封装技术,推出WTV系列(如WTV380)及WT2003H系列语音芯片,以超小体积、高性能和成本优势,为紧凑型设备提供理想解决方案。产品核心亮点1. QFN封装技术赋能超小体积极致尺寸:WTV380采用QFN32封装,尺寸仅4×4毫米,WT2003H系列同样基于QFN工艺,可满足智能穿戴、微型传感器等对空间严苛的场景需求。高密度集成:QFN封装
    广州唯创电子 2025-04-07 08:47 57浏览
  • 在科技浪潮奔涌的当下,云计算领域的竞争可谓是如火如荼。百度智能云作为其中的重要参与者,近年来成绩斐然。2024年,百度智能云在第四季度营收同比增长26%,这样的增速在行业内十分惹眼。回顾全年,智能云业务的强劲增长势头也十分明显,2024年第一季度,其收入达到47亿元,同比增长12%;第二季度营收51亿元,同比增长14%。从数据来看,百度智能云在营收方面一路高歌猛进,展现出强大的发展潜力。然而,市场对百度智能云的表现似乎并不完全买账。2024年,尽管百度智能云数据亮眼,但百度股价却在震荡中下行。在
    用户1742991715177 2025-04-06 20:25 61浏览
  • 医疗影像设备(如CT、MRI、超声诊断仪等)对PCB的精度、可靠性和信号完整性要求极高。这类设备需要处理微伏级信号、高频数据传输,同时需通过严格的EMC/EMI测试。制造此类PCB需从材料选择、层叠设计、工艺控制等多维度优化。以下是关键技术与经验分享。 1. 材料选择:高频与生物兼容性优先医疗影像设备PCB常采用 Rogers RO4000系列 或 Isola FR4高速材料,以降低介电损耗并保证信号稳定性。例如,捷多邦在客户案例中曾为某超声探头厂商推荐 Rogers RO4350B
    捷多邦 2025-04-07 10:22 64浏览
  •   安全生产预警系统作为现代工业与安全管理的重要组成部分,正以前所未有的技术引领力,创新性地塑造着未来的安全管理模式。这一系统通过集成多种先进技术,如物联网、大数据、人工智能、云计算等,实现了对生产环境中潜在危险因素的实时监测、智能分析与及时预警,为企业的安全生产提供了坚实的技术保障。   技术引领:   物联网技术:物联网技术使得各类安全监测设备能够互联互通,形成一张覆盖全生产区域的安全感知网络。传感器、摄像头等终端设备实时采集温度、压力、气体浓度、人员位置等关键数据,为预警系统提供丰富的
    北京华盛恒辉软件开发 2025-04-05 22:18 52浏览
  • 在追求环境质量升级与产业效能突破的当下,温湿度控制正成为横跨多个行业领域的核心命题。作为环境参数中的关键指标,温湿度的精准调控不仅承载着人们对舒适人居环境的期待,更深度关联着工业生产、科研实验及仓储物流等场景的运营效率与安全标准。从应用场景上看,智能家居领域要求温湿度系统实现与人体节律的协同调节,半导体洁净车间要求控制温湿度范围及其波动以保障良品率,而现代化仓储物流体系则依赖温湿度的实时监测预防各种产品的腐损与锈化。温湿度传感器作为实现温湿度监测的关键元器件,其重要性正在各行各业中凸显而出。温湿
    华普微HOPERF 2025-04-07 10:05 66浏览
  • 及时生产 JIT(Just In Time)的起源JIT 起源于 20 世纪 70 年代爆发的全球石油危机和由此引发的自然资源短缺,这对仰赖进口原物料发展经济的日本冲击最大。当时日本的生产企业为了增强竞争力、提高产品利润,在原物料成本难以降低的情况下,只能从生产和流通过程中寻找利润源,降低库存、库存和运输等方面的生产性费用。根据这种思想,日本丰田汽车公司创立的一种具有特色的现代化生产方式,即 JIT,并由此取得了意想不到的成果。由于它不断地用于汽车生产,随后被越来越多的许多行业和企业所采用,为日
    优思学院 2025-04-07 11:56 77浏览
  • 在影像软的发展历程中,美图曾凭借着美图秀秀等一系列产品,在“颜值经济”的赛道上占据了领先地位,成为了人们日常生活中不可或缺的一部分,也曾在资本市场上风光无限,2016 年上市时,市值一度超过46亿美元,备受瞩目。 然而,随着市场的不断发展和竞争的日益激烈,美图逐渐陷入了困境。商业模式单一,过度依赖在线广告收入,使得其在市场波动面前显得脆弱不堪;多元化尝试,涉足手机、电商、短视频、医美等多个领域,但大多以失败告终,不仅未能带来新的增长点,反而消耗了大量的资源。更为严峻的是,用户流失问题日
    用户1742991715177 2025-04-05 22:24 61浏览
  • 【拆解】+沈月同款CCD相机SONY DSC-P8拆解 这个清明假期,闲来无事,给大伙带来一个老古董物品的拆解--索尼SONY DSC-P8 CCD相机。这个产品是老婆好几年前在海鲜市场淘来的,由于显示屏老化,无法正常显示界面了,只有显示背光。但是这也无法阻止爱人的拍照。一顿盲操作依旧可以拍出CCD古董相机的质感。如下实拍: 由于这个相机目前都在吃灰。我就拿过来拆解,看看里面都是怎样个设计,满足下电子爱好者的探索。 首先给大伙展示下这台老相机的全貌。正视图  后视图 
    zhusx123 2025-04-06 17:38 78浏览
  • 引言:POPO声的成因与影响在语音芯片应用中,WT588F08A作为一款支持DAC+功放输出的高集成方案,常因电路设计或信号处理不当,在音频播放结束后出现POPO声(瞬态噪声)。这种噪声不仅影响用户体验,还可能暴露电路设计缺陷。本文将基于实际案例,解析POPO声的成因并提供系统化的解决方案。一、POPO声的根源分析1. 功放电路状态切换的瞬态冲击当DAC输出的音频信号突然停止时,功放芯片的输入端若处于高阻态或无信号状态,其内部放大电路会因电源电压突变产生瞬态电流,通过喇叭表现为POPO声。关键因
    广州唯创电子 2025-04-07 09:01 72浏览
  • 【拆解】+南孚测电器拆解 之前在天猫上买了一盒南孚电池,他给我送了一个小东西—测电器。今天我们就来拆解一下这个小东西,看看它是怎么设计和工作的。 三颗指示灯显示电池剩余电量。当点亮3颗LED时,则表示点亮充足。当点亮2颗LED时,则表示还能用。当点亮1颗LED时,表示点亮地建议更换,当无法点亮LED时,则表示没电了。外壳上还印有正负极,以免用户将电池放反。 这个小东西拆解也很方便,一个螺丝刀稍微撬几下。外壳就下来了,它是通过卡扣连接。 开盖后,测电线路板清晰呈现在眼前。 让我们看看小小的线路板有
    zhusx123 2025-04-05 15:41 47浏览
我要评论
0
1
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦