"老古董"向量处理机的前世今生(1):从辉煌到低谷

EETOP 2021-03-19 00:00

本文由公众号 MikesICroom 特约供稿

在之前的AI加速器的分析中我们曾经提到,针对这种特殊的计算密集型程序,很多古老的架构被开发出来,获得了意想不到的良好效果。最典型的例子就是TPU的systolic阵列。

在这些老古董中,有一种结构是通用处理器青睐有加的,比如ARM,INTEL以及最近炙手可热的RISC-V都增加或者增强了对该结构的支持。这就是向量处理机(Vector Processor)。

本系列文章希望通过对Vector架构的介绍和分析,探讨一下其在AI领域的应用前景。这个分析会分为几个章节,今天首先介绍下vector的历史。

Vector的辉煌时期

Vector这个概念是相对于Scalar提出的。最初的通用处理器都是标量处理器(Scalar Processor),即一条指令执行一个独立的运算,得到一个数据结果。在Flynn分类法中,这样的处理器也叫做单指令流单数据(SISD:Single Instruction Single Data)。随着对数据计算的需求提升,一个显而易见的方法就是对一组数据执行相同的操作,这样在不改变指令流的情况下,增加了数据的并行处理能力,即单指令流多数据(SIMD:Single Instruction Multiple Data)。

对Scalar执行单元和数据结构进行Replicate所形成的SIMD处理器就是我们通常意义上的Vector Processor,比如RISC-V的“V” extension,以及ARM的SVE(Scalable Vector Extension)。相反的,对scalar的数据结构进行split,形成了另外一种对小数据位宽进行并行加速的的方法,典型结构是Intel的MMX,ARM的DSP Extension以及NEON。

这两种方法在本质上是殊途同归的,都是为提升并行处理能力而提出。然而对于数据的packing和extension方式的不同,造成了两者在硬件设计的PPA,软硬件的扩展性,以及对编译的需求和支持上的差异,这也直接导致了后来这两种技术在商业化进程中截然不同的结果。后者在以ARM为核心的移动领域取得了巨大的成功,而Vector却在supercomputer中经历了短暂的辉煌,现在已经退出了主流领域。这其中的原因还需要另一个topic才能说清,这里不再细表。

虽然说现在Vector架构在商用处理器中日渐式微,在通用处理器刚刚兴起的上世纪70年代,Vector也曾经取得了辉煌发展的15年。这其中就不得不提到Vector的鼻祖,Cray(克雷)。

可以说是Cray一手将Vector架构推到了其历史的顶点。当年的通用处理器还是一个昂贵的产物,因此这阶段的CPU主要是用来构造Supercomputer的,也就是我们通常称作的大型机,只有少数大型企业和研究单位才能负担起购买和维护的费用。

1976年Cray-1的推出标志着Vector的兴起。Cray-1使用了以高性能Scalar unit为核心,配属Vector unit extension的结构,同时提出了Vector Register的概念,以load-store为基本访问模式,一举击败了当时其他架S构的Supercomputer。随着其他公司如NEC,Fujitsu和Hitachi的加入,Vector迎来了第一段高速发展的时代。从Cray-1开始之后的15年,Supercomputer几乎可以和Vector Processor直接划等号,可见其垄断地位。

从Cray-1的结构可以看出,其基本思路和现在的一些设计已经比较接近了。具有8个独立的Vector寄存器,支持多达64个Element的操作。和Vector分离的Scalar寄存器堆S和A可以独立的进行标量运算,也可以和Vector寄存器一起运算。Vector Mask寄存器可以阻挡不需计算的Elements,Vector Length寄存器记录了当前进行的elements长度。这两种机制在现代Vector处理器中一直被保留下来。在其中也能看到一些仍然流行的设计技巧,比如Memory banking,instruction buffer等机制,这表明当时Cray-1的很多思想还是比较先进的。

Vector走向衰落

好景不长,20世纪80年代之后,随着CMOS工艺的成熟,半导体行业开始进入高速发展期,摩尔定律也是在这个时期开始被奉为经典。制造成本的下降使得通用处理器这种原先异常昂贵的设备也开始进入寻常百姓家,成为消费计算机的核心部件。

小型和家用计算机提供了比超级计算机大的多的市场,对通用处理器的设计也提出了不同的需求。巨头Intel就是在这样一种情况下开启了它的传奇生涯。与此同时,Intel和它的X86系列的成功,却带来了另一个意想不到的结果。从超算Top 500的名单中我们看到,1993年有多达310个都是类Vector的架构,提供了将近占总算力的43%。而短短4年之后,这个数字就下降到了17%,而如今的形式更是不言而喻。

究竟是什么造成了Vector在Supercomputer领域如此迅速的溃败?

很多时候,商业上的成功并不能说明技术上的失败,虽然两者有很强的联系,但并不是必然因素,就像ARM和MIPS的结局。Vector的失败也并不是这个架构本身有重大缺陷,甚至可以说Vector的有些思想仍然是比较先进的,但在当时的技术条件和市场情况下,它的一些特性反而制约甚至是导致了其商业上的失利。

Vector的特征就是要使用高带宽和深流水来获得更大的并行度和频率,而这种设计的代价就是复杂度的提升和对存储近乎苛刻的需求,这两者最终体现为成本的提升。由于仅仅针对超算这样一个非常狭窄的市场,研发和制造的NRE费用分摊在每个设备上是非常高的,软件的开发和迭代也是缓慢艰难。而Intel的X86处理器是从消费领域入手,其巨大的市场大大降低了上述费用,导致它反过来进军超算时在成本上获得了很大优势。同时其广泛的应用也使得软件上的进步大大快于前者。

这样就造成了一个很尴尬的局面,Vector想要进军消费领域的话,其性能上的优势并不能带来更大收益,反而主要受到成本的制约。而Intel却可以利用低成本多堆核的简单方法切入Vector的地盘。

这里有一个问题,这样简单的堆砌能够超过Vector processor所能提供的peak performance么?最初当然是不能,但由于庞大的消费市场的反哺,能够使用X86进行编程和优化的程序员要远远多于前者。这些聪明的程序员针对X86的特点设计了更高效的Cache结构,Superscalar机制,以及被称为Symmetric Multiprocessor(SMP)的集群结构和通信方式。这些技术使得X86在超算领域也全面超越了以Cray为代表的Vector superprocessor。


“规模决定一切”。规模不但能够降低成本,从而具有更大的比较优势,同时也能够在规模的扩张中获得广阔的的生态,丰富的经验,最后反过来对技术予以提升。从消费者市场起家的Intel,就像农村包围城市那样,一开始就选择最广阔的领域站稳脚跟,然后再一步步的攻克这些孤立的城市据点,从超算到服务器,一步步的都被X86所占据。

从这个角度而言,未来AI领域的霸主,也许并不是现在看到的一些公司,它们使用复杂的技术设计超大型芯片,成本高昂但却出货寥寥,这样虽然在当下占据了AI超算的高点,但不久之后,在面对那些在广阔的AI蓝海市场中胜出的竞争者们,无论是成本、软件,生态,甚至性能上可能都无法与之抗衡,从而重蹈Cray对抗Intel的覆辙。这个可能性或许值得深思。

作为曾经的超算霸主,Cray在2019年被HPE以区区13亿美元收入囊中,与此同时Intel的市值高达3000亿美元,这个结果有些唏嘘却并不意外。不过,虽然作为supercomputer的Vector处理器已经逐渐走下历史舞台,但作为指令集架构的Vector ISA仍然在一些领域发挥着它的作用,而且也可能在未来取得更大的成功。下一次我们来探讨Vector ISA的发展和未来。

本文由 公众号:MikesICroom 供稿,大家可以关注MikesICroom,在后台回复“课程”获取斯坦福大学AI加速器课程资料

【参考资料/图片来源】

1. Computer Science 252, Lector 7: Vector Processing by David A. Patterson

2.https://developer.arm.com/architectures/instruction-sets/simd-isas/neon

3.https://www.slideserve.com/chinara/eecs-252-graduate-computer-architecture-lec-12-vector-computers

4.https://www.slideserve.com/chinara/eecs-252-graduate-computer-architecture-lec-12-vector-computers

5.https://cpu.zol.com.cn/31/313853.html?via=article

6.https://baike.baidu.com/pic/Cray/5624485/0/9c16fdfaaf51f3de1f836f5197eef01f3a2979d6?fr=lemma&ct=single#aid=0&pic=9c16fdfaaf51f3de1f836f5197eef01f3a2979d6

7.https://3c.3dmgame.com/show-30-9395-1.html

8.http://server.it168.com/a2016/0629/2750/000002750902.shtml

9.http://tech.sina.com.cn/other/2004-09-21/1024428796.shtml?from=wap


EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论
  • 在不断发展的电子元件领域,继电器——作为切换电路的关键设备,正在经历前所未有的技术变革。固态继电器(SSR)和机械继电器之间的争论由来已久。然而,从未来发展的角度来看,固态继电器正逐渐占据上风。本文将从耐用性、速度和能效三个方面,全面剖析固态继电器为何更具优势,并探讨其在行业中的应用与发展趋势。1. 耐用性:经久耐用的设计机械继电器:机械继电器依靠物理触点完成电路切换。然而,随着时间的推移,这些触点因电弧、氧化和材料老化而逐渐磨损,导致其使用寿命有限。因此,它们更适合低频或对切换耐久性要求不高的
    腾恩科技-彭工 2025-01-10 16:15 88浏览
  •   在信号处理过程中,由于信号的时域截断会导致频谱扩展泄露现象。那么导致频谱泄露发生的根本原因是什么?又该采取什么样的改善方法。本文以ADC性能指标的测试场景为例,探讨了对ADC的输出结果进行非周期截断所带来的影响及问题总结。 两个点   为了更好的分析或处理信号,实际应用时需要从频域而非时域的角度观察原信号。但物理意义上只能直接获取信号的时域信息,为了得到信号的频域信息需要利用傅里叶变换这个工具计算出原信号的频谱函数。但对于计算机来说实现这种计算需要面对两个问题: 1.
    TIAN301 2025-01-14 14:15 53浏览
  • ARMv8-A是ARM公司为满足新需求而重新设计的一个架构,是近20年来ARM架构变动最大的一次。以下是对ARMv8-A的详细介绍: 1. 背景介绍    ARM公司最初并未涉足PC市场,其产品主要针对功耗敏感的移动设备。     随着技术的发展和市场需求的变化,ARM开始扩展到企业设备、服务器等领域,这要求其架构能够支持更大的内存和更复杂的计算任务。 2. 架构特点    ARMv8-A引入了Execution State(执行状
    丙丁先生 2025-01-12 10:30 420浏览
  • PNT、GNSS、GPS均是卫星定位和导航相关领域中的常见缩写词,他们经常会被用到,且在很多情况下会被等同使用或替换使用。我们会把定位导航功能测试叫做PNT性能测试,也会叫做GNSS性能测试。我们会把定位导航终端叫做GNSS模块,也会叫做GPS模块。但是实际上他们之间是有一些重要的区别。伴随着技术发展与越发深入,我们有必要对这三个词汇做以清晰的区分。一、什么是GPS?GPS是Global Positioning System(全球定位系统)的缩写,它是美国建立的全球卫星定位导航系统,是GNSS概
    德思特测试测量 2025-01-13 15:42 430浏览
  • 01. 什么是过程能力分析?过程能力研究利用生产过程中初始一批产品的数据,预测制造过程是否能够稳定地生产符合规格的产品。可以把它想象成一种预测。通过历史数据的分析,推断未来是否可以依赖该工艺持续生产高质量产品。客户可能会要求将过程能力研究作为生产件批准程序 (PPAP) 的一部分。这是为了确保制造过程能够持续稳定地生产合格的产品。02. 基本概念在定义制造过程时,目标是确保生产的零件符合上下规格限 (USL 和 LSL)。过程能力衡量制造过程能多大程度上稳定地生产符合规格的产品。核心概念很简单:
    优思学院 2025-01-12 15:43 461浏览
  • 新年伊始,又到了对去年做总结,对今年做展望的时刻 不知道你在2024年初立的Flag都实现了吗? 2025年对自己又有什么新的期待呢? 2024年注定是不平凡的一年, 一年里我测评了50余块开发板, 写出了很多科普文章, 从一个小小的工作室成长为科工公司。 展望2025年, 中国香河英茂科工, 会继续深耕于,具身机器人、飞行器、物联网等方面的研发, 我觉得,要向未来学习未来, 未来是什么? 是掌握在孩子们生活中的发现,和精历, 把最好的技术带给孩子,
    丙丁先生 2025-01-11 11:35 419浏览
  • 随着数字化的不断推进,LED显示屏行业对4K、8K等超高清画质的需求日益提升。与此同时,Mini及Micro LED技术的日益成熟,推动了间距小于1.2 Pitch的Mini、Micro LED显示屏的快速发展。这类显示屏不仅画质卓越,而且尺寸适中,通常在110至1000英寸之间,非常适合应用于电影院、监控中心、大型会议、以及电影拍摄等多种室内场景。鉴于室内LED显示屏与用户距离较近,因此对于噪音控制、体积小型化、冗余备份能力及电气安全性的要求尤为严格。为满足这一市场需求,开关电源技术推出了专为
    晶台光耦 2025-01-13 10:42 446浏览
  • 随着通信技术的迅速发展,现代通信设备需要更高效、可靠且紧凑的解决方案来应对日益复杂的系统。中国自主研发和制造的国产接口芯片,正逐渐成为通信设备(从5G基站到工业通信模块)中的重要基石。这些芯片凭借卓越性能、成本效益及灵活性,满足了现代通信基础设施的多样化需求。 1. 接口芯片在通信设备中的关键作用接口芯片作为数据交互的桥梁,是通信设备中不可或缺的核心组件。它们在设备内的各种子系统之间实现无缝数据传输,支持高速数据交换、协议转换和信号调节等功能。无论是5G基站中的数据处理,还是物联网网关
    克里雅半导体科技 2025-01-10 16:20 415浏览
  • 流量传感器是实现对燃气、废气、生活用水、污水、冷却液、石油等各种流体流量精准计量的关键手段。但随着工业自动化、数字化、智能化与低碳化进程的不断加速,采用传统机械式检测方式的流量传感器已不能满足当代流体计量行业对于测量精度、测量范围、使用寿命与维护成本等方面的精细需求。流量传感器的应用场景(部分)超声波流量传感器,是一种利用超声波技术测量流体流量的新型传感器,其主要通过发射超声波信号并接收反射回来的信号,根据超声波在流体中传播的时间、幅度或相位变化等参数,间接计算流体的流量,具有非侵入式测量、高精
    华普微HOPERF 2025-01-13 14:18 428浏览
  • 随着全球向绿色能源转型的加速,对高效、可靠和环保元件的需求从未如此强烈。在这种背景下,国产固态继电器(SSR)在实现太阳能逆变器、风力涡轮机和储能系统等关键技术方面发挥着关键作用。本文探讨了绿色能源系统背景下中国固态继电器行业的前景,并强调了2025年的前景。 1.对绿色能源解决方案日益增长的需求绿色能源系统依靠先进的电源管理技术来最大限度地提高效率并最大限度地减少损失。固态继电器以其耐用性、快速开关速度和抗机械磨损而闻名,正日益成为传统机电继电器的首选。可再生能源(尤其是太阳能和风能
    克里雅半导体科技 2025-01-10 16:18 317浏览
  • 根据Global Info Research(环洋市场咨询)项目团队最新调研,预计2030年全球无人机电池和电源产值达到2834百万美元,2024-2030年期间年复合增长率CAGR为10.1%。 无人机电池是为无人机提供动力并使其飞行的关键。无人机使用的电池类型因无人机的大小和型号而异。一些常见的无人机电池类型包括锂聚合物(LiPo)电池、锂离子电池和镍氢(NiMH)电池。锂聚合物电池是最常用的无人机电池类型,因为其能量密度高、设计轻巧。这些电池以输出功率大、飞行时间长而著称。不过,它们需要
    GIRtina 2025-01-13 10:49 144浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦