"老古董"向量处理机的前世今生(1):从辉煌到低谷

EETOP 2021-03-19 00:00

本文由公众号 MikesICroom 特约供稿

在之前的AI加速器的分析中我们曾经提到,针对这种特殊的计算密集型程序,很多古老的架构被开发出来,获得了意想不到的良好效果。最典型的例子就是TPU的systolic阵列。

在这些老古董中,有一种结构是通用处理器青睐有加的,比如ARM,INTEL以及最近炙手可热的RISC-V都增加或者增强了对该结构的支持。这就是向量处理机(Vector Processor)。

本系列文章希望通过对Vector架构的介绍和分析,探讨一下其在AI领域的应用前景。这个分析会分为几个章节,今天首先介绍下vector的历史。

Vector的辉煌时期

Vector这个概念是相对于Scalar提出的。最初的通用处理器都是标量处理器(Scalar Processor),即一条指令执行一个独立的运算,得到一个数据结果。在Flynn分类法中,这样的处理器也叫做单指令流单数据(SISD:Single Instruction Single Data)。随着对数据计算的需求提升,一个显而易见的方法就是对一组数据执行相同的操作,这样在不改变指令流的情况下,增加了数据的并行处理能力,即单指令流多数据(SIMD:Single Instruction Multiple Data)。

对Scalar执行单元和数据结构进行Replicate所形成的SIMD处理器就是我们通常意义上的Vector Processor,比如RISC-V的“V” extension,以及ARM的SVE(Scalable Vector Extension)。相反的,对scalar的数据结构进行split,形成了另外一种对小数据位宽进行并行加速的的方法,典型结构是Intel的MMX,ARM的DSP Extension以及NEON。

这两种方法在本质上是殊途同归的,都是为提升并行处理能力而提出。然而对于数据的packing和extension方式的不同,造成了两者在硬件设计的PPA,软硬件的扩展性,以及对编译的需求和支持上的差异,这也直接导致了后来这两种技术在商业化进程中截然不同的结果。后者在以ARM为核心的移动领域取得了巨大的成功,而Vector却在supercomputer中经历了短暂的辉煌,现在已经退出了主流领域。这其中的原因还需要另一个topic才能说清,这里不再细表。

虽然说现在Vector架构在商用处理器中日渐式微,在通用处理器刚刚兴起的上世纪70年代,Vector也曾经取得了辉煌发展的15年。这其中就不得不提到Vector的鼻祖,Cray(克雷)。

可以说是Cray一手将Vector架构推到了其历史的顶点。当年的通用处理器还是一个昂贵的产物,因此这阶段的CPU主要是用来构造Supercomputer的,也就是我们通常称作的大型机,只有少数大型企业和研究单位才能负担起购买和维护的费用。

1976年Cray-1的推出标志着Vector的兴起。Cray-1使用了以高性能Scalar unit为核心,配属Vector unit extension的结构,同时提出了Vector Register的概念,以load-store为基本访问模式,一举击败了当时其他架S构的Supercomputer。随着其他公司如NEC,Fujitsu和Hitachi的加入,Vector迎来了第一段高速发展的时代。从Cray-1开始之后的15年,Supercomputer几乎可以和Vector Processor直接划等号,可见其垄断地位。

从Cray-1的结构可以看出,其基本思路和现在的一些设计已经比较接近了。具有8个独立的Vector寄存器,支持多达64个Element的操作。和Vector分离的Scalar寄存器堆S和A可以独立的进行标量运算,也可以和Vector寄存器一起运算。Vector Mask寄存器可以阻挡不需计算的Elements,Vector Length寄存器记录了当前进行的elements长度。这两种机制在现代Vector处理器中一直被保留下来。在其中也能看到一些仍然流行的设计技巧,比如Memory banking,instruction buffer等机制,这表明当时Cray-1的很多思想还是比较先进的。

Vector走向衰落

好景不长,20世纪80年代之后,随着CMOS工艺的成熟,半导体行业开始进入高速发展期,摩尔定律也是在这个时期开始被奉为经典。制造成本的下降使得通用处理器这种原先异常昂贵的设备也开始进入寻常百姓家,成为消费计算机的核心部件。

小型和家用计算机提供了比超级计算机大的多的市场,对通用处理器的设计也提出了不同的需求。巨头Intel就是在这样一种情况下开启了它的传奇生涯。与此同时,Intel和它的X86系列的成功,却带来了另一个意想不到的结果。从超算Top 500的名单中我们看到,1993年有多达310个都是类Vector的架构,提供了将近占总算力的43%。而短短4年之后,这个数字就下降到了17%,而如今的形式更是不言而喻。

究竟是什么造成了Vector在Supercomputer领域如此迅速的溃败?

很多时候,商业上的成功并不能说明技术上的失败,虽然两者有很强的联系,但并不是必然因素,就像ARM和MIPS的结局。Vector的失败也并不是这个架构本身有重大缺陷,甚至可以说Vector的有些思想仍然是比较先进的,但在当时的技术条件和市场情况下,它的一些特性反而制约甚至是导致了其商业上的失利。

Vector的特征就是要使用高带宽和深流水来获得更大的并行度和频率,而这种设计的代价就是复杂度的提升和对存储近乎苛刻的需求,这两者最终体现为成本的提升。由于仅仅针对超算这样一个非常狭窄的市场,研发和制造的NRE费用分摊在每个设备上是非常高的,软件的开发和迭代也是缓慢艰难。而Intel的X86处理器是从消费领域入手,其巨大的市场大大降低了上述费用,导致它反过来进军超算时在成本上获得了很大优势。同时其广泛的应用也使得软件上的进步大大快于前者。

这样就造成了一个很尴尬的局面,Vector想要进军消费领域的话,其性能上的优势并不能带来更大收益,反而主要受到成本的制约。而Intel却可以利用低成本多堆核的简单方法切入Vector的地盘。

这里有一个问题,这样简单的堆砌能够超过Vector processor所能提供的peak performance么?最初当然是不能,但由于庞大的消费市场的反哺,能够使用X86进行编程和优化的程序员要远远多于前者。这些聪明的程序员针对X86的特点设计了更高效的Cache结构,Superscalar机制,以及被称为Symmetric Multiprocessor(SMP)的集群结构和通信方式。这些技术使得X86在超算领域也全面超越了以Cray为代表的Vector superprocessor。


“规模决定一切”。规模不但能够降低成本,从而具有更大的比较优势,同时也能够在规模的扩张中获得广阔的的生态,丰富的经验,最后反过来对技术予以提升。从消费者市场起家的Intel,就像农村包围城市那样,一开始就选择最广阔的领域站稳脚跟,然后再一步步的攻克这些孤立的城市据点,从超算到服务器,一步步的都被X86所占据。

从这个角度而言,未来AI领域的霸主,也许并不是现在看到的一些公司,它们使用复杂的技术设计超大型芯片,成本高昂但却出货寥寥,这样虽然在当下占据了AI超算的高点,但不久之后,在面对那些在广阔的AI蓝海市场中胜出的竞争者们,无论是成本、软件,生态,甚至性能上可能都无法与之抗衡,从而重蹈Cray对抗Intel的覆辙。这个可能性或许值得深思。

作为曾经的超算霸主,Cray在2019年被HPE以区区13亿美元收入囊中,与此同时Intel的市值高达3000亿美元,这个结果有些唏嘘却并不意外。不过,虽然作为supercomputer的Vector处理器已经逐渐走下历史舞台,但作为指令集架构的Vector ISA仍然在一些领域发挥着它的作用,而且也可能在未来取得更大的成功。下一次我们来探讨Vector ISA的发展和未来。

本文由 公众号:MikesICroom 供稿,大家可以关注MikesICroom,在后台回复“课程”获取斯坦福大学AI加速器课程资料

【参考资料/图片来源】

1. Computer Science 252, Lector 7: Vector Processing by David A. Patterson

2.https://developer.arm.com/architectures/instruction-sets/simd-isas/neon

3.https://www.slideserve.com/chinara/eecs-252-graduate-computer-architecture-lec-12-vector-computers

4.https://www.slideserve.com/chinara/eecs-252-graduate-computer-architecture-lec-12-vector-computers

5.https://cpu.zol.com.cn/31/313853.html?via=article

6.https://baike.baidu.com/pic/Cray/5624485/0/9c16fdfaaf51f3de1f836f5197eef01f3a2979d6?fr=lemma&ct=single#aid=0&pic=9c16fdfaaf51f3de1f836f5197eef01f3a2979d6

7.https://3c.3dmgame.com/show-30-9395-1.html

8.http://server.it168.com/a2016/0629/2750/000002750902.shtml

9.http://tech.sina.com.cn/other/2004-09-21/1024428796.shtml?from=wap


EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论
  • 在智能化技术快速发展当下,图像数据的采集与处理逐渐成为自动驾驶、工业等领域的一项关键技术。高质量的图像数据采集与算法集成测试都是确保系统性能和可靠性的关键。随着技术的不断进步,对于图像数据的采集、处理和分析的需求日益增长,这不仅要求我们拥有高性能的相机硬件,还要求我们能够高效地集成和测试各种算法。我们探索了一种多源相机数据采集与算法集成测试方案,能够满足不同应用场景下对图像采集和算法测试的多样化需求,确保数据的准确性和算法的有效性。一、相机组成相机一般由镜头(Lens),图像传感器(Image
    康谋 2024-12-12 09:45 81浏览
  • 铁氧体芯片是一种基于铁氧体磁性材料制成的芯片,在通信、传感器、储能等领域有着广泛的应用。铁氧体磁性材料能够通过外加磁场调控其导电性质和反射性质,因此在信号处理和传感器技术方面有着独特的优势。以下是对半导体划片机在铁氧体划切领域应用的详细阐述: 一、半导体划片机的工作原理与特点半导体划片机是一种使用刀片或通过激光等方式高精度切割被加工物的装置,是半导体后道封测中晶圆切割和WLP切割环节的关键设备。它结合了水气电、空气静压高速主轴、精密机械传动、传感器及自动化控制等先进技术,具有高精度、高
    博捷芯划片机 2024-12-12 09:16 87浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 115浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 173浏览
  • 首先在gitee上打个广告:ad5d2f3b647444a88b6f7f9555fd681f.mp4 · 丙丁先生/香河英茂工作室中国 - Gitee.com丙丁先生 (mr-bingding) - Gitee.com2024年对我来说是充满挑战和机遇的一年。在这一年里,我不仅进行了多个开发板的测评,还尝试了多种不同的项目和技术。今天,我想分享一下这一年的故事,希望能给大家带来一些启发和乐趣。 年初的时候,我开始对各种开发板进行测评。从STM32WBA55CG到瑞萨、平头哥和平海的开发板,我都
    丙丁先生 2024-12-11 20:14 78浏览
  • 近日,搭载紫光展锐W517芯片平台的INMO GO2由影目科技正式推出。作为全球首款专为商务场景设计的智能翻译眼镜,INMO GO2 以“快、准、稳”三大核心优势,突破传统翻译产品局限,为全球商务人士带来高效、自然、稳定的跨语言交流体验。 INMO GO2内置的W517芯片,是紫光展锐4G旗舰级智能穿戴平台,采用四核处理器,具有高性能、低功耗的优势,内置超微高集成技术,采用先进工艺,计算能力相比同档位竞品提升4倍,强大的性能提供更加多样化的应用场景。【视频见P盘链接】 依托“
    紫光展锐 2024-12-11 11:50 78浏览
  • 全球智能电视时代来临这年头若是消费者想随意地从各个通路中选购电视时,不难发现目前市场上的产品都已是具有智能联网功能的智能电视了,可以宣告智能电视的普及时代已到临!Google从2021年开始大力推广Google TV(即原Android TV的升级版),其他各大品牌商也都跟进推出搭载Google TV操作系统的机种,除了Google TV外,LG、Samsung、Panasonic等大厂牌也开发出自家的智能电视平台,可以看出各家业者都一致地看好这块大饼。智能电视的Wi-Fi连线怎么消失了?智能电
    百佳泰测试实验室 2024-12-12 17:33 66浏览
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 66浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-11 17:58 88浏览
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 99浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-12 10:13 46浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 114浏览
  • 本文介绍瑞芯微RK3588主板/开发板Android12系统下,APK签名文件生成方法。触觉智能EVB3588开发板演示,搭载了瑞芯微RK3588芯片,该开发板是核心板加底板设计,音视频接口、通信接口等各类接口一应俱全,可帮助企业提高产品开发效率,缩短上市时间,降低成本和设计风险。工具准备下载Keytool-ImportKeyPair工具在源码:build/target/product/security/系统初始签名文件目录中,将以下三个文件拷贝出来:platform.pem;platform.
    Industio_触觉智能 2024-12-12 10:27 79浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 88浏览
  • 应用环境与极具挑战性的测试需求在服务器制造领域里,系统整合测试(System Integration Test;SIT)是确保产品质量和性能的关键步骤。随着服务器系统的复杂性不断提升,包括:多种硬件组件、操作系统、虚拟化平台以及各种应用程序和服务的整合,服务器制造商面临着更有挑战性的测试需求。这些挑战主要体现在以下五个方面:1. 硬件和软件的高度整合:现代服务器通常包括多个处理器、内存模块、储存设备和网络接口。这些硬件组件必须与操作系统及应用软件无缝整合。SIT测试可以帮助制造商确保这些不同组件
    百佳泰测试实验室 2024-12-12 17:45 74浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦