图形处理器的历史(四)——通用GPU的到来（2006-2013）

半导体产业纵横 2022-04-17 18:00

数字万用表多少钱合适？ 精密双向电流感应放大器设计方案

第一个使用DirectX10架构的GPU是英伟达标志性的G80。

编译来源：techspot

（在之前的文章图形处理器的历史（一）中主要介绍了消费级3D图形卡的早期发展、在GPU的历史（二）中具体介绍了3Dfx Voodoo是怎么改变游戏规则的、在图形处理器的历史（三）中对3Dfx的衰落与英伟达、ATI两大巨头的崛起做了说明，感兴趣的读者可点击链接进行查看。）

在DirectX 10问世之前，没有必要通过扩大裸片面积来增加不必要的复杂性，这增加了顶点着色器的功能，为了满足顶点操作的要求，还将像素着色器的浮点精度从24位提高到32位。随着DX10的到来，顶点和像素着色器很大程度上保持了通用功能，因此移动到统一的着色器拱门消除了大量不必要的重复处理块。第一个使用这种架构的GPU是英伟达标志性的G80。

经过4年的研发和4.75亿美元的投入，终于在11月8日生产出了一款拥有6.81亿晶体管、484mm²的庞然大物——首次成为8800GTX旗舰产品，并于11月8日成为8800GTS 640MB。超频GTX 8800Ultra代表了G80的巅峰，发布时间夹在两个较小产品之间：2月推出的320MB GTS和2007年11月19日推出限量生产的GTS 640MB/112 Core。

在新的Coverage Sample抗锯齿（CSAA）算法的帮助下，英伟达满意地看到其高性能GTX击败了每一个单显卡和双显卡竞争对手。尽管取得了成功，该公司在第四季度的独立显卡市场份额却下降了3个百分点——而AMD凭借OEM合同的优势获得了增长。

MSI的GeForce 8800 GTX版本

英伟达关于G80的商业战略的其余部分分别在2007年2月和6月成为现实。为了支持利用GPU高度并行特性的生态系统，基于C语言的CUDA平台SDK（软件开发工具包）以测试版形式发布。英伟达的PhysX物理引擎及其分布式计算项目、专业虚拟化和OptiX（英伟达的光线跟踪引擎）是使用CUDA的更受关注的应用程序。

英伟达和ATI（现在的AMD）都将不断增长的计算功能集成到图形管道中。ATI/AMD会选择依赖开发人员和委员会来实现OpenCL路径，而英伟达则有更直接的CUDA和高性能计算计划。

为此，英伟达在6月推出了Tesla系列数学协处理器，最初基于已为GeForce和Quadro FX 4600/5600提供动力的相同G80内核，并且经过长时间的开发，其中至少包括两个主要调试练习，AMD在5月份发布了R600。

媒体大肆炒作这是AMD对8800 GTX的回应，使得该发布备受期待，但最终推出的HD 2900 XT却令人失望。它是一款中高端显卡，与发烧友板的功耗相结合，比任何其他当代解决方案都消耗更多的电量。

R600的失误在ATI内部产生了深远的影响，为了赶在最后期限内有最大限度的发布机会，促使ATI进行战略改变。RV770 （Evergreen）以及南北群岛系列的执行情况有所改善。

R600不仅是迄今为止最大的ATI/AMD GPU，面积为420mm²，还拥有多项GPU第一。这是AMD的第一款DirectX 10芯片，它也是唯一一款带有512位内存总线的GPU，第一款带有tessellator单元的供应商台式芯片（由于缺乏游戏开发者和DirectX的支持，该芯片基本上没有被使用），第一款支持HDMI集成音频的GPU，以及第一款使用VLIW的GPU，这种架构一直沿用到现在的8000系列。这也是自Radeon 7500以来，ATI/AMD首次在价格和性能方面没有推出顶级显卡。

AMD将R600升级为RV670，将GPU从台积电的80nm制程缩减为55nm节点，并将512位双向内存环总线替换为更标准的256位。这使得R600的裸片面积减少了一半，同时封装了几乎相同数量的晶体管（6.66亿个，而R600为7亿个）。AMD还更新了DX10.1的GPU，并增加了对PCI Express 2.0的支持，所有这些都足以让HD 2000系列与主流的GeForce 8800 GT和其他较小的显卡竞争。

在缺乏高端GPU的情况下，AMD于2008年1月推出了两款双GPU显卡，以及满足较低预算的rv620 /635显卡。HD 3850 X2在4月份上市，最后一张All-In-Wonder品牌显卡HD 3650在6月份上市。双GPU显卡在发布时附带经过优化的驱动程序包立即引起了评论家和消费者的注意。HD 3870 X2轻松地成为最快的单显卡，而HD 3850 X2也没有慢多少。与英伟达的SLI解决方案不同，AMD采用通用ASIC来支持Crossfire 卡。

Radeon HD 3870 X2将两个GPU放在一张卡中

继G80的成功后，英伟达于10月29日推出了8800 GT的G92，受到科技网站的广泛好评，这主要是由于其极具竞争力的价格。512MB显卡的价格介于199美元到249美元之间，性能优于基于G80的8800 GTS。它基本上超过了HD 2900xt和HD 3870。HD 2900xt和HD 3870比GT晚发布三周，总体上与GTX的差距在80%以内。不出所料，这导致了几周内8800 GTS短缺。对英伟达的新竞争者及其8600 GS/GT同款的强劲需求，帮助该公司在年底前获得了71%的独立市场份额。

继GT之后，英伟达于12月11日推出了基于G92的8800 GTS 512MB。虽然GTS在性能上普遍落后于GT，但它的可取之处是使用了更好的内置GPU，在超频时基本上可以与GTX和价格不菲的8800 Ultra相当。

GeForce 8系列还有后续，不幸的是，在某些G86, G84, G73, G72/72M图形处理器、以及C51和MCP67图形芯片组的BGA中使用了高铅焊料，这与低温度的底填充，不充分的冷却和密集的热/冷循环制度导致了过多的显卡故障。

2008年年中，英伟达改用了AMD使用的日立共晶（高锡）焊料，并显著改变了8800 GT冷却器的单槽参考设计，增加了更多风扇叶片，并调整了护罩，以促进更高的气流。G92也被怀疑受到底部填充不足问题的影响，尽管8800 GTS 512M的双槽设计和非参考冷却卡似乎没有受到太大的影响。

英伟达公司在此次事件中收取了4.759亿美元的费用，这导致英伟达笔记本电脑OEM厂商遭到了消费者的强烈反对。在这件事被公开之前，这两家厂商已经知道这件事有一段时间了。英伟达在行业内的地位将永远与它的历史最低点联系在一起。

如果说8系列是英伟达的技术胜利，那么9系列则带来了停滞期。该系列的亮点还在于 2008年2月推出的第一款机型。9600 GT基于“新”G94，它只不过是基于相同65nm台积电工艺制造的前一年G92的缩减版。

AMD在HD 3870和HD 3850上的降价，以及英伟达8800 GS和GT的降价，使得9系的其余产品几乎完全处于品牌重塑的旗帜之下。

最初的9800 GT是8800 GT的重新定位，而8800 GTs （G92）演变为9800 GTX。过渡到台积电的55nm工艺后使G92的面积减少了20%，时钟频率也有了小幅度的提升，生产出9800 GTX+，同样的OEM GTS 150，以及在8系列卡推出15个月后进入零售渠道的GTS 250。

由于姗姗来迟的的旗舰产品GT200，以及AMD的HD 3870 X2在单卡竞赛中处于领先地位，英伟达采取了将两个9800 GX2夹在一起的传统方法，将GPU数量增加了一倍，从而生产出了9800 GX2。尽管它赢得了基准比赛，但多数观察人士很快就注意到，以3个单独9800 GT的价格出售一个双9800 GT，充其量也只能吸引有限的人。

GTX 260板上的英伟达G200 GPU

截至6月，英伟达发布了GT200 GPU的GTX 260和GTX 280，这是一个576mm²的部件，代表了迄今为止最大的生产GPU芯片（英特尔的Larrabee估计在600-700mm²），也是台积电制造的最大的生产芯片。

GT200重申了英伟达希望通过将专用双精度（FP64）和计算硬件整合到设计中，将GPGPU推向聚光灯下。以游戏为导向的架构变化较为温和，但这并没有阻止英伟达将280的价格定为649美元，也没有阻止该公司推出3D视觉（3D游戏和视频）驱动程序，以及3D快门眼镜和红外发射器——这是一个非常昂贵的软件包。

HD 4870和4850上市后，价格急剧下降，GTX 280下降38%至400美元，GTX 260下降25%至299美元。

AMD用RV770回应了GT200和G92。第一款卡是较低主流的HD 4730，于6月8日推出，紧随其后的是主流和性能市场HD 4850和4870。由于规格泄露，商店在NDA 到期前一周就开始销售HD 4850，HD 4850的发布失去了一定影响力——这是现在的普遍现象，但在2008年却不那么普遍。

4870和4850成为第一个使用GDDR5内存的消费级显卡，18个月后，英伟达最终通过基于GT215的GT 240实现了这两款显卡。

HD4870和4850凭借其广泛的功能列表赢得了好评，包括7.1LCPM的HDMI声音、通用性能和多GPU扩展，当然还有价格。该卡的唯一缺点是，在参考板的电压调节部件上会产生局部高温，这会导致不成比例的故障率和锁定，特别是在使用Furmark等老化软件时。

为了与上一代产品保持一致，以及缩短GTX 280两个月的统治，AMD在8月发布了HD 4870 X2。该显卡很快就在包括性能在内的大多数类别的评测基准图表中占据了首位，但由于参考鼓风机，它也在噪音输出和热量产生类别中位置靠前。

Radeon HD 4870 X2（上图）和 Radeon HD 4870

2009年1月，当GT200转移到台积电55nm工艺时，英伟达的产品线只进行了一次增量调整。55nm在B3修订版芯片中得到了应用，该芯片于去年9月作为GTX 260的核心216版本首次亮相。该公司提供了GTX 295，其中包括两个削减（ROPs和内存总线）GT200-B3。

该显卡的单GPU变体于4月以GTX 275的形式推出。AMD的回应也是如此：改进的rv790xt驱动的HD 4890和HD 4770 （RV740），这也是AMD的第一张40nm显卡。

虽然HD 4770本身并不是主要产品，但它给AMD带来了台积电40nm工艺的重要经验，该工艺在电流泄漏方面产生了很大的差异，由于GPU裸片中金属层之间的连接不完整，导致电流泄漏的差异很大，缺陷率也很高。有了这些工作知识，AMD就能够改进英伟达在其Fermi架构下面临的代工工艺问题——这些问题还没有在英伟达最初的微型40nm GPU上出现。

今年7月，英伟达推出了其首个40nm产品。入门级GT216和GT218以GeForce 205、210和GT 220的形式出现，所有这些都是OEM产品，直到10月后两者进入零售市场。值得关注的是，英伟达的第一张DX10.1卡——AMD在HD 4870/4850上实现了这一点——以及通过7.1音频、无损LPCM音频、杜比TrueHD/DTS-HD/-HD-MA比特流和HDMI音频等改进的声音能力。该系列的目标是家庭影院市场，并最终在2010年2月更名为300系列。

在2009年9月到2010年2月的4个月里，AMD全面推出了四款GPU（Cypress、Juniper、Redwood和Cedar）的全面发布，它们组成了Evergreen系列，首先是顶级的HD 5870，一周后是中高档的HD 5850。

由于供不应求，台积电陷入困境的40nm工艺打击了AMD利用英伟达Fermi No-Show的能力。这在很大程度上是由于AMD有能力将Evergreen的版本与Windows7同步，并采用了DirectX11。

虽然DX11花了时间在Evergreen上展示了巨大的价值，但HD 5000引入的另一项功能以Eyefinity的形式立即产生了影响，Eyefinity依赖于DisplayPort的灵活性，每个板可以支持多达六条显示管道。它们由路由到常规DAC或内部TMDS发射机和显示端口的组合。

以前的显卡通常使用VGA、DVI和HDMI的组合，所有这些都需要一个专用的时钟源。这增加了GPU的复杂性、尺寸和引脚数。DisplayPort消除了对独立时钟的需求，并为AMD在其硬件中集成多达6个显示管道开辟了道路，而软件仍然负责提供用户体验。这包括边框补偿和在最佳分辨率下跨越面板的显示。

Evergreen系列全面成为一流的领导者（除了纹理过滤问题），HD5850和HD5770吸引了大量注重成本的玩家，HD5870和双GPUHD5970提供了无与伦比的性能和效率。

6个月后的4月12日，英伟达终于推出了第一块Fermi板，采用GTX 470和480。Fermi公司的所有芯片都没有完全功能，就像下面的GF104一样，由于英伟达对GDDR5 I/O缺乏经验，因此Fermi的核心速度相当保守，以抑制功耗，内存带宽也较低。

由于GF100 Fermi的芯片尺寸为529mm²，台积电40纳米工艺的良率还达不到最佳水平，这已经导致AMD出现供应问题。由于芯片尺寸，良率，功率要求和热量输出都密不可分，英伟达的400系列与AMD的产品相比，在游戏性能上付出了高昂的代价。

Quadro和Tesla版的GF100在市场上几乎没有受到影响，如果有的话，这要归功于专业市场内的生态系统。此次发布没有让人失望的方面是引入了透明超级采样抗锯齿（TrSSAA），它将与现场覆盖采样AA （CSAA）一起使用。

虽然GTX 480的反应不温不火，但英伟达的第二款Fermi芯片，GTX 460中的主流GF104却取得了巨大的成功。它以优惠的价格提供了良好的性能，192位/768MB售价199美元，256位/1GB售价229美元。由于英伟达选择保守的参考时钟来帮助降低功耗，他们推出了许多非参考和工厂超频卡，这些卡具有很大的超频空间。

460的好评部分源于GF100上市后的低预期。据推测，GF104的容量不超过GF100的一半，与AMD的Cypress GPU相比，其遭受的影响非常大。事实证明这是错误的。第二个惊喜等待着博客“专家”和AMD，英伟达在11月推出新版GF100，即GF110。

升级后的芯片实现了之前的芯片无法实现的功能，即实现了整个芯片的功能。最终得到的GTX 570和580是最初400系列的期望值。

第一款AMD Northern Islands系列GPU Barts于10月到货。Barts更像是Evergreen的演变，旨在降低Cypress裸片的生产成本。GPU并没有显著提高性能，而是看起来与之前的HD 5830和HD 5850相当，但大大节省了GPU的尺寸。AMD削减了流处理器（着色器）的数量，彻底检查并减少了内存控制器的物理尺寸（以及相应的内存速度降低），并取消了执行双精度计算的能力。但是，Barts确实在Evergreen上进行了细分升级。

虽然性能的提升并不显著，但AMD确实升级了显示技术。DisplayPort被推到1.2（从一个端口驱动多显示器的能力，120Hz刷新高分辨率显示器，和位流音频），HDMI到1.4a （3D 1080p视频播放，4K屏幕分辨率），公司增加了一个更新的视频解码器与DivX支持。

AMD还通过引入形态抗锯齿（MLAA）来改进驱动程序的功能设置，这是一个后期处理的模糊滤镜，其功能尤其是在发布时会受到极大的影响。

HD 6970和HD 6950的推出为具有EQAA（增强质量AA）的Catalyst驱动程序增加了传统的AA模式，而AMD还实现了对HD3D的支持，这充其量是片状的，以及动态功耗，这一次使用PowerTune进行了分析。

一般来说，Cayman部件优于第一代Fermi芯片。他们本应胜过他们，但落后于第二代（GTX 500s）几个百分点，随后两个阵营的驱动程序发布进一步增加了差异。

Cayman 11月的发布被推迟了一个月，HD6970和6950在12月15日发布，它代表了与VLIW5体系结构的（短暂）背离，而VLIW5体系架构自R300系列以来一直在使用。该公司转而使用VLIW4，它在每个流处理块中删除了第五个特殊功能（或超越）执行单元。

这旨在为DX9（及更早版本）游戏中撤回过多的资源，同时增加图形管道的更多面向计算的重组。

Trinity和Richland系列APU的集成显卡是VLIW4的唯一其他部件，而AMD最新的图形架构基于GCN（Graphics Core Next），而VLIW5则作为入门级Evergreen GPU的品牌保留在HD 8000系列中。

GTX 460的继任者——GTX 560 Ti——与GF100/GF110的发展相呼应，于2011年1月上市。基于GF114的显卡采用了全功能修订版GF104，并被证明与前代产品一样功能强大且用途广泛。在有和没有factory超频的情况下，它提供了无数非参考解释。

AMD的反应是立即降低其HD 6950和6870的成本，所以GTX 560 Ti的价性价比优势消失了，即使正在撰写评论。由于许多董事会合作伙伴提供了邮寄回扣，HD 6950（尤其是1GB版本）的购买更具吸引力。

英伟达 GeForce GTX 590 参考板

2011年3月26日，英伟达进行了第二次重大发布，本次发布引起了轰动。GTX 590将两个功能齐全的GF110整合到一个电路板上。公关影响几乎立刻就开始了。

这些电路板运行的驱动程序没有将功率限制到正确的程度，并且与允许高电压的BIOS配对。这种疏忽导致过压开始烧毁MOSFET。英伟达用一个更克制的BIOS和驱动程序来纠正这个问题，但发布日的活动引发了一些尖刻的评论和至少一个热门的YouTube视频。GTX 590的性能与AMD推出两周的双卡HD 6990不相上下。

从1月9日开始，AMD的北岛继任者，南岛，推出旗舰产品HD 7970，开始了阶段性的发行计划。它是第一张PCI-E 3.0卡，也是第一个基于台积电28nm制程节点上的AMD GCN架构的芯片。仅仅三周后，7970又推出了第二张基于Tahiti的HD 7950显卡，2月15日，主流的Verde显卡也加入了这一行列。基于Pitcairn GPU的性能卡于一个月后的三月上架。

Tahiti部件的一个好处是证实了AMD通过超频留下了很多未开发的性能。这是在功率使用和热输出与时钟速度之间的权衡，但导致了保守的内核和内存频率。最大化产量的需要和对英伟达基于Kepler的GTX 680/670的低估也可能是这个等式的一部分。这些显卡和不错，但对比之前的40nm基板，没有提供惊天动地的游戏改进。再加上HD 2000系列以来AMD主打产品的价格不那么有竞争力，两个月来没有WHQL驱动，而且视频编解码器引擎（VCE）也没有功能，这些因素都削弱了许多潜在用户和评论者的热情。

英伟达通过引入Kepler架构，继续丰富他们在GPU中的功能集。

在前几代中，英伟达使用了最复杂的芯片来满足高端游戏社区的需求，并开始了漫长的专业（Tesla/Quadro）模型验证过程。这种方法在最近几代中并没有为公司提供特别好的服务，因此看起来较小的GK107和以性能为导向的GK104比糟糕的GK110获得了优先权。

GK107可能是必需的，因为英伟达有大量的OEM移动合同要履行，并且需要GK104用于高端桌面市场。这两款GPU均作为A2修订版芯片发布。移动GK107s （GT 640M/650M，GTX 660M）从2月份开始向OEM发货，并于3月22日正式宣布。同一天，英伟达推出了基于GK104的GTX 680。

与英伟达最近的GPU设计的另一个不同之处在于，着色器时钟的运行频率与内核频率相同。自GeForce 8系列发布以来，英伟达采用的着色器的运行频率至少是内核频率的两倍——高达9系列内核频率的2.67倍，正好是400和500系列产品的两倍。

这一变化的基本原理是基于英伟达将重点（在消费台式机/移动领域）从直接性能转向每瓦性能效率。对于并行工作负载来说，以较慢速度运行的更多内核比以两倍频率运行的更少内核更有效。基本上，这是对GPU和CPU模式的改进（多核、低频率、高带宽和延迟vs少核、高频率、低带宽和延迟）。

减少着色器时钟还具有降低功耗的优势，而英伟达通过大幅减少裸片可用的双精度单元，以及将总线宽度减少到更主流的256位，进一步节约了设计成本。这些变化以及动态提升功能（按需超频）增强了相对适中的基本核心速度，呈现出更加平衡的产品-尽管以计算能力为代价。但是，如果英伟达保留了Fermi的计算功能和带宽设计，那么它会因为生产大型、热、耗电的设计而被嘲笑。物理定律再次将芯片设计变成妥协的艺术。

英伟达再次推出了双GPU板。由于GK104改进了功率范围，GTX 690本质上是两个GTX 680的SLI。唯一的区别是，690的最大核心频率（boost）比它低52MHz。虽然性能仍然取决于驱动程序的SLI配置，但该卡功能是一流的，其美学价值也称得上是限量版品牌。

GK110标志着英伟达打破了以往的惯例，即先以GeForce的名义发布GPU。该卡最初被视为Tesla K20，被大量用于超级计算合同，ORNL的Cray XK7 Titan、NCSA的Blue Waters、瑞士CSCS Todi和Piz Daint系统需要超过22000张卡。

在GK110以GeForce的形式出现之前，消费者不得不等待6个月。被称为GTX Titan的数字型号的缺乏增强了英伟达希望将显卡视为与现有（可能是随后的）Kepler系列分离的模型的愿望。英伟达还在预算范围内扩大了对研究人员和专业人士的吸引力，因为这标志着该公司首次允许GeForce卡保留与其专业的Tesla和Quadro显卡一样的计算功能。

英伟达 GeForce GTX Titan

这张卡很快就在游戏基准测试中占据了领先地位，特别是在使用了超采样抗锯齿的多显示器分辨率方面。然而，英伟达对OpenCL驱动支持不多，以及近期游戏产品的激增，再加上AMD的游戏进化程序，减弱了Titan的影响力，也抑制了其价格。

今年6月AMD推出HD 7970GHz版本，核心频率增加75MHz，再增加50MHz（与英伟达提供的动态调整版本相反）。GHz版代表了该卡可能在一月份就应该开始使用的频率。

不幸的是，对于AMD来说，这个SKU的目标市场已经确定，标准型号基本上能够通过超频以更低的价格和更低的核心电压实现同样（如果不是更好）的性能。AMD紧随HD 7970 GHz版与HD 7950 Boost。

2013年，英伟达和AMD似乎在争夺独立显卡的市场份额，而由于游戏开发和屏幕分辨率未能跟上集成显卡的发展步伐，独立显卡的市场份额不断萎缩。2002年初，英特尔拥有14%的PC图形市场份额。随着其极限显卡（830至865芯片组）的到来，该公司的份额上升到33%，然后第三代和第四代DX 9芯片组达到38%，到2013年，这一数字超过50%的DX10 GMA 4500系列。

将GPU集成到CPU意味着英特尔现在要负责60%的PC显卡的传输。