软件定义的硬件提供打开高性能数据加速大门的钥匙-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

在众多的行业中，数据加速是构建高效、智能系统的关键之处。传统的通用处理器在支持用户去突破性能和延迟限制方面性能不足。而已经出现的许多加速器技术填补了基于定制芯片、图形处理器或动态可重构硬件的空白，但其成功的关键在于它们能够集成到一个以高吞吐量、低延迟和易于开发为首要条件的环境之中。

本文概要

在众多的行业中，数据加速是构建高效、智能系统的关键之处。传统的通用处理器在支持用户去突破性能和延迟限制方面性能不足。而已经出现的许多加速器技术填补了基于定制芯片、图形处理器或动态可重构硬件的空白，但其成功的关键在于它们能够集成到一个以高吞吐量、低延迟和易于开发为首要条件的环境之中。由Achronix和BittWare联合开发的板级平台已针对这些应用进行了优化，从而为开发人员提供了一条可部署高吞吐量数据加速的快捷途径。

日益增长的分布式加速需求

在云计算和边缘计算中，业界渴求能够支持各种应用的高性能。为了满足这一需求，数据中心、网络集群和边缘计算站点的运营商正在转向定制化的加速器技术。

对于需要高性能计算平台的用户，专用加速器在实践中被常用来应对各种挑战；这些用户不再依靠诸如Intel Xeon系列CPU这样的传统通用CPU来支持数据吞吐量不断增长这一需求。通用CPU的核心问题在于，尽管摩尔定律一直在以大约每两年就会使每平方毫米硅片中集成的晶体管数量增加一倍的速度演进，但它不再支持时钟速率的增长。此外，CPU内的并行性很快达到了天花板。因此，其他技术更适合支持新型工作负载，包括如机器学习、基因组研究、数学和统计分析、语音和图像识别以及数据挖掘和搜索。

与传统由数据库驱动的应用相比，这些新的工作负载通常无法很好地映射到传统CPU流水线上；例如一些神经网络的训练已被验证可以在GPU上运行良好，这些算法可以利用数百个并行浮点着色器内核通过所需的数万亿个步骤来迭代更新一个大型网络。另一方面，基因组研究和数据搜索需要利用大量的对比步骤，并需处理低分辨率的整数数据。尽管这些工作负载可以利用CPU或GPU来完成处理，但是在这些平台上运行时，这些任务的计算效率和能效相对较低。自定义的基于ASIC或FPGA的加速器能够以更低的功耗提供更大的吞吐量，这是因为它们支持设计人员去构建针对这些操作和数据类型进行优化的专用电路。

互联网搜索和社交媒体等领域内的超大规模数据中心运营商已采用加速器概念来保障其服务器载荷的高效运转。语音响应系统现在已经被用于日常生活中，并得到了运行在传统刀片服务器与自定义加速器组合上的人工智能算法的支持。随着对这些基于机器学习和数据挖掘等技术的应用的需求不断增长，大量的企业用户正在转向基于加速器的方案，以使他们自己能跟上需求的步伐。据研究机构Research and Markets的分析预测，仅数据中心加速器这一市场的规模，就将从2018年的28亿美元增长到2023年的212亿美元，复合年增长率接近50％。

在这种增长之外，加速器的应用还注定将扩展到数据中心之外。诸如虚拟现实、自动驾驶、机器人技术和工业4.0等领域无法忍受信息在经过远程数据中心中继后带来的电信延迟。越来越多的计算能力将需要被部署在边缘计算机架中，而被安装于路边机柜中、移动基站旁或校园柜子内。

在各种数据中心和边缘计算用例中，有诸多常见的需求驱动因素，比如能效，快速转型，以及可扩展性。能效是降低冷却成本和复杂性以及将电费花销降到最低的核心要求。低功耗操作在边缘计算装置中至关重要，因为其中的环境温度的控制功能较弱，并且还需将维护的需求保持在最低限度。

在许多领域中，快速转型是不可避免的，并会创造新的需求，以便在变化出现时能够根据要求对应用进行调整和再加工。它不仅仅是对现有应用的更新；通常，新的用例在出现时，都会挑战用户及时做出反应的能力。而这些用例可能需要开发将不同的技术和概念结合在一起的应用，例如将人工智能（AI）功能添加到数学建模和数据挖掘系统中。为了应对这些转型，用户需要调用可以很好地进行协同工作的加速器技术，并且各个组件可以通过网络连接来进行高速通信。

可扩展性同样重要。随着面向特定服务的客户群不断增长，运营商需要知道他们能够轻松地增加容量。同样至关重要的是，具有高效通信能力的高度可编程解决方案通过增加并行性来支持其扩展能力。对诸如100 Gbps以太网和更快的链路等协议的支持，可确保能够使用分布式处理去适应增长。例如，边缘应用可能会调用云支持，直到本地机柜升级到具有额外的处理能力。

用于加速的硬件平台

加速器的硬件可以有多种形式。理想的配置是提供PCI Express（PCIe）和高速以太网连接的组合，并可以选择添加自定义连接以支持诸如环形、网状和菊花链结构等各种拓扑结构，以满足应用的各种数据吞吐量需求。对PCIe的支持通过内存映射接口将加速引擎与主处理器和其他加速器紧密集成。能够在诸如PCIe之类的接口上存储共享结构来交换数据，就可以极大地简化分布式应用的开发。

以100 Gbps或更高速率运行的以太网连接进一步提供了扩展范围。通过使用它们自有的以太网端口，而不是通过主机的主网络接口来路由数据包，加速器可以彼此间高效地相互协调。例如，在一个分布式存储配置中，加速卡可以被直接连接到嵌入式非易失性存储器（NVMe）模块上，每个模块中的独立搜索引擎使用通过其以太网连接发送的消息，来识别分散在多个节点上的数据，从而可以很容易地进行协调。

无论是作为主要的加速技术还是与GPU和其他技术配合使用，FPGA都非常适合数据中心和边缘计算应用的需求。FPGA的一个关键优势是可以在系统中来对其进行编程，以创建各种各样的数字电路。软件可以为目标应用选择配置比特流，并将其发送以配置FPGA。通过将新模式加载到器件上的逻辑阵列中，FPGA可以根据需要进行动态更新以承担新的任务。可编程性创建了由软件定义的硬件，从而完全支持用户不仅能够动态更改应用，还可以动态更改支持它们运行的硬件。将硬件可编程性与连接多个加速器的能力相结合，为用户提供了极大的灵活性。

许多计算类用户已经意识到FPGA在加速应用中的强大功能。例如，微软的Catapult项目使用FPGA为其搜索服务构建加速器，并且在其BrainWave项目中使用FPGA进行高速人工智能推理。亚马逊通过其F1服务提供了可在云端使用的FPGA，这使得到远程用户可以容易地部署这项技术。

在其他领域选择使用FPGA加速也已有一些时间。例如， FPGA逻辑阵列多年来一直被用于军事和航空航天领域的雷达处理，以及医学领域的实时成像。随着工业领域接受了实时机器设备健康监测等概念，以作为迈向工业4.0的一部分，用户可以转向使用FPGA来提高其算法的质量和响应能力。

相对于使用GPU来进行数据加速，采用FPGA的实现方式通常受益于较低的延迟和更高的能效。GPU的一个关键问题是：它们的计算效率通常只是其理论吞吐量的一小部分。因为GPU针对3D图形渲染流水线进行了优化，基于数据高度重用的执行流水线设计，导致着色器内核往往会在相对较小的本地存储以外运行。数据流式工作负载提供的数据重用机会更少，这就意味着需要更频繁地用新数据来填充存储器，而这会影响处理时间。CPU中面向缓存的子系统也同样受制于类似的问题。FPGA可以实现数据自由流动的完整流水线，因此可以提供了远远高于GPU或者CPU的计算效率。例如，基因组研究应用的基准测试表明，与基于CPU的实现方式相比，基于FPGA的硬件可将速度提高80倍。

在高性能计算和云计算环境中，架构师正在转向FPGA加速以避开系统中其他部分出现的瓶颈。通过将更多工作移交给存储子系统本身，数据中心用户可以在效率上得到大幅提升。数据库加速、数据分析和其他适用于计算型存储的处理形式可以与加密、去重复数据和安全擦除编码等低层级服务功能一起被部署在加速器上。

随着诸如软件定义网络（SDN）和网络功能虚拟化（NFV）等概念的流行，刀片服务器在数据中心内部和数据中心之间的通信管理任务中正发挥着更为重要的作用。但是，随着线速增加到100 Gbps甚至更高，Xeon级服务器处理器的处理负担是非常巨大的，数据中心运营商热衷于将许多SDN功能的处理工作卸载到附近的加速卡上。在新兴的架构中，通用服务器CPU被用于处理异常事件，而同时加速器则负责处理大量的网络流量。当新的需求、应用和安全威胁出现时，FPGA能够更新算法和网络协议处理，从而使它们成为网络加速的理想基础平台。

实施有效加速

被亚马逊（Amazon）、Facebook和微软（Microsoft）等超大规模用户采用的第一批加速器都是大幅度定制的设计。这些公司能够在打造自己的板卡设计中确保所需的规模经济，无论是基于自己设计的专用集成电路（ASIC），还是采用现成的FPGA和GPU。从成本和时间的角度来看，对于企业数据中心和边缘计算用户来说，他们难以在这种定制芯片级设计中找到合理的规模。然而，设计定制的ASIC和板卡并不是必需的。对诸如以太网和PCIe等标准接口的需求，不仅使使用标准板卡级产品成为可能，而且也是可取的。

作为一家长期提供硬件加速产品的供应商，BittWare一直在为从高性能计算到云加速到仪器仪表等众多领域内的客户设计采用PCIe尺寸的、基于FPGA的板卡，并在这方面积累了丰富的经验。现在，作为Molex集团的子公司，BittWare能够充分借助其全球供应网络以及与戴尔（Dell）和惠普企业（HP Enterprise）等服务器供应商的深厚关系。BittWare是唯一一家可与多家主流FPGA供应商合作的重要批量化供应商，能够满足企业客户的质量认证、验证、产品生命周期管理和支持需求，这些客户希望为关键任务型应用去大规模部署FPGA加速器。

在这些应用中，BittWare实现的一个重要差异化在于该公司为其基于FPGA的加速器提供了广泛的软件支持。每个加速卡均配有适用于Linux和Windows系统的驱动软件，可通过PCIe和以太网连接将其快速集成到各种系统中。除了支持主CPU和加速卡之间的通信外，该驱动还支持接入加速卡上的嵌入式固件。这个固件可以处理众多管理和自检功能。

它们使FPGA电路能够根据需要的新功能重新进行配置，此外还提供了一些对功耗、电压和温度的监测程序。如果主机系统中的冷却功能失效，那么担任管理者的固件可以关闭加速卡，以避免热过载。此外，软件组合包还包括各种参考设计，以便开发人员能够快速构建配置，使他们可以测试加速卡的功能并开始在其自己的应用上工作。

对于最新一代的加速卡，BittWare与Achronix紧密合作。Achronix是唯一一家能够同时提供独立FPGA芯片和嵌入式FPGA（eFPGA）半导体知识产权（IP）的FPGA供应商。VectorPath™S7t-VG6加速卡使用了Achronix采用7nm 工艺打造的、结合了很多功能的Speedster®7t FPGA芯片，不仅可以在内部提供高吞吐量数据加速，而且还支持现今从机器学习到先进仪器等系统所需的高度分布式、网络化的架构。

图1：VectorPath S7t-VG6加速卡

软件友好型的硬件提供了最大的灵活性

通过对分布式架构提供直接支持，VectorPath S7t-VG6加速卡中使用的Speedster7t FPGA芯片标志着与传统FPGA架构不同的重大转变，它使面向软件的开发人员更容易地构建定制化的处理单元。这种创新的全新架构与诸如英特尔（Intel）和赛灵思（Xilinx）等供应商生产的传统FPGA完全不同，传统FPGA的设计关注点并不在数据加速。

在设计Speedster7t的架构时，Achronix创建了一种可最大限度地提高系统吞吐量的FPGA芯片，同时还为计算机架构师和开发人员提高了易用性。与传统的FPGA架构相比，Speedster7t FPGA芯片的一个关键差异化点在于它包括一个创新的二维片上网络（2D NoC），可以在逻辑阵列内的处理单元与各种片上高速接口和存储器端口之间流传数据。

传统的FPGA要求用户去设计电路来将其加速器连接到高速以太网或PCIe数据端口和/或存储器端口。通常，一个独立系统是由连接到多个高速端口的多个加速器组成。例如，下图就说明了一种场景，其中有两个加速器连接到两个存储端口上，以共享一个存储空间。这种场景使用了FIFO来管理存储器和FPGA时钟之间的时钟域交叉（CDC）。此外，FPGA逻辑架构中还需要一个交换功能来管理寻址、仲裁和反压。在传统的FPGA中，这项功能会消耗大量的FPGA资源，并且其复杂程度足以降低系统性能并使时序收敛变得复杂。

Achronix采用了由软件设计来实现硬件的方法，而这种硬件中的以太网和其他高速I / O端口可用二维片上网络（2D NoC）轻松地连接到定制的加速器功能上。Speedster7t NoC不再需要设计CDC和交换功能来将加速器连接到高速数据或内存端口。通过简单地将这些功能连接到NoC，就消除了连接方面的难题，从而简化了设计，减少了FPGA资源的消耗，提高了性能并简化了时序收敛。

图2：传统FPGA设计面临的挑战

图3：Speedster7t二维片上网络支持软件友好型硬件

为了实现高性能的算术运算，每个Speedster7t器件都具有一个大型可编程计算单元阵列，它们被有序地放置在机器学习处理器（MLP）单元模块中。MLP是一个高度可配置的计算密集型单元模块，在每个周期内可支持多达32个乘法/累加（MAC）运算。在以加速器为中心的设计中，MLP的存在使得在完全可编程逻辑和硬连线算术单元之间能够有效地共享资源。

尽管有些FPGA倾向于使用HBM2存储器，其中FPGA和存储器被组装成一个昂贵的2.5D封装，而Speedster7t系列却采用GDDR6内存标准接口。这种接口提供了当今片外存储器可实现的最高性能，并且成本显著降低，从而使团队更容易去实现带有高带宽存储阵列的加速器。一个GDDR6存储控制器可以支持512 Gbps的带宽。VectorPath S7t-VG6加速卡可提供八组存储器，总存储带宽可以达到4 Tbps。此外，板上还有一个DDR4接口，可用于访问频率较低或不需要GDDR6吞吐量的数据。

VectorPath S7t-VG6加速卡提供了许多高性能接口，用来支持分布式架构和高速主机通信。现在，该加速卡提供了PCIe Gen 3.0的16通道合规性和认证，并提供获取Gen 4和Gen 5资质认证的途径。在以太网连接方面，该加速卡采用已获得广泛支持的光学接口模块，依据QSFP-DD和QSFP56标准，能够处理高达400 Gbps的超高线速。

在加速卡的另一端还有一个OCuLink扩展端口，以支持很多其他的低延迟应用场景。例如，OCuLink端口可用于将加速卡连接到各种外围设备上，比如用于计算存储或数据库加速应用的NVMe存储阵列。与采用连接到主处理器的PCIe接口相比，OCuLink连接能够成为一个更好的选择，因为它提供了一种消除了系统级延迟和抖动的高确定性的连接。OCuLink端口还可以引入其他网络连接，从而可扩展实现QSPF-DD或QSFP56之外的各种端口规格。

图4：VectorPath的网络和存储接口

在VectorPath S7t-VG6加速卡的前面板上还包括多个时钟输入，它们是在将多个加速卡同步到一起时通常需要的。两个SMB时钟输入连接器支持从1PPS和10 MHz的时钟输入，它们在进入FPGA之前，就已被连接到抖动清除器。一旦进入FPGA，这些时钟就可以被倍频或分频成为特定应用所需的频率。

还可以通过通用数字I / O端头进行进一步扩展。该I / O端口支持单端3.3V连接和低电压差分（LVDS）信号，支持外部时钟、触发器和专用I / O等自定义信号直接连接到Speedster7t FPGA。该扩展端口还可用于将VectorPath加速卡改造为传统硬件。

图5：VectorPath时钟输入和GPIO

适用于小批量和大批量需求

VectorPath S7t-VG6加速卡已考虑到了每个细节，例如可支持被动和主动空气散热和液体散热。此外，BittWare和Achronix还为医疗等需要更长产品生命周期的领域确保提供长期的供应与支持。在这些市场中，基于GPU的PCIe加速卡较短的产品生命周期与超过10年的系统服务支持需求是不符的。

对于更大批量需求，特别是在边缘计算等场景中，客户可以使用BittWare的成本降低计划来简化硬件，其设计仅仅支持客户所需的I / O选项。此外，BittWare也可提供电路板设计文件以及VectorPath S7t-VG6加速卡随附的软件和驱动器的使用。利用Achronix的Speedcore eFPGA IP，也可以走向定制系统级芯片（SoC）器件。客户可以构建自己其中包括Speedster7t可编程性的SoC，但又具有ASIC的成本结构。

为了实现更好的开发和更便捷的部署，VectorPath S7t-VG6加速卡可以由BittWare以其TeraBox平台的形式来提供预先集成的多核服务器。外形从2U到5U，TeraBox的机架式机箱最多可容纳16个BittWare PCIe加速卡，并由双路英特尔（Intel） Xeon处理器管理。作为一个完整的解决方案，TeraBox为客户提供了启动和运行FPGA开发的最快机制。在Bittworks II和FPGA Devkit软件的支持下，用户可以直接使用TeraBox并立即开始开发工作。或者，客户也可以从Dell和HP Enterprise购买包含BittWare加速卡的预配置服务器。

图6：TeraBox平台的部署

结论

考虑到用户需要在多种多样的应用中寻求数据加速功能，BittWare和Achronix已经创建了一种高度灵活的引擎，无论它们是被单独使用，还是作为大型异构处理阵列中的一部分，都可以被轻松部署。作为该加速卡的核心芯片，Speedster7t FPGA为开发人员提供了构建高吞吐量应用的能力，这些应用可以充分利用可编程逻辑、PCIe以及高达400 Gbps的以太网连接。BittWare的软件和支持保证了这些开发人员在插入卡后就可以立即开始工作。FPGA和Speedster7t NoC的灵活特性意味着：随着应用的变化和发展，这些加速卡可以最大限度地延长其使用寿命。

责编：Yvonne Geng

(本文由Achronix供稿，电子工程专辑对文中陈述、观点保持中立)

阅读全文，请先

FPGAs/PLDs 处理器/DSP 数据中心/服务器技术文章

您可能感兴趣

做小型FPGA的思路：莱迪思Nexus 2是个范本

莱迪思在最近的开发者大会上发布了最新的Nexus 2平台和对应的小型FPGA产品。这次我们有机会看看相比竞品，Nexus 2是怎么做到低功耗和高性能的...

莱迪思或将收购Altera，国产FPGA行业迎来新变数

莱迪思（Lattice）正在考虑对英特尔旗下的FPGA业务Altera发起收购要约,对于国产FPGA行业而言，这一消息无疑带来了新的挑战和机遇。尽管在技术实力、产品性能及市场份额等方面与国际巨头尚有一定差距，但近年来国产FPGA的发展势头不容小觑……

硬件配置再创新高，AMD第二代Versal Premium为系统加速计算再立标杆

继今年4月AMD宣布推出第二代Versal AI Edge系列和Versal Prime系列之后，日前，该公司又宣布推出第二代Versal Premium系列，使得第二代Versal系列的版图更趋完整。

时延2.34纳秒！AMD为金融高频交易再推“超级引擎”

在金融行业的高频交易中，每一纳秒都至关重要，会导致从盈利几百万美元到巨额亏损之间的差别。正是在这样的背景下，AMD推出了其最新的金融科技加速卡——Alveo™ UL3422。这款加速卡不仅满足了金融机构对高性能和低时延的迫切需求，还以其独特的优势引领着金融交易的新时代。

在波动市场中寻求增长，莱迪思聚焦AI与安全市场的新机遇

中国市场对于Lattice而言不仅是至关重要的战略市场，更是其全球业务不可或缺的一部分。他提到，Lattice在中国的业务历史已超过30年，作为首批进入中国市场的半导体企业之一，Lattice已经建立了专门的本地团队，这些团队不仅深入理解并服务中国市场，还致力于为中国客户量身打造解决方案。

TI发布一款几分钟就可完成设计仿真和配置的PLD

TI最近刚刚发布了新款PLD（可编程逻辑）产品系列，据说不需要编程知识，就能在十分钟内完成设计、仿真和配置...

“一碰交互，共触未来”ITMA峰会盛大开启近场交互新生态

目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。

中科院微电子所在忆阻神经-模糊硬件及应用探索方面取得新进展

中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……

直角照明轻触开关为复杂电子应用提供定制性和多功能性

C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置，为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。

投身国产浪潮向上而行，英韧科技再获“中国芯”认可

被神秘的FS7“附体”，解读两大最新功率模块系列的“超能力”

点击蓝字关注我们安森美（onsemi）在2024年先后推出两款超强功率半导体模块新贵，IGBT模块系列——SPM31 IPM，QDual 3。值得注意的是，背后都提到采用了最新的FS7技术，主要性能

拜登拟对成熟制程芯片启动301调查

来源：观察者网12月18日消息，自12月2日美国发布新一轮对华芯片出口禁令以来，不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称，根据知情人士以及该报查阅

华为Pura80细节曝光：麒麟9020跑分能上130万分

对于华为来说，今年的重磅机型都已经发完了，而明年的机型已经在研发中，Pura 80就是期待很高的一款。有博主爆料称，华为Pura 80将会用上了豪威OV50K传感器，同时电池容量达到5600毫安时。至

跟着撒贝宁走进维信诺，探寻“非凡中国屏”诞生背后的科技传奇之旅

万物互联的时代浪潮中，以OLED为代表的新型显示技术，已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者，凭借自主创新，实现了我国OLED技术的自立自强，成为中国新型显示产

注意些问题，嵌入式软件代码可大幅度减少bug

扫描关注一起学嵌入式，一起学习，一起成长在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。通常需要英勇的努力和昂贵的工具才能从观察到的崩溃，死机或其他计划外的运行时行为追溯到根本原因。在最坏的情

自动驾驶业务增长6倍，Uber被市场明显错杀，即将迎来50%上涨空间！

“ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务，Uber ( NYSE: UBER ) 的股价在短短几周内从 202

巨头疲软行业内卷，极越为谁而“亡”？

在上海嘉定叶城路1688号的极越办公楼里，最显眼的位置上，写着一句话：“中国智能汽车史上，必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景，未曾想这原来是命运的嘲弄。毕竟，极越用一种极其荒唐的

还有38%的上涨空间！亚马逊AI战略大爆发

“ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ：AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益

极越之后，2025年最有可能死掉的4个新势力车企！

极越汽车闪崩，留下一地鸡毛，苦的是供应商和车主。很多人都在关心，下一个倒下的新能源汽车品牌，会是谁？我们都没有未卜先知的超能力，但可以借助数据管中窥豹。近日，有媒体统计了15家造车新势力的销量、盈亏情

【倒计时3天】2024RT-Thread开发者大会，本周六见！

亲爱的企业用户和开发者朋友们距离2024 RT-Thread开发者大会正式开幕仅剩最后3天！还没报名的小伙伴，抓紧报名噢，12月21日不见不散！大会时间与地点时间：2024年12月21日 9:30-1

文章评论

最新
热门

换一换

EE直播

更多>

软件定义的硬件提供打开高性能数据加速大门的钥匙