“遁隐”的Groq终于开始揭开其AI架构的神秘面纱-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

自从Groq “高调”没出现在自己赞助的AI硬件峰会之后，EETimes日前采访了这个开始从“潜伏”状态进入大众视野的神秘公司，与其高层领导团队进行了访谈，详细了解了他们关于其软件定义的硬件TSP。

自从“高调”没出现在自己赞助的AI硬件峰会之后，AI加速器初创公司Groq日前对其临门抽脚的原因做出了一些解释。

Groq联合创始人兼CEO Jonathan Ross说：“客户优先，我们非常注重客户需求。”

EETimes建议可以派个人参加峰会，只要介绍一下公司情况也许就能避免一场公关危机，但Ross拒绝了，坚称他们的决定是正确的。

Jonathan Ross (来源: Groq)

Ross说：“我们信守：展示出来，不要只是说。我们确实为AI硬件峰会准备了演示，但后来不得不优先考虑客户，首先将产品提供给客户，所以在峰会上我们无法展示。当时我们可以选择继续介绍无法演示的产品，或者撤出；最终，我们决定撤出。”“结果还不错，”他坚称。 “客户非常满意。”

Ross之前曾在Google的张量处理器（TPU）开发团队工作，Groq的许多高管都曾在Google工作过很长时间。

这家神秘的AI加速器初创公司拥有70名员工，迄今已筹集了6700万美元资金，并于最近完成了第二轮融资。EETimes日前采访了这个开始从“潜伏”状态进入大众视野的神秘公司，与其高层领导团队进行了访谈，了解到更多有关该公司的信息。

软件定义的硬件

Groq不寻常的软件优先方法始于构建一个原型编译器，而不是硬件原型。围绕编译器，再构建硬件结构，由此产生的TSP有一个简化的硬件设计，但所有执行程序都在软件中进行。软件实质上协调了所有数据流和时序，从而确保计算不停顿，而且延迟和性能都是可预测的。

Groq首席架构师Dennis Abts解释道：“我们将大量的控制权交给了编译器，这样就能够在软-硬件接口上进行一些折中……从而获得了确定性执行的结果。”

Abts是一位在Google数据中心工作了12年的资深人士，他还曾在科雷(Cray)公司担任硬件架构师十多年。Abts解释说，编译器即可以控制程序执行，也可以控制功耗状况，因此，在编译时可以准确预测到精确、可重复的执行时间，以及每个模型运行的功耗。

Abts说：“我们认为这使我们在易用性方面更具优势。” 编译时即了解执行时间和功耗情况意味着“可以从模型开发的角度进行快速试验，部署系统时对所能达到的性能胸有成竹。”

编译器可以完全控制芯片，无论是动态的，还是静态的。

他说：“没有什么动态分析代码之说，因为静态与动态是一样的，这样可以实现一些非常好的特性。”

Groq采用软件定义硬件的方法来提供确定性操作和可预测的延迟（来源：Groq）

这种方法的首要特性是消除了大多数架构所需的同步步骤，一般在计算和传输计算结果之间需要同步。无同步开销意味着可以大规模部署模型而不会产生尾延迟，而据Abts称尾延迟是目前数据中心的一大难题。Groq的芯片可以在编译时预先知道所有延迟。

“我们还避免了在前端引入很多复杂的硬件，比如推测执行、分支预测，很多复杂的控制结构可以被轻松地分解出来。” 他说。 “有很多原因导致我们采取这样的措施，尤其是因为激进的推测技术很可能被黑客利用，导致一些硬件安全漏洞，而遭受像Spectre和Meltdown之类的病毒攻击。”

TSP不是FPGA

将软件定义的硬件与确定性操作相结合的概念可能会让人想到FPGA，但Ross强调TSP绝对不是FPGA。SambaNova最近也提出了“软件定义的硬件”这个概念，其细节正在逐步浮现（SambaNova仍处于“潜伏”状态），但他们表示正在开发可重新配置的数据流架构，并致力于开发用于编程加速器的语言。Groq的方法和SambaNova的概念之间是否存在重叠，EETimes对此也表达了疑惑。

“这是一个全新的概念，”Ross指出。 “想象一个FPGA可以在每个周期重新配置，我们的芯片工作方式就类似于这样。但它不是FPGA，没有查找表…你可以按周期完全更改芯片功能，甚至可以确切地知道芯片的每个部分在每一时刻做什么，你的控制可以达到非常精细的程度，但它不是FPGA，我们与其它公司所开发的完全不同。”

研究机构Tirias首席分析师Kevin Krewell却表示：“ Groq的方法的确与常规FPGA和SambaNova的方法非常相似。”

针对目前为止Groq所分享的信息，Krewell表达了一些担忧。

他说：“TSP的设计看起来非常精细，我对每平方毫米的计算效率仍有顾虑。可能存在许多难点，比如设计是静态编译的，这意味着一次只能处理一种类型的机器学习算法。而根据工作负载的不同，有些任务需要不同的机器学习模型，例如推荐、图像处理和语音处理。”

第一颗芯片

Groq的TSP将大量的算术逻辑单元（ALU）与大量的片上存储器结合，同时提供充足的带宽馈送数据给ALU（> 60TB/s）。

根据EETimes看到的展示幻灯片（Groq后来拒绝分享该幻灯），其裸片的照片显示了三列ALU与两条大内存条交错排布（ALU约占芯片面积的40%，内存约占50％）。Groq官网上的数据显示，TSP的运算能力可以达到400 TOPS，但并未明确达到该算力的具体条件，只提到这是INT8运算的峰值性能。另外，尽管TSP同时支持整数运算和浮点运算，但公司目前仍坚定地专注于AI推理。

Groq拥有70名全职员工，迄今为止已筹集了6700万美元资金（图片来源：Groq）

Groq工程副总裁Michelle Tomasko说：“我们已经流片成功，而且第一次就启动正常工作了。第一周我们就实现了在芯片上运行程序，六周后就开始向客户提供样品……现在我们已经取得了很大进展，A0芯片即将投产。”

Tomasko详细介绍了TSP的确定性机制将如何改善客户的系统验证时间，并补充说，能够在芯片推出之前就交付编译器，意味着客户可以提前针对TSP体系结构开发新模型。

她说：“等到客户拿到硬件时，内容已经准备就绪。确定性使我们能够在传统体系架构中进行我们自己的硅前验证测试…，这很复杂，有许多不同的控制系统，因此存在竞争条件、边界条件以及需要排除的东西。当我们针对这些问题时，就知道确定性核心机制将起作用，并且它们确实运行得很好。”

加入Groq之前，Tomasko在Google工作了3年，此前她还曾在Nvidia工作过。

她说：“Nvidia人力资源充足，一旦确定了追求目标，他们可以非常轻松地解决架构问题。但事实是，利用我们的架构可以迅速灵活地执行操作，这是我们能够领先于像Nvidia这样的巨头之关键所在。”

Groq目前致力于数据中心和自动驾驶汽车应用中的AI推理。首席运营官Adrian Mendes表示，超大规模数据中心客户对TSP能够解决尾延迟问题兴趣浓厚，因为这有助于大型数据中心的横向扩展。同时，企业数据中心和一级OEM厂商则对TSP可以预处理代码的能力很感兴趣。低延迟对于金融业的高频交易应用也具有极大的吸引力。

Mendes说，“‘微秒级’的延迟与总体确定性机制相结合，使得TSP非常适用于像自动驾驶这样的安全攸关应用。”

Mendes说：“自八月开始，我们已经向少数客户交付了硬件，已经部署在客户的数据中心内，一些应用已经在其上运行，而且效果很好。”

Groq的TSP现已提供PCIe板卡样品。

（参考原文： 'No-Show'Groq Partially Unveils AI Architecture，by Sally Ward-Foxton）

责编：Amy Guan

人工智能处理器/DSP 数据中心/服务器无人驾驶/ADAS

“遁隐”的Groq终于开始揭开其AI架构的神秘面纱

软件定义的硬件

TSP不是FPGA

第一颗芯片

杂志声明