自从Groq “高调”没出现在自己赞助的AI硬件峰会之后,EETimes日前采访了这个开始从“潜伏”状态进入大众视野的神秘公司,与其高层领导团队进行了访谈,详细了解了他们关于其软件定义的硬件TSP。

自从“高调”没出现在自己赞助的AI硬件峰会之后,AI加速器初创公司Groq日前对其临门抽脚的原因做出了一些解释。

Groq联合创始人兼CEO Jonathan Ross说:“客户优先,我们非常注重客户需求。”

EETimes建议可以派个人参加峰会,只要介绍一下公司情况也许就能避免一场公关危机,但Ross拒绝了,坚称他们的决定是正确的。

Jonathan Ross (来源: Groq)

Ross说:“我们信守:展示出来,不要只是说。我们确实为AI硬件峰会准备了演示,但后来不得不优先考虑客户,首先将产品提供给客户,所以在峰会上我们无法展示。当时我们可以选择继续介绍无法演示的产品,或者撤出;最终,我们决定撤出。”“结果还不错,”他坚称。 “客户非常满意。”

Ross之前曾在Google的张量处理器(TPU)开发团队工作,Groq的许多高管都曾在Google工作过很长时间。

这家神秘的AI加速器初创公司拥有70名员工,迄今已筹集了6700万美元资金,并于最近完成了第二轮融资。EETimes日前采访了这个开始从“潜伏”状态进入大众视野的神秘公司,与其高层领导团队进行了访谈,了解到更多有关该公司的信息。

软件定义的硬件

Groq不寻常的软件优先方法始于构建一个原型编译器,而不是硬件原型。围绕编译器,再构建硬件结构,由此产生的TSP有一个简化的硬件设计,但所有执行程序都在软件中进行。软件实质上协调了所有数据流和时序,从而确保计算不停顿,而且延迟和性能都是可预测的。

Groq首席架构师Dennis Abts解释道:“我们将大量的控制权交给了编译器,这样就能够在软-硬件接口上进行一些折中……从而获得了确定性执行的结果。”

Abts是一位在Google数据中心工作了12年的资深人士,他还曾在科雷(Cray)公司担任硬件架构师十多年。Abts解释说,编译器即可以控制程序执行,也可以控制功耗状况,因此,在编译时可以准确预测到精确、可重复的执行时间,以及每个模型运行的功耗。

Abts说:“我们认为这使我们在易用性方面更具优势。” 编译时即了解执行时间和功耗情况意味着“可以从模型开发的角度进行快速试验,部署系统时对所能达到的性能胸有成竹。”

编译器可以完全控制芯片,无论是动态的,还是静态的。

他说:“没有什么动态分析代码之说,因为静态与动态是一样的,这样可以实现一些非常好的特性。”

Groq采用软件定义硬件的方法来提供确定性操作和可预测的延迟(来源:Groq)

这种方法的首要特性是消除了大多数架构所需的同步步骤,一般在计算和传输计算结果之间需要同步。无同步开销意味着可以大规模部署模型而不会产生尾延迟,而据Abts称尾延迟是目前数据中心的一大难题。Groq的芯片可以在编译时预先知道所有延迟。

“我们还避免了在前端引入很多复杂的硬件,比如推测执行、分支预测,很多复杂的控制结构可以被轻松地分解出来。” 他说。 “有很多原因导致我们采取这样的措施,尤其是因为激进的推测技术很可能被黑客利用,导致一些硬件安全漏洞,而遭受像Spectre和Meltdown之类的病毒攻击。”

TSP不是FPGA

将软件定义的硬件与确定性操作相结合的概念可能会让人想到FPGA,但Ross强调TSP绝对不是FPGA。SambaNova最近也提出了“软件定义的硬件”这个概念,其细节正在逐步浮现(SambaNova仍处于“潜伏”状态),但他们表示正在开发可重新配置的数据流架构,并致力于开发用于编程加速器的语言。Groq的方法和SambaNova的概念之间是否存在重叠,EETimes对此也表达了疑惑。

 “这是一个全新的概念,”Ross指出。 “想象一个FPGA可以在每个周期重新配置,我们的芯片工作方式就类似于这样。但它不是FPGA,没有查找表…你可以按周期完全更改芯片功能,甚至可以确切地知道芯片的每个部分在每一时刻做什么,你的控制可以达到非常精细的程度,但它不是FPGA,我们与其它公司所开发的完全不同。”

研究机构Tirias首席分析师Kevin Krewell却表示:“ Groq的方法的确与常规FPGA和SambaNova的方法非常相似。”

针对目前为止Groq所分享的信息,Krewell表达了一些担忧。

他说:“TSP的设计看起来非常精细,我对每平方毫米的计算效率仍有顾虑。可能存在许多难点,比如设计是静态编译的,这意味着一次只能处理一种类型的机器学习算法。而根据工作负载的不同,有些任务需要不同的机器学习模型,例如推荐、图像处理和语音处理。”

第一颗芯片

Groq的TSP将大量的算术逻辑单元(ALU)与大量的片上存储器结合,同时提供充足的带宽馈送数据给ALU(> 60TB/s)。

根据EETimes看到的展示幻灯片(Groq后来拒绝分享该幻灯),其裸片的照片显示了三列ALU与两条大内存条交错排布(ALU约占芯片面积的40%,内存约占50%)。Groq官网上的数据显示,TSP的运算能力可以达到400 TOPS,但并未明确达到该算力的具体条件,只提到这是INT8运算的峰值性能。另外,尽管TSP同时支持整数运算和浮点运算,但公司目前仍坚定地专注于AI推理。

Groq拥有70名全职员工,迄今为止已筹集了6700万美元资金(图片来源:Groq)

Groq工程副总裁Michelle Tomasko说:“我们已经流片成功,而且第一次就启动正常工作了。第一周我们就实现了在芯片上运行程序,六周后就开始向客户提供样品……现在我们已经取得了很大进展,A0芯片即将投产。”

Tomasko详细介绍了TSP的确定性机制将如何改善客户的系统验证时间,并补充说,能够在芯片推出之前就交付编译器,意味着客户可以提前针对TSP体系结构开发新模型。

她说:“等到客户拿到硬件时,内容已经准备就绪。确定性使我们能够在传统体系架构中进行我们自己的硅前验证测试…,这很复杂,有许多不同的控制系统,因此存在竞争条件、边界条件以及需要排除的东西。当我们针对这些问题时,就知道确定性核心机制将起作用,并且它们确实运行得很好。”

加入Groq之前,Tomasko在Google工作了3年,此前她还曾在Nvidia工作过。

她说:“Nvidia人力资源充足,一旦确定了追求目标,他们可以非常轻松地解决架构问题。但事实是,利用我们的架构可以迅速灵活地执行操作,这是我们能够领先于像Nvidia这样的巨头之关键所在。”

Groq目前致力于数据中心和自动驾驶汽车应用中的AI推理。首席运营官Adrian Mendes表示,超大规模数据中心客户对TSP能够解决尾延迟问题兴趣浓厚,因为这有助于大型数据中心的横向扩展。同时,企业数据中心和一级OEM厂商则对TSP可以预处理代码的能力很感兴趣。低延迟对于金融业的高频交易应用也具有极大的吸引力。

Mendes说,“‘微秒级’的延迟与总体确定性机制相结合,使得TSP非常适用于像自动驾驶这样的安全攸关应用。”

Mendes说:“自八月开始,我们已经向少数客户交付了硬件,已经部署在客户的数据中心内,一些应用已经在其上运行,而且效果很好。”

Groq的TSP现已提供PCIe板卡样品。

(参考原文: 'No-Show'Groq Partially Unveils AI Architecture,by Sally Ward-Foxton)

责编:Amy Guan

本文为《电子工程专辑》2020年1月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅 

阅读全文,请先
您可能感兴趣
Rambus的HBM4控制器IP还具备多种先进的特性集,旨在帮助设计人员应对下一代AI加速器及图形处理单元(GPU)等应用中的复杂需求。这些特性使得Rambus在HBMIP领域继续保持市场领导地位,并进一步扩展其生态系统支持。
2016-2023年中国独角兽企业总估值由近5000亿美元持续攀升至超1.2万亿美元,其中在2020年首破万亿美元。
HBM4作为第六代HBM芯片,不仅在能效上较现有型号提升40%,延迟也降低了10%,成为各大芯片厂商竞相追逐的焦点。
此次财报也从侧面反应了半导体行业在AI业务上的强劲增长势头,但同时也暴露出非AI业务增长乏力的困境。
尽管CMA批准了交易,但业内专家指出,微软通过此次交易获得了Inflection AI的核心技术和团队,这相当于以较低的成本实现了对Inflection AI的变相收购,进一步加强了微软在AI领域的实力。
目前,人形机器人的发展前景也被看好。中信证券预计,2025年全球人形机器人出货将达到1万台。而根据Data Bridge Market Research的分析,全球人形机器人市场规模预计将从2023年的24.6亿美元增至2031年的558亿美元,复合年增长率为48.5%。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
在全球智能手机竞争日益激烈的情况下,谁能在高端市场站稳脚跟,谁就占据了主动权。一直以来全球智能手机市场格局都是,苹果专吃高端,其他各大厂商分食全球中低端市场。但现在市场正在其变化。根据Canalys最
点击蓝字 关注我们德州仪器全球团队坚持克服挑战,为电源模块开发新的 MagPack™ 封装技术,这是一项将帮助推动电源设计未来的突破性技术。  ■ ■ ■作为一名经验丰富的马拉松运动员,Kenji K
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
周二,捷普科技(Jabil)官员与印度泰米尔纳德邦代表团在泰米尔纳德邦首席部长MK Stalin的见证下,签署了一份备忘录。MK Stalin正在美国进行为期17天的访问,旨在吸引新的投资。MK St
会议预告向世界展示中国最具创新力、领导力和品牌化的产品与技术!9月27号,“第6届国际移动机器人集成应用大会暨复合机器人峰会”将在上海举行,敬请关注!逐个击破现有痛难点。文|新战略半导体行业高标准、灵
疫情后的劳动力囤积和强有力的员工保护规则掩盖了德国高薪制造业工作市场令人担忧的变化。根据联邦劳工办公室的数据,欧元区最大经济体德国的失业率在2019年春季曾达到历史最低点4.9%,现已上升至6%。虽然
在苹果和华为的新品发布会前夕,Counterpoint公布了2024年第一季度的操作系统详细数据,数据显示, 鸿蒙操作系统在2024年第一季度继续保持强劲增长态势,全球市场份额成功突破4%。在中国市场
9月6日,“智进AI•网易数智创新企业大会”在秦皇岛正式举行,300+企业高管及代表、数字化技术专家齐聚一堂,探讨当AI从技术探索迈入实际应用,如何成为推动组织无限进化的新引擎。爱分析创始人兼CEO金
近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆
随着汽车智能化升级进入深水区,车载ECU(域)以及软件复杂度呈现指数级上升趋势。尤其是多域、跨域和未来的中央电子架构的普及,以及5G/V2X等车云通信的增强,如何保障整车的信息与网络安全,以及防范外部