自从Groq “高调”没出现在自己赞助的AI硬件峰会之后,EETimes日前采访了这个开始从“潜伏”状态进入大众视野的神秘公司,与其高层领导团队进行了访谈,详细了解了他们关于其软件定义的硬件TSP。

自从“高调”没出现在自己赞助的AI硬件峰会之后,AI加速器初创公司Groq日前对其临门抽脚的原因做出了一些解释。

Groq联合创始人兼CEO Jonathan Ross说:“客户优先,我们非常注重客户需求。”

EETimes建议可以派个人参加峰会,只要介绍一下公司情况也许就能避免一场公关危机,但Ross拒绝了,坚称他们的决定是正确的。

Jonathan Ross (来源: Groq)

Ross说:“我们信守:展示出来,不要只是说。我们确实为AI硬件峰会准备了演示,但后来不得不优先考虑客户,首先将产品提供给客户,所以在峰会上我们无法展示。当时我们可以选择继续介绍无法演示的产品,或者撤出;最终,我们决定撤出。”“结果还不错,”他坚称。 “客户非常满意。”

Ross之前曾在Google的张量处理器(TPU)开发团队工作,Groq的许多高管都曾在Google工作过很长时间。

这家神秘的AI加速器初创公司拥有70名员工,迄今已筹集了6700万美元资金,并于最近完成了第二轮融资。EETimes日前采访了这个开始从“潜伏”状态进入大众视野的神秘公司,与其高层领导团队进行了访谈,了解到更多有关该公司的信息。

软件定义的硬件

Groq不寻常的软件优先方法始于构建一个原型编译器,而不是硬件原型。围绕编译器,再构建硬件结构,由此产生的TSP有一个简化的硬件设计,但所有执行程序都在软件中进行。软件实质上协调了所有数据流和时序,从而确保计算不停顿,而且延迟和性能都是可预测的。

Groq首席架构师Dennis Abts解释道:“我们将大量的控制权交给了编译器,这样就能够在软-硬件接口上进行一些折中……从而获得了确定性执行的结果。”

Abts是一位在Google数据中心工作了12年的资深人士,他还曾在科雷(Cray)公司担任硬件架构师十多年。Abts解释说,编译器即可以控制程序执行,也可以控制功耗状况,因此,在编译时可以准确预测到精确、可重复的执行时间,以及每个模型运行的功耗。

Abts说:“我们认为这使我们在易用性方面更具优势。” 编译时即了解执行时间和功耗情况意味着“可以从模型开发的角度进行快速试验,部署系统时对所能达到的性能胸有成竹。”

编译器可以完全控制芯片,无论是动态的,还是静态的。

他说:“没有什么动态分析代码之说,因为静态与动态是一样的,这样可以实现一些非常好的特性。”

Groq采用软件定义硬件的方法来提供确定性操作和可预测的延迟(来源:Groq)

这种方法的首要特性是消除了大多数架构所需的同步步骤,一般在计算和传输计算结果之间需要同步。无同步开销意味着可以大规模部署模型而不会产生尾延迟,而据Abts称尾延迟是目前数据中心的一大难题。Groq的芯片可以在编译时预先知道所有延迟。

“我们还避免了在前端引入很多复杂的硬件,比如推测执行、分支预测,很多复杂的控制结构可以被轻松地分解出来。” 他说。 “有很多原因导致我们采取这样的措施,尤其是因为激进的推测技术很可能被黑客利用,导致一些硬件安全漏洞,而遭受像Spectre和Meltdown之类的病毒攻击。”

TSP不是FPGA

将软件定义的硬件与确定性操作相结合的概念可能会让人想到FPGA,但Ross强调TSP绝对不是FPGA。SambaNova最近也提出了“软件定义的硬件”这个概念,其细节正在逐步浮现(SambaNova仍处于“潜伏”状态),但他们表示正在开发可重新配置的数据流架构,并致力于开发用于编程加速器的语言。Groq的方法和SambaNova的概念之间是否存在重叠,EETimes对此也表达了疑惑。

 “这是一个全新的概念,”Ross指出。 “想象一个FPGA可以在每个周期重新配置,我们的芯片工作方式就类似于这样。但它不是FPGA,没有查找表…你可以按周期完全更改芯片功能,甚至可以确切地知道芯片的每个部分在每一时刻做什么,你的控制可以达到非常精细的程度,但它不是FPGA,我们与其它公司所开发的完全不同。”

研究机构Tirias首席分析师Kevin Krewell却表示:“ Groq的方法的确与常规FPGA和SambaNova的方法非常相似。”

针对目前为止Groq所分享的信息,Krewell表达了一些担忧。

他说:“TSP的设计看起来非常精细,我对每平方毫米的计算效率仍有顾虑。可能存在许多难点,比如设计是静态编译的,这意味着一次只能处理一种类型的机器学习算法。而根据工作负载的不同,有些任务需要不同的机器学习模型,例如推荐、图像处理和语音处理。”

第一颗芯片

Groq的TSP将大量的算术逻辑单元(ALU)与大量的片上存储器结合,同时提供充足的带宽馈送数据给ALU(> 60TB/s)。

根据EETimes看到的展示幻灯片(Groq后来拒绝分享该幻灯),其裸片的照片显示了三列ALU与两条大内存条交错排布(ALU约占芯片面积的40%,内存约占50%)。Groq官网上的数据显示,TSP的运算能力可以达到400 TOPS,但并未明确达到该算力的具体条件,只提到这是INT8运算的峰值性能。另外,尽管TSP同时支持整数运算和浮点运算,但公司目前仍坚定地专注于AI推理。

Groq拥有70名全职员工,迄今为止已筹集了6700万美元资金(图片来源:Groq)

Groq工程副总裁Michelle Tomasko说:“我们已经流片成功,而且第一次就启动正常工作了。第一周我们就实现了在芯片上运行程序,六周后就开始向客户提供样品……现在我们已经取得了很大进展,A0芯片即将投产。”

Tomasko详细介绍了TSP的确定性机制将如何改善客户的系统验证时间,并补充说,能够在芯片推出之前就交付编译器,意味着客户可以提前针对TSP体系结构开发新模型。

她说:“等到客户拿到硬件时,内容已经准备就绪。确定性使我们能够在传统体系架构中进行我们自己的硅前验证测试…,这很复杂,有许多不同的控制系统,因此存在竞争条件、边界条件以及需要排除的东西。当我们针对这些问题时,就知道确定性核心机制将起作用,并且它们确实运行得很好。”

加入Groq之前,Tomasko在Google工作了3年,此前她还曾在Nvidia工作过。

她说:“Nvidia人力资源充足,一旦确定了追求目标,他们可以非常轻松地解决架构问题。但事实是,利用我们的架构可以迅速灵活地执行操作,这是我们能够领先于像Nvidia这样的巨头之关键所在。”

Groq目前致力于数据中心和自动驾驶汽车应用中的AI推理。首席运营官Adrian Mendes表示,超大规模数据中心客户对TSP能够解决尾延迟问题兴趣浓厚,因为这有助于大型数据中心的横向扩展。同时,企业数据中心和一级OEM厂商则对TSP可以预处理代码的能力很感兴趣。低延迟对于金融业的高频交易应用也具有极大的吸引力。

Mendes说,“‘微秒级’的延迟与总体确定性机制相结合,使得TSP非常适用于像自动驾驶这样的安全攸关应用。”

Mendes说:“自八月开始,我们已经向少数客户交付了硬件,已经部署在客户的数据中心内,一些应用已经在其上运行,而且效果很好。”

Groq的TSP现已提供PCIe板卡样品。

(参考原文: 'No-Show'Groq Partially Unveils AI Architecture,by Sally Ward-Foxton)

责编:Amy Guan

本文为《电子工程专辑》2020年1月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅 

阅读全文,请先
您可能感兴趣
谷歌宣布向人工智能初创公司Anthropic追加投资超过10亿美元,进一步巩固其在人工智能领域的竞争力。Anthropic的估值因谷歌的持续投资而水涨船高。该公司估值已达到约600亿美元......
特朗普提出的“星际之门”项目,旨在通过OpenAI、软银集团和甲骨文公司三方合作,推动美国人工智能技术的发展,并计划在未来四年内投入至少5000亿美元用于建设相关基础设施......
这一举措不仅体现了国家对人工智能领域的高度重视和支持力度,还预示着中国将在全球AI竞赛中迈出关键一步。
台积电计划在 3 月前投资超过 2000 亿新台币(约合 61.2 亿美元),扩建其位于台湾南部科学园区三期的CoWoS生产设施。知情人士透露,台积电之所以做出这一决定,是因为人工智能(AI)驱动的先进封装需求比预期更为强劲......
该款机器人其实是深圳创业公司众擎机器人推出的人形机器人SE01,被网友称为“走路最像人的机器人”。为什么许多人形机器人走路时总是微微弯着膝盖,看起来有些别扭?最主要的原因是人形机器人的膝盖是用电机来控制的……
该榜单显示,美国以413家公司位居榜首,总价值达到348万亿元人民币,占榜单总价值的56%。中国则以134家公司位列第二,总价值为65万亿元人民币,占榜单总价值的13%。
对于未来行业发展的增长趋势、行业特征和渠道特点等方面,IDC 总结并给出了2025年中国PC 显示器市场十大洞察……
该存内计算芯片采用全数字设计,能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效,团队提出了一种……
西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商,该报告针对制造业的MES软件厂商进行了综合性评估。
Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,进一步推动芯粒技术的标准化,并减少行业的碎片化。
随着人工智能与机器学习的发展,EDA云平台越来越受到IC设计业者的认可和使用,因为越来越多的EDA云平台将人工智能和机器学习技术纳入其中,使企业能够从大型数据集中获得可行的见解,从而增强数据分析能力,
1月21日晚,中国MCU市场龙头兆易创新发布了2024年业绩预告,数据显示:2024年——预计实现营业收入73.49亿元左右,同比增长27.57%左右;预计归母净利润为10.90亿元,同比增长576.
点击上面↑“电动知家”关注,记得加☆“星标”!近期市场较弱,主要是春节前资金面偏紧张造成的,按照每年的惯例,节后资金回流,都会有一个不错的红包行情,现在正是提前布局的关键。如果你还不知道方向,强烈推荐
等效电阻ESR是晶体在等效电路中的总电阻。谐振电阻RR是晶振本身的电阻值。大小取决于晶体的内部摩擦、电极、支架等机械振动时的损失,以及周围环境条件等的影响损失。谐振电阻较大或者较小对电路有不同的影响。
有猜测称,三星显示器将很快开始采用红、绿、蓝 (RGB) OLEDoS(硅基 OLED)方法商业化下一代显示器。据专利信息搜索服务Kipris 1月24日报道,三星显示器近期申请了一个名为Arcpix
高端自动驾驶与物流需求带动激光雷达市场,预估2029年产值达53.52亿美元根据TrendForce集邦咨询最新《2025红外线感测应用市场与品牌策略》报告,目前激光雷达(LiDAR)在车用市场主要用
本视频演示,如何将仿真器连接到使用安全ID锁定的RL78设备。  00:00:介绍 00:25:调试  00:40:设定安全ID  相关资源: • Visual Studio Code - 如何在安装
寒假到来,你是否已经计划好带着孩子来一场说走就走的旅行?无论是山川湖海,还是古城小镇,每一次旅行都充满了未知和惊喜。在这场旅行中,相机或手机将成为你记录美好瞬间的得力助手。当旅行结束,面对着一堆照片,
1月21日凌晨,中国台湾嘉义大埔地区发生里氏6.4的浅层地震,造成中科与南科部分半导体及面板厂一度停机与人员疏散,目前已逐步恢复。在地震发生当天,台积电曾对外表示,为确保人员安全,各厂区依照内部程序启
据外媒SAMMY FANS报道,三星电子计划在2025年推出四款创新的折叠屏手机,进一步拓展其折叠屏产品系列,包括首款三折叠机型。           据悉,三星将继续更新其Flip和Fold两大折叠