深度丨Groq新品发布预测:推理是人工智能领域的下一个赛点

AI芯天下 2024-01-17 20:30

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发






前言
对于运用人工智能技术的厂商而言,推理成本日益成为一个亟待解决的问题。这是因为随着使用其产品的客户数量增多,运行相应模型的成本也随之攀升。

随着大模型在更多场景中的应用,推理将成为关键环节。


作者 | 方文三
图片来源 |  网 络 

谷歌TPU创业公司Groq迎来推理业务机会


Groq是一家源于谷歌TPU团队的创业公司,其主要业务领域为云端推理市场。


2016年底,谷歌TPU核心团队的十个人中,有八人悄悄组队离职,合伙创办了新公司Groq。


主张[软件定义硬件]核心理念,采用单一核配置计算和存储单元,所有操作均预先通过软件设定。


2019年Groq发布了其芯片架构,声称具备1POS/s的算力。该架构名为Tensor Stream。


从硬件层面来看,其设计相对简洁,去除了所有非必需的控制逻辑,将所有控制交由软件编译器完成,从而优化芯片面积分配,实现更高的单位面积算力。


Groq革命性的TSP架构提供业界领先的性能和亚毫秒级延迟,为计算密集型应用程序提供高效的软件驱动解决方案。



公司成立后推出首款云端推理芯片GroqChip,支持16个芯片互连,配置230 MB SRAM,算力可达750 TOPS。


该公司已与亚马逊、谷歌等云服务提供商建立合作关系,将其芯片部署在云端,为客户提供高性能AI计算服务。


与使用英伟达GPU相比,Groq LPU集群将为LLM推理提供更高的吞吐量、更低的延迟和更低的成本。


此外,Groq LPU不依赖HBM3和CoWoS封装产能,避免产能瓶颈。


英伟达和AMD对GPU的高需求和相对低的供应量为Groq及其他矩阵数学引擎供应商提供了他们一直在等待的机会。


2021年4月,Groq宣布获得3亿美元融资,由Tiger Global Management和亿万富翁Dan Sundheim投资,资金将用于自动驾驶领域和数据库的发展。


公司成立后,推出了GroqChip,该芯片能连接16个芯片,配备230MB SRAM,性能高达750  TOPS。


Groq正积极扩大语言处理单元(LPUs)的生产,预计其性能将可替代AI推理领域的英伟达GPU。


该公司计划在未来两年内交付100万个LPUs,以缓解市场对GPU的高需求和供应短缺。


随着大型语言模型推理演示的推进,Groq受到市场热捧,已有40个机架的硬件计划分配完毕,未来十二个月内计划部署相当于OpenAI每秒令牌总数的硬件。


由于工艺缩小、架构增强以及芯片结构的进步,其尺寸将进一步扩大。


Groq正加速研发下一代GroqChip,预计2025年推出,采用三星4纳米工艺,将提高功耗效率,使任务在更小空间内完成。



厂商成本压力越大,Groq架构优势越明显

许多客户使用或微调已经被训练过的模型,而不是从头开始构建一个新模型。


高推理成本正对包括OpenAI在内的大模型及生成式AI公司们产生压力。


Groq芯片是一款通用深度学习推理芯片,适用于高性能、低延迟和计算密集型任务,堪称理想平台。


Groq突破传统观念,致力于研发批量仅为[1]的芯片,即一次性处理单个样本。


据Groq称,此种架构几乎可实现瞬时推理,而不牺牲性能,对时间敏感型应用如自动驾驶汽车至关重要。


2022年5月,Groq宣布其芯片实现每秒1万亿次运算速度。通过独特的单核架构,Groq重新定义计算技术,以推动人工智能和机器学习平台的发展。


这些平台在提供两倍推理性能的同时,大幅降低基础设施成本。


其高性能架构的愿景立足于三个关键技术创新领域:


①软件定义的硬件:Groq借鉴了软件优先的理念,将执行控制和数据流控制从硬件迁移至编译器。


②芯片创新:Groq的简化架构摒弃了无益于AI处理的冗余电路,从而实现更高效的芯片设计,性能每平方毫米均有提升。


③提升开发速度:Groq系统架构的简洁性消除了手工优化、配置文件以及传统硬件为中心设计方法所需的专业设备知识。



芯片制造的主战场将由[训练]转向[推理]


相较于AI训练,AI推理领域与消费电子等大规模应用终端的需求联系更为紧密,因此,业界发展重点有望从[训练]全面转向[推理]。


2020年,人工智能推理芯片市场份额已超过训练芯片,占比超过50%,这标志着随着算力的提升,人工智能正式步入认知时代。


在CES2024上,英特尔和AMD这两大PC端CPU芯片领导者,纷纷发布了集成AI推理模块的台式或笔记本电脑中央处理器新品。


专注于AI训练领域的英伟达也试图在AI PC市场中分得一杯羹,并在CES上推出了覆盖高画质游戏及AI应用软件的GPU新品GeForce RTX4080 SUPER。


随着2024年AI PC、AI智能手机等全新融合AI的消费电子产品的涌现,[AI+万物]的趋势已势不可挡。


在这一背景下,端侧AI大模型及AI软件大规模应用趋势将日益显现,广泛应用于PC、智能手机、智能手表等消费电子终端。


这也意味着AI推理的重要性日益凸显,成为高效运行端侧大模型及AI软件背后的核心技术。


随着消费类边缘设备在数据处理、存储和电池续航方面的显著提升,边缘AI这一细分领域将在2024年迎来更多的发展契机,AI行业的发展重心将从[训练]全面转向[推理]。



云端/终端推理芯片增长势头可预见


当前人工智能技术基于深度学习神经网络,首先需要大量数据进行训练,然后训练完成后,神经网络模型可根据输入数据进行推理计算。云端数据中心的训练和推理均需AI芯片加速。


然而,GPU的算力增长无法满足企业用户对神经网络算力的需求,且GPU的高功耗对云端数据中心构成挑战,因此云端数据中心一直期待新一代加速芯片的出现。


在大模型时代,AI推理芯片成为关键的应用承载载体。


传统算法开发与芯片难以满足新一代人工智能边缘计算场景的产品化需求,大模型的出现为行业提供了算法层面的解决途径。


然而,要在边缘计算场景中使大模型面向实战发挥作用,离不开AI大模型推理芯片的支持。


随着大规模地方性数据中心建设的逐步完成,云端训练芯片的增长速度逐渐放缓。


然而,随着各领域市场需求的释放,云端推理芯片及终端推理芯片市场增长速度呈现上升趋势。


下游推理端更贴近终端应用,侧重于响应时间而非吞吐量,需求更为细化。


自动驾驶领域对芯片算力要求极高,受限于时延和可靠性,相关计算无法在云端进行,因此终端推理芯片的升级至关重要。


据IDC研究发现,2020年我国数据中心用于推理的芯片市场份额已超过50%,预计到2025年,用于推理的工作负载芯片占比将提升至60.8%。


预计2023年推理芯片市场规模将达到110亿元,由于推理阶段所需算力与模型参数量、网站日访问量、每次访问问题长度及问题数量正相关。



结尾:


对于AI芯片而言,大模型带来了全新的计算泛式和计算要求。为在边缘端运行巨量参数的大模型,芯片需具备更强大的算力、内存带宽和内存容量。


同时,AI边缘推理芯片肩负着[落地应用最后一公里]的使命,这意味着它不仅要支持AI计算任务如大模型等,还需具备较强的通用算力。


部分资料参考:OneFlow:《Groq:从头设计一个张量流式处理器架构》,半导体行业观察:《推理芯片市场,Groq重磅宣布》,StarryHeavensAbove:《Groq,[软件定义硬件]概念的背后》,芯潮:《撬走谷歌TPU核心团队的4/5,这家AI芯片创企在酝酿什么大招?》,摩尔芯闻:《如何正确选择AI推理芯片?》,芯东西:《AI芯片创企Groq融资3亿美元,由谷歌TPU核心团队离职创立》

本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。



END


推荐阅读:


商务合作请加微信勾搭:

18948782064

请务必注明:

「姓名 + 公司 + 合作需求」


AI芯天下 聚焦人工智能,AI芯片,5G通讯等行业动态
评论 (0)
  • 失效模式与影响分析(FMEA)失效模式与影响分析(FMEA)是一种系统方法,用于识别和分析系统或过程中的潜在失效,广泛应用于工程和制造领域,以提高产品可靠性和安全性。最新标准由 2019 年发布的 AIAG-VDA FMEA 手册(第一版) 定义,该手册结合了美国和欧洲汽车行业的最佳实践,并引入了 七步法,确保分析全面且结构化。图:优思学院六西格玛新版 FMEA 失效分析的七个步骤1. 规划与准备确定 FMEA 研究的 范围、边界和目标。组建跨职能团队(设
    优思学院 2025-03-17 14:43 78浏览
  • 一、问题现象:语音播放异常的典型表现在使用WT588F(E)系列语音芯片的开发过程中,工程师常会遇到以下两类典型异常现象:播放不全:语音仅播放前段内容后突然中断,或特定段落无法触发播放断续:音频输出存在明显卡顿、爆音或波形畸变某智能门锁项目实测数据显示,在首批样机中有2%的设备出现语音提示突然中断的情况,经排查发现电源电压在播放瞬间跌落至2.0V(低于芯片工作阈值)。这类问题的根源往往隐藏于硬件设计与系统协同的细节之中。二、核心机理:电压稳定性对语音芯片的影响2.1 电源系统的动态响应特性WT5
    广州唯创电子 2025-03-17 09:18 114浏览
  • esp32s3使用platformio 点亮1.69寸TFT历程之LVGL移植 继上一篇我历经很久的时间点亮了1.69寸TFT之后。我开始进行LVGL的移植。开始LVGL的学习。用platformio 开发esp32s3真的好方便。按照上一节的环境。本次由于需要使用LVGL。打开platformio lib界面搜索LVGL。目前里面的版本是9.2.2。我使用的8.3.6。然后按照下图加载到自己的工程项目。待加载完毕后。我们会看到libdeps下面会出现LVGL库好了,这一步完成后。我们就开始移植
    zhusx123 2025-03-15 20:58 104浏览
  • 文/Leon编辑/cc孙聪颖‍蛇年春晚最有意思的节目,一定非机器人跳舞莫属。就算是遥控或预编程,机器人能够做出如此复杂的动作,在五年前都是不敢想象的事情,其制造商宇树科技也因此火爆全网。就在春节过后不到一个月,会骑自行车的人形机器人诞生了。这背后,是近年来“具身智能”概念的迅猛发展。“我们造了一个跟人一样灵动的机器人!”3月11日,智元机器人联合创始人兼首席技术官彭志辉在微博上说道。在视频中,灵犀X2会骑自行车、能跳《科目三》,还可以与人促膝长谈,甚至拿起葡萄“穿针引线”。在全球人形机器人领域,
    华尔街科技眼 2025-03-17 12:38 90浏览
  • 宠物饮水机是专为宠物设计的自动供水设备,它能够持续提供新鲜流动的水,刺激宠物饮水欲望,保持宠物健康。智能水位监测功能可确保宠物始终有水可饮,同时避免溢水和干烧,是现代宠物家庭的理想选择。那么,宠物饮水机水箱是如何实现低水位提醒功能的呢?ICMAN液位检测芯片轻松实现宠物饮水机的水箱低液位提醒功能!工作原理 :基于双通道电容式单点液位检测原理方案特点:液位检测精度高达±1mm,超强抗干扰,动态CS 10V 为家用电器水位提醒的应用提供了一种简单而又有效的实现方式<iframe height=
    ICMAN 2025-03-14 16:46 76浏览
  • 在求职路上,一直没能拿到理想的录用通知,真的要放低要求吗?对很多人来说,这个问题往往让人进退两难。期待中那个能够激发自我潜能又能带来丰厚回报的职位,似乎离自己遥不可及。可是眼看着账单越压越重,生活在缓缓拖累前行。在这种局面下,究竟该不该向现实妥协,先找一份工作再说?有些人会觉得,先就业意味着放弃理想,觉得一旦走上这条路,就难以回到最初的目标。但事实上,这种担忧常常让人陷入犹豫与停滞。路走不通时,不代表必须原地不动。有时选择一份尚可接受的工作,也能带来意想不到的机会。公司内部的人脉、行业的历练,乃
    优思学院 2025-03-14 17:12 71浏览
  • 近日,2025年GTI国际产业大会成功举办,活动上GTI Awards 2025获奖名单正式揭晓,紫光展锐连续三年斩获国际权威机构GTI颁发的大奖。此次,T8300凭借在5G技术创新和娱乐体验方面的卓越表现,荣获GTI“移动技术创新突破奖”(Innovative Breakthrough in Mobile Technology Award)。GTI是由中国移动、软银、沃达丰等运营商于2011年发起成立的国际产业合作平台。GTI Awards作为全球通信行业最具影响力的奖项之一,旨在表彰为行业
    紫光展锐 2025-03-14 17:35 66浏览
  • 一、引言:语音芯片的智能化浪潮在万物互联的智能化时代,语音交互技术已成为人机交互的重要纽带。从智能家电的提示音到儿童玩具的趣味互动,从工业设备的语音告警到公共服务设施的自动播报,语音播放芯片IC作为核心硬件支撑,正在重塑各行各业的用户体验。在众多解决方案中,WTN6、WT588、WT2003H、WTV四大系列产品,凭借差异化的技术特性构建了完整的语音芯片产品矩阵。本文将深度解析这四大主流芯片的技术特点与应用场景,为开发者提供选型参考。二、主流语音芯片技术特性全解析2.1 WTN6系列:高性价比的
    广州唯创电子 2025-03-17 09:04 131浏览
  • 万物互联时代,全屋智能正从概念走向现实,而蓝牙低功耗(BLE)技术凭借独特优势,已成为构建智慧家庭生态的核心驱动力之一。作为一项成熟且持续创新的无线通信协议,BLE技术不仅以“低功耗”定义行业标准,更凭借Mesh组网能力打破场景疆界,为智能家居设备提供了灵活、可靠、可扩展的解决方案,有力推动了全屋智能的落地应用。据中商产业研究院整理数据显示,2023年我国智能家居市场规模为7257亿元,预计到2024年将达7848亿元,到2025年将达到8526亿元,同比增长率约为10%。随着未来新房建设和老房
    华普微HOPERF 2025-03-14 17:08 60浏览
  • 在现代机械传动系统中,电机与传动轴的连接至关重要。正确的连接方式不仅能提高传动效率,还能延长设备的使用寿命。本文将探讨电机传动轴的几种常见连接方式及其优缺点。1.直接连接直接连接是将电机的输出轴与传动轴直接相连,通常采用联轴器进行连接。这种方式的优点是结构简单,传动效率高,适合于高转速和高精度的应用场合。然而,直接连接对对中精度要求较高,稍有偏差就可能导致振动和磨损。2.齿轮连接齿轮连接通过齿轮传动将电机的动力传递到传动轴。该方式的优点在于能够实现较大的转速变化和扭矩增益,适合于需要大功率和高扭
    博扬智能 2025-03-14 16:32 68浏览
  •        在工业物联网的世界里,设备之间的“语言不通”曾让无数工厂陷入效率泥潭。想象一个汽车制造车间:1980年代的老式PLC控制器用Modbus RTU协议“说话”,2020年的智能机械臂支持OPC UA协议,而散布在角落的电表和传感器则操着DLT645等不同“方言”。这种协议碎片化让数据互通成为奢望,直到广和通4G模块化身“工业翻译官”,用多协议兼容和边缘计算能力打破僵局。一、从“铁皮盒子”到“边缘大脑”的技术蜕变    &nb
    中科领创 2025-03-14 14:14 51浏览
我要评论
0
2
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦