让AI无处不在!Intel祭出全新VPU:超高能效碾压GPU

原创 文Q聊硬件 2023-06-05 21:04

AI,人工智能,这个东西其实一旦都不新鲜。

从早些年的科幻作品,到后来的逐步落地,从1997年IBM超级电脑“深蓝”击败国际象棋大师卡斯帕罗夫,到2016年Google AlphaGo战胜围棋冠军李世石,AI一直都在进步,也一直在演化。

但因为算力算法、技术能力、应用场景等方面的种种限制,AI一直有些空中楼阁的感觉。

直到出现了ChatGPT,AI才真正引燃了普通人的热情,让我们发现,AI竟然如此强大,又如此唾手可得,让众多个体、企业为之兴奋,为之癫狂。

众所周知,足够强大与合理的硬件、算法,是实现高效、实用AI的两大基石,而在这一番AI热潮中,NVIDIA之所以春风得意,就得益于其在高性能计算领域多年来的布局和深耕,非常适合超大规模的云端AI开发。

当然,AI无论实现方式还是应用场景都是多种多样的,既有云侧的,也有端侧的。

NVIDIA的重点在云侧和生成式AI,Intel在云侧生成式、端侧判定式同时出击,而随着越来越多的AI跑在端侧,更贴近普通用户日常体验,所带来的提升越来越明显,Intel更是大有可为。

端侧AI有几个突出的特点:

一是用户规模庞大,应用场景也越来越广泛;

二是延迟很低,毕竟不需要依赖网络将指令、数据传到云侧处理再返回;

三是隐私安全,不用担心个人信息、商业机密等上传后泄露;

四是成本更低,不需要大规模服务器和计算,只需本地设备即可完成。

端侧AI,说起来大家可能会感觉很陌生,但其实,人们习以为常的背景模糊、视觉美颜、声音美化(音频降噪)、视频降噪、图像分割等等,都是端侧AI的典型应用场景,背后都是AI在努力。

这些应用要想获得更好的效果,就需要更完善、复杂的网络模型,对于算力的需求自然也在快速增长。

比如噪音抑制,算力需求已经是两年前的50倍,背景分割也增长了10倍以上。

更不要说生成式AI模型出现后,对算力的渴求更是飞跃式的,直接就是数量级的提升,无论是Stable Diffusion,还是语言类GTP,模型参数都是非常夸张的。

比如GPT3的参数量达到了1750亿左右,相比GPT2增加了几乎500倍,GPT4估计可达到万亿级别。

这些都对硬件、算法提出了更苛刻的要求。

Intel自然也早就开始关注并投入AI,无论是服务器级的至强,还是消费级的酷睿,都在以各种方式参与AI,“XX代智能酷睿处理器”的说法就在很大程度上源于AI。

在此之前,Intel AI方案主要是在CPU、GPU的架构、指令集层面进行加速。

比如从十代酷睿和二代可扩展至强加入的基于深度学习的DL Boost,包括VNNI向量神经网络指令、BF16/INT8加速等等。

比如11代酷睿加入的高斯网络加速器GNA 2.0,相当于NPU的角色,只需消耗很低的资源,就能高效进行神经推理计算。

比如代号Sapphire Rapids的四代可扩展至强上的AMX高级矩阵扩展,使得AI实时推理和训练性能提升了多达10倍,大型语言模型处理速度提升了足有20倍,同时配套的软件和工具开发也更加完善丰富。

在Intel看来,没有单一的硬件架构适用于所有的AI场景,不同硬件各有特点,有的算力强大,有的延迟超低,有的全能,有的专攻。

AI作为基础设施也有各种各样的场景应用和需求,负载、延迟都各不相同,比如实时语音和图像处理不需要太强的算力,但是对延迟很敏感。

这时候,Intel XPU战略就有着相当针对性的特殊优势,其中CPU适合对延迟敏感的轻量级AI处理,GPU适合重负载、高并行的AI应用。

Intel另一个无可比拟的优势就是稳固、庞大的x86生态,无论应用还是开发,都有着广泛的群众基础。

现在,Intel又有了VPU。

将在今年晚些时候发布的Meteor Lake,会首次集成独立的VPU单元,而且是所有型号标配,可以更高效地执行特定AI运算。

Intel VPU单元的技术源头来自Intel 2017年收购的AI初创企业Movidius,其设计的VPU架构是革命性的,只需要1.5W功耗就能实现4TOPS的强大算力,能效比简直逆天,最早用于无人机避障等,如今又走入了处理器之中,与CPU、GPU协同发力。

VPU本质上是专为AI设计的一套新架构,可以高效地执行一些矩阵运算,尤为擅长稀疏化处理,其超低的功耗、超高的能效非常适合一些需要长期打开并执行的场景,比如视频会议的背景虚化、移除,比如流媒体的手势控制。

之所以在已经有了CPU、GPU的情况下,还要做一个VPU,Intel的出发点是如今很多端侧应用是在笔记本上进行,对于电池续航非常敏感,高能效的VPU用在移动端就恰如其分。

另一个因素是CPU、GPU作为通用计算平台,本身就任务繁重,再给它们增加大量AI负载,执行效率就会大打折扣。

具体到应用场景,VPU也是非常广泛的,比如说视频会议,现在的CPU AI已经可以实现自动构图(Auto-Framing)、眼球跟踪、虚拟头像/人像、姿势识别等等。

加入低功耗、高算力的VPU之后,还可以强化背景模糊、动态降噪等处理,让效果更加精准,比如说背景中的物体该模糊的一律模糊、人手/头发等不该模糊的不再模糊。

有了高效的硬件、合适的场景,还需要同样高效的软件,才能释放全部实力、实现最佳效果,这对于拥有上万名软件研发人员的Intel来说,真不是事儿。

Meteor Lake还没有正式发布,Intel已经与众多生态伙伴在VPU方面展开了合作适配,独立软件开发商们也非常积极。

比如Adobe,很多滤镜、自动化处理、智能化抠图等,都可以用VPU来跑。

比如Unreal Engine虚幻引擎的数字人,比如虚拟主播,VPU都能很好地实时捕捉、渲染处理。

Blender、Audacity、OBS、GIMP……这个名单可以拉出很长一串,而且还在不断增加。

更重要的是,CPU、GPU、VPU并非各行其是,而是可以联合起来,充分发挥各自的优势,达到最好的AI体验效果。

比如说基于GIMP里就有一个基于Stable Diffusion的插件,可以大大降低普通用户使用生成式AI的门槛,它就能充分调动CPU、GPU、VPU各自的加速能力,把整个模型分散到不同IP之上,彼此配合,获得最好性能。

其中,VPU可以承载VNET模块运行,GPU用来负责编码器模块执行,通过这样的合作,生成一张复杂的图片也只需20秒左右。

在这其中,VPU的功耗是最低的,CPU次之,GPU则是最高的。

Intel已经充分意识到AI对于PC体验增强的重要性,而为了迎接这一挑战,Intel正在硬件、软件两个层面全力推进,对AI在的端侧的发展、普及打下坚实的基础。

硬件层面,CPU、GPU、VPU将组成无处不在的底层平台;软件层面,OpenVINO等各种标准化开发软件将大大推动应用场景的挖掘。

未来,搭载Meteor Lake平台的轻薄笔记本就可以轻松运行Stable Diffusion这种大模型来实现文生图,大大降低AI的应用门槛,无论判定式AI还是生成式AI都能高效执行,最终实现真正的AI无处不在。


评论 (0)
  • 在不久前发布的《技术实战 | OK3588-C开发板上部署DeepSeek-R1大模型的完整指南》一文中,小编为大家介绍了DeepSeek-R1在飞凌嵌入式OK3588-C开发板上的移植部署、效果展示以及性能评测,本篇文章不仅将继续为大家带来关于DeepSeek-R1的干货知识,还会深入探讨多种平台的移植方式,并介绍更为丰富的交互方式,帮助大家更好地应用大语言模型。1、移植过程1.1 使用RKLLM-Toolkit部署至NPURKLLM-Toolkit是瑞芯微为大语言模型(LLM)专门开发的转换
    飞凌嵌入式 2025-03-31 11:22 158浏览
  • 据先科电子官方信息,其产品包装标签将于2024年5月1日进行全面升级。作为电子元器件行业资讯平台,大鱼芯城为您梳理本次变更的核心内容及影响:一、标签变更核心要点标签整合与环保优化变更前:卷盘、内盒及外箱需分别粘贴2张标签(含独立环保标识)。变更后:环保标识(RoHS/HAF/PbF)整合至单张标签,减少重复贴标流程。标签尺寸调整卷盘/内盒标签:尺寸由5030mm升级至**8040mm**,信息展示更清晰。外箱标签:尺寸统一为8040mm(原7040mm),提升一致性。关键信息新增新增LOT批次编
    大鱼芯城 2025-04-01 15:02 99浏览
  • 升职这件事,说到底不是单纯靠“干得多”或者“喊得响”。你可能也看过不少人,能力一般,甚至没你努力,却升得飞快;而你,日复一日地拼命干活,升职这两个字却始终离你有点远。这种“不公平”的感觉,其实在很多职场人心里都曾经出现过。但你有没有想过,问题可能就藏在一些你“没当回事”的小细节里?今天,我们就来聊聊你升职总是比别人慢,可能是因为这三个被你忽略的小细节。第一:你做得多,但说得少你可能是那种“默默付出型”的员工。项目来了接着干,困难来了顶上去,别人不愿意做的事情你都做了。但问题是,这些事情你做了,却
    优思学院 2025-03-31 14:58 76浏览
  • 引言随着物联网和智能设备的快速发展,语音交互技术逐渐成为提升用户体验的核心功能之一。在此背景下,WT588E02B-8S语音芯片,凭借其创新的远程更新(OTA)功能、灵活定制能力及高集成度设计,成为智能设备语音方案的优选。本文将从技术特性、远程更新机制及典型应用场景三方面,解析该芯片的技术优势与实际应用价值。一、WT588E02B-8S语音芯片的核心技术特性高性能硬件架构WT588E02B-8S采用16位DSP内核,内部振荡频率达32MHz,支持16位PWM/DAC输出,可直接驱动8Ω/0.5W
    广州唯创电子 2025-04-01 08:38 94浏览
  • 在环保与经济挑战交织的当下,企业如何在提升绩效的同时,也为地球尽一份力?普渡大学理工学院教授 查德·劳克斯(Chad Laux),和来自 Maryville 大学、俄亥俄州立大学及 Trine 大学的三位学者,联合撰写了《精益可持续性:迈向循环经济之路(Lean Sustainability: Creating a Sustainable Future through Lean Thinking)》一书,为这一问题提供了深刻的答案。这本书也荣获了 国际精益六西格玛研究所(IL
    优思学院 2025-03-31 11:15 67浏览
  • 提到“质量”这两个字,我们不会忘记那些奠定基础的大师们:休哈特、戴明、朱兰、克劳士比、费根堡姆、石川馨、田口玄一……正是他们的思想和实践,构筑了现代质量管理的核心体系,也深远影响了无数企业和管理者。今天,就让我们一同致敬这些质量管理的先驱!(最近流行『吉卜力风格』AI插图,我们也来玩玩用『吉卜力风格』重绘质量大师画象)1. 休哈特:统计质量控制的奠基者沃尔特·A·休哈特,美国工程师、统计学家,被誉为“统计质量控制之父”。1924年,他提出世界上第一张控制图,并于1931年出版《产品制造质量的经济
    优思学院 2025-04-01 14:02 71浏览
  • REACH和RoHS欧盟两项重要的环保法规有什么区别?适用范围有哪些?如何办理?REACH和RoHS是欧盟两项重要的环保法规,主要区别如下:一、核心定义与目标RoHS全称为《关于限制在电子电器设备中使用某些有害成分的指令》,旨在限制电子电器产品中的铅(Pb)、汞(Hg)、镉(Cd)、六价铬(Cr6+)、多溴联苯(PBBs)和多溴二苯醚(PBDEs)共6种物质,通过限制特定材料使用保障健康和环境安全REACH全称为《化学品的注册、评估、授权和限制》,覆盖欧盟市场所有化学品(食品和药品除外),通过登
    张工13144450251 2025-03-31 21:18 65浏览
  • 引言在语音芯片设计中,输出电路的设计直接影响音频质量与系统稳定性。WT588系列语音芯片(如WT588F02B、WT588F02A/04A/08A等),因其高集成度与灵活性被广泛应用于智能设备。然而,不同型号在硬件设计上存在关键差异,尤其是DAC加功放输出电路的配置要求。本文将从硬件架构、电路设计要点及选型建议三方面,解析WT588F02B与F02A/04A/08A的核心区别,帮助开发者高效完成产品设计。一、核心硬件差异对比WT588F02B与F02A/04A/08A系列芯片均支持PWM直推喇叭
    广州唯创电子 2025-04-01 08:53 105浏览
  •        在“软件定义汽车”的时代浪潮下,车载软件的重要性日益凸显,软件在整车成本中的比重逐步攀升,已成为汽车智能化、网联化、电动化发展的核心驱动力。车载软件的质量直接关系到车辆的安全性、可靠性以及用户体验,因此,构建一套科学、严谨、高效的车载软件研发流程,确保软件质量的稳定性和可控性,已成为行业共识和迫切需求。       作为汽车电子系统领域的杰出企业,经纬恒润深刻理解车载软件研发的复杂性和挑战性,致力于为O
    经纬恒润 2025-03-31 16:48 54浏览
  • 北京贞光科技有限公司作为紫光同芯产品的官方代理商,为客户提供车规安全芯片的硬件、软件SDK销售及专业技术服务,并且可以安排技术人员现场支持客户的选型和定制需求。在全球汽车电子市场竞争日益激烈的背景下,中国芯片厂商正通过与国际领先企业的深度合作,加速融入全球技术生态体系。近日,紫光同芯与德国HighTec达成的战略合作标志着国产高端车规芯片在国际化道路上迈出了关键一步,为中国汽车电子产业的发展注入了新的活力。全栈技术融合:打造国际化开发平台紫光同芯与HighTec共同宣布,HighTec汽车级编译
    贞光科技 2025-03-31 14:44 82浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦