前不久的GTC上,英伟达发布了一个叫NIM的东西。而且发布会起码1/4的篇幅都在讲NIM。这东西可能与世界的未来有很大的关系...

过去1年内,英伟达的市值一直是媒体们关注的焦点:突破万亿、一夜间又涨了xx、打破记录...前不久的英伟达GTC大会采访期间,黄仁勋谈到:“有人说光是卖芯片,很难卖到2.5万亿市值水平。我无法不赞同这个观点。”“所以英伟达一定不是个芯片公司。”这是他的原话。

单从英伟达正在出售产品的角度来看,即便是硬件产品,芯片也的确并非英伟达唯一在卖的产品类型,板卡、超级计算机、交换机、机架和计算系统等等都是英伟达在推的产品;而且实际上英伟达的产品也远不限定在硬件方面,各类加速库、中间件、软件、云服务甚至算得上是英伟达生态的核心组成部分...

我们总结今年GTC,黄仁勋发布的几个核心产品包括Blackwell GPU及其系统,面向开发者提供Omniverse Cloud API,人形机器人Project GROOT项目,以及在我们看来本次产品发布最重要的NIM(NVIDIA Inference Microservice,英伟达推理微服务)。超过一半都不是硬件——NIM在我们看来还将是英伟达未来普及、巩固自家AI生态的关键。

这篇文章,我们借着NIM来谈谈现阶段英伟达眼中的生成式AI,及英伟达的生成式AI生意打算怎么做。

 

未来是“生成”的未来

黄仁勋在分析师问答会上提出了一个很有趣的想法。他说我们对于文本、图像、视频、声音等等内容的理解,实现了对于它们的数字化。之所以生成式AI能够与人进行文本和图像的对话沟通,前提在于文本与图像已经被数字化和理解。

“那还有什么是能够实现数字化的?其实我们还数字化了很多东西,包括蛋白质、基因、脑波等等——只要我们理解其结构,或者从中抽象出特定的模式,能够理解其内涵,就能做数字化。”黄仁勋说,“那么或许就能够对它们做‘生成’了。这就是生成式AI革命。”换句话说,如果万物皆可数字化(digitalized),那么万物就可tokenized

“很快会有个行业是专门生成token的。我知道这听起来很奇怪。”他用第二次工业革命,即电力革命做类比,“很久之前的工业革命产生了一种新的业务模式,产生的东西也是看不见的,但我们后来还需要专门掏钱购买这样的东西,单位是千瓦时,也就是电力。”和发电一样,“我们未来会需要生成信息,生成token”,而且是深刻“融入到生活中(for a living)”。

从计算机行业的角度来看,以前我们的使用习惯一直是对已存在信息的“检索/获取(retrieval)”,一切都是预先做好的(pre-recorded),“写入到了文件里面的”,“可能是图像、视频、声音等等”。“就像我今天早上看的新闻,都是由人们提前写好的。手机上弹出的广告也是。”

“而未来则会是生成的。基于种子信息(seeds information),由上下文做加强”,“最终呈现给你的都是生成的”。“现在我们看手机,上面展示的每个(图像)像素都是一种重新获取(retrieve)行为。但未来,这些像素都会是生成的。”“大部分计算体验都会是生成的”,“与你交互的大部分东西都会是生成的,因为它能够理解你,理解上下文。”

生成的“token可以是化学、医疗、动画、机器人、3D图形”,“如果我们能够生成文本的下一个token,那就能生成图像、视频、机械臂的下一个token。”黄仁勋说。其实用更通俗的话来说,现阶段就是基于文生图生成玩滑板的猫,或者让机器人倒杯咖啡这类最终实现。只不过现在共识的实现方法是生成式AI。

无疑要达成黄仁勋眼中的这种未来,英伟达现在要做的就是持续推广生成式AI,不仅要有Blackwell、GB200-NVL72这类能够算力支撑的硬件,为开发者提供AI开发工具,还需要引导不理解如何将AI引入到生产力及企业流程中的个人和企业。这应该是形如NIM这类工具诞生的基础。

 

让生成式AI设计芯片?

英伟达其实一直很清楚,很多企业对AI是存在困惑的,尤其是怎么用,能达成何种效果之类的问题;更不用说对模型做优化,将必要的计算栈都搭建起来。所以黄仁勋说“我们想了个办法”,“一种让你能够接收和操作软件的办法。软件就放在一个数字盒子里。”“这个盒子就是NIM。”

在谈NIM究竟是什么的问题之前,先聊一个英伟达自己内部已经在用的东西叫ChipNeMo。简单来说,这是个懂得芯片设计的LLM大语言模型。跟它聊天,就能得到很多相关芯片设计的回答。

其实在去年GPT大火以后,有关用生成式AI来设计芯片的讨论就时常冒出来。主打的就是不写一行代码,就靠聊、提需求,让LLM写出代码。不过过去一年我们问了好些EDA企业,这么做是不是真的可靠。大部分EDA企业的态度都是,真正走向量产的芯片设计真要这么搞,基本是天方夜谭。

不过起码表示LLM可以辅助芯片设计。英伟达首席科学家Bill Dally在分析师沟通会上说ChipNeMo在内部主要扮演3个角色。其一是让初级水平的芯片设计师,在有问题的时候就直接问ChipNeMo,这样不会浪费那些高级芯片设计的时间;其次是对bug报告做总结,因为硅工们写的bug报告有时又长又复杂,而且经常只有本人能看懂,那么ChipNeMo此时就可以为旁人理解bug报告起到很大的帮助作用;最后,ChipNeMo的确能生成Verilog,不过一般英伟达不会这么去用...

这个ChipNeMo是怎么做出来的呢?首先以Llama 2 70b为基础模型,放进NIM里面。“如果你此时问他们,CTL是什么。它给出的回答一般是一种常规知识储备,不是我们需要的。”因为此时的模型就是个普通的通用基础模型。英伟达要做的是告诉模型,在英伟达的语境中CTL是什么。之后再问它就能得到正确答案。

当然,要让模型专门适配芯片设计,要做的事情不止这一点。如果你关注过我们之前对NVIDIA AI的报道,一定知道NeMo。准备好相关数据,基于NeMo服务来对基础模型进行fine-tune, guardrail...具体的流程参见下图。

对用户来说,这其中三个核心组成部分,第一是要有个AI模型,以及能跑AI模型——这是英伟达要先打包给用户的;第二,需要有这样一个工具对模型做“修改”;第三是部署,不管是部署到DGX Cloud云上,还是部署在本地基础设施。完成以后,就能把这东西打包带走了。这就是NIM。

听起来是不是颇有一种企业版Chat with RTX的感觉——Chat with RTX是面向个人用户,可以一键安装,然后加入本地数据,基于你电脑上的个人信息,与AI对话的应用。不过Chat with RTX的外部数据结合,用的是RAG(retrieval augmented generation),前不久我们还在文章里提过

而且很巧的是,GTC期间,在一场面向分析师的问答会上,英伟达好几名高层都认为,企业最初还不确定对AI投入多少的时候,都倾向于选择RAG,因为这是企业自己应用生成式AI最简单的方式。甚至有人提到,RAG对于早期的企业AI应用而言是个PoC——概念验证。

“而今年人们会真的开始去打造有价值的AI产品,真正着眼在整体。”这仿佛就是NIM诞生的基础,也是英伟达推GB200-NVL72这类硬件产品的基础。换句话说,就是在英伟达看来,过了最早期的探索,企业逐渐要认真考虑用AI技术了,那就是时候给他们提供基础设施、提供工具了

 

有一种定位叫AI Foundry

这里把NIM再说得明确一些:英伟达给出一些LLM模型,其中有些是英伟达自己做的,有些是开源的,还有一些来自合作伙伴。企业客户可以直接拿来用,而且可以基于自家内部数据,借助英伟达的工具,来fine-tune这些模型,真正让模型为自己所用。形成像ChipNeMo这样的工具。这个服务叫做NIM。

不过如果要说NIM的确切构成,实际还是比较复杂的,包括各种预训练模型、及各种跑模型的依赖包,如CUDA, CuDNN, TensorRT-LLM, Triton Inference Server等等……上接AI API。这部分咱就不细说了,有兴趣的去研究下英伟达的博客与文档——不过从这些中间件,其实也能看出,英伟达要为企业解决模型优化之类的问题,而不单是提供和修改模型(当然关键也包括要卖跑在下面的硬件,和NVIDIA AI企业解决方案)。

尔后,企业可以建立很多个NIM,或者说很多个AI聊天机器人。某些工作是需要指派给不同的AI去分别完成的,不同的NIM可以配合工作。关于多个NIM间的协作,黄仁勋做了举例说明,但我们没能完全理解。不过框架大致就是这个样子了。

对于拥有大量数据,但不知道该怎么用来搞AI的企业而言,NIM理论上会是个不错的工具。因为NIM的价值之一,就是对企业专用的数据做出理解——构成专门的AI数据库,然后进行“re-index”——re-index这个词感觉用在这里特别合适。用户就可以和这样的AI对话了——它和ChatGPT有着很大不同。

这里提供给NIM的企业私有数据可以是多模态的,比如说PDF文档。至于具体是什么样的数据,比如说对于软件团队来说,可以是一堆平常写的bug报告和总结。那么工程师就能和AI对谈有关公司软件的bug问题,不管是现在有多少bug,还是解决情况怎么样等等。

黄仁勋在这里列举了一个多NIM的例子。比如你作为公司软件工程师,和这样一个bug聊天AI对话以后觉得非常受挫,就可以去和另一个专职心理健康的AI继续对话,接受安慰和心理辅导——后者也可以是基于NIM做出来的…

当然了,他举这个例子应该纯粹是为了谈Hippocratic AI的LLM,配合NVIDIA ACE打造的医疗健康数字人的;不过多NIM协作大概就是这么个意思了。医疗健康也是英伟达这次谈及的重点,本文就不做展开了。

如此一来,所有的企业都可以做出属于自己的Copilot,属于自己的对话AI——不管这个Copilot是面向企业内部,还是作为服务提供给客户。黄仁勋在主题演讲中宣布了不少NIM相关的首波企业合作,包括SAP, ServiceNow, Dell, Cohesity等。

值得一提的是,作为一种试用手段,英伟达还特别开放了ai.nvidia.com这么个网址,提供相对直观的NIM试用。

在此期间,黄仁勋反复提到了英伟达作为“AI foundry”的设定,说法上是对于LLM,“并非创造,而是生产(not create it, but manufacture it)”,是为英伟达作为AI foundry的定位。“你去跑这些模型,规模化运行的时候,向我们支付的其实只是AI操作系统的钱。”黄仁勋说,“操作系统也就是NVIDIA AI Enterprise”,“非常划算”…就差没讲“buy more, save more”了…

而AI foundry的本意,也在于让企业客户的AI模型用于生产环境。

 

GPU回归“生成”的最初使命

最后谈一谈NIM的潜在可能性。我们对于NIM的第一眼认知是,这是英伟达普及、巩固AI生态的产品。虽然这两年我们一直在谈AI,但各行各业对于AI,尤其是生成式AI的利用还非常早期。

就如前文谈到的,即便是最前沿的电子科技企业,初期都还在用RAG做AI的PoC。可见AI的发展之路还很长。英伟达一方面要把AI的蛋糕真正做大,另一方面则要尽可能利用现有资源,来持续巩固自己在AI领域的地位——不仅要降低企业用AI的门槛,同时借助与模型合作伙伴的合作,让更多的AI资源为自己所用。

NIM显然是肩负了这样的职责的。虽然听起来我们对NIM的定位似乎有些过于高估了。但我们可以等等看接下来英伟达对于NIM的推广会是怎么样。

回到最初谈世界最终会像需求电力一样,需求“生成token”的疯狂说法——其实黄仁勋的这一说法或许仍然无法被大多数人所接受,尤其从逻辑上要理解“生成”什么,人们又如何像消费电力一样消费“生成”内容的问题。这就只能交给时间去评断了。但千行百业都真正开始用AI、生成式AI,这才是世界、个人最终全面步入AI的开端。

有个有关“生成”和英伟达自己的说法很有趣。“30年后的今天,我们又回到了最初的那个我们。”黄仁勋所说的“最初的”英伟达,是指最初做图形渲染加速的英伟达。因为GPU曾经就是干“生成内容”这个活儿的。“我们生成了很多东西,就是计算机图形。”

“我们现在要回到那里了。只不过现在用来‘生成’的计算机更大了,而且是为每个人‘生成’。”这还真是有关AI和图形,相当浪漫主义的一种说法。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
新款开发板售价仅为249美元,而上一代40 TOPS开发板售价为499美元,价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”,特别适合商业AI开发者、爱好者和学生使用。
近年来,AWS还积极投资于人工智能(AI)、机器学习(ML)、大数据分析和边缘计算等前沿技术,以保持其在这些领域的竞争优势。
通过机器学习技术,EDA工具可以获取更精确的模型来预测设计中存在的问题,如布线拥塞、信号干扰、热效应等,从而为用户提供更准确快速的指导,避免后期返工。
这一新规则可能会引起美国在世界各地的合作伙伴和盟友的重大担忧,以及一些国家的不满,担心美国会充当单方面仲裁者,决定谁可以获得对AI至关重要的先进芯片。
谷歌认为,这种独家协议可能会限制市场竞争,导致其他公司无法自由地使用OpenAI的技术,从而增加了用户面临额外成本的风险,比如数据迁移和员工培训等。
有鉴于电动汽车、自动驾驶和人工智能业务等未来增长潜力,以及在马斯克在当选总统特朗普政府中的“特殊地位”,多家分析机构认为,马斯克的财富未来还将进一步增长。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
点击蓝字 关注我们安森美(onsemi)在2024年先后推出两款超强功率半导体模块新贵,IGBT模块系列——SPM31 IPM,QDual 3。值得注意的是,背后都提到采用了最新的FS7技术,主要性能
今日,长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办,长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言,厂房建设一般主要分为四个阶段:设备选型、设
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益
点击蓝字 关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日 上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播
极越汽车闪崩,留下一地鸡毛,苦的是供应商和车主。很多人都在关心,下一个倒下的新能源汽车品牌,会是谁?我们都没有未卜先知的超能力,但可以借助数据管中窥豹。近日,有媒体统计了15家造车新势力的销量、盈亏情