万物皆可“生成”：谈谈英伟达打算怎么靠生成式AI赚钱-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

前不久的GTC上，英伟达发布了一个叫NIM的东西。而且发布会起码1/4的篇幅都在讲NIM。这东西可能与世界的未来有很大的关系...

过去1年内，英伟达的市值一直是媒体们关注的焦点：突破万亿、一夜间又涨了xx、打破记录...前不久的英伟达GTC大会采访期间，黄仁勋谈到：“有人说光是卖芯片，很难卖到2.5万亿市值水平。我无法不赞同这个观点。”“所以英伟达一定不是个芯片公司。”这是他的原话。

单从英伟达正在出售产品的角度来看，即便是硬件产品，芯片也的确并非英伟达唯一在卖的产品类型，板卡、超级计算机、交换机、机架和计算系统等等都是英伟达在推的产品；而且实际上英伟达的产品也远不限定在硬件方面，各类加速库、中间件、软件、云服务甚至算得上是英伟达生态的核心组成部分...

我们总结今年GTC，黄仁勋发布的几个核心产品包括Blackwell GPU及其系统，面向开发者提供Omniverse Cloud API，人形机器人Project GROOT项目，以及在我们看来本次产品发布最重要的NIM（NVIDIA Inference Microservice，英伟达推理微服务）。超过一半都不是硬件——NIM在我们看来还将是英伟达未来普及、巩固自家AI生态的关键。

这篇文章，我们借着NIM来谈谈现阶段英伟达眼中的生成式AI，及英伟达的生成式AI生意打算怎么做。

未来是“生成”的未来

黄仁勋在分析师问答会上提出了一个很有趣的想法。他说我们对于文本、图像、视频、声音等等内容的理解，实现了对于它们的数字化。之所以生成式AI能够与人进行文本和图像的对话沟通，前提在于文本与图像已经被数字化和理解。

“那还有什么是能够实现数字化的？其实我们还数字化了很多东西，包括蛋白质、基因、脑波等等——只要我们理解其结构，或者从中抽象出特定的模式，能够理解其内涵，就能做数字化。”黄仁勋说，“那么或许就能够对它们做‘生成’了。这就是生成式AI革命。”换句话说，如果万物皆可数字化（digitalized），那么万物就可tokenized。

“很快会有个行业是专门生成token的。我知道这听起来很奇怪。”他用第二次工业革命，即电力革命做类比，“很久之前的工业革命产生了一种新的业务模式，产生的东西也是看不见的，但我们后来还需要专门掏钱购买这样的东西，单位是千瓦时，也就是电力。”和发电一样，“我们未来会需要生成信息，生成token”，而且是深刻“融入到生活中（for a living）”。

从计算机行业的角度来看，以前我们的使用习惯一直是对已存在信息的“检索/获取（retrieval）”，一切都是预先做好的（pre-recorded），“写入到了文件里面的”，“可能是图像、视频、声音等等”。“就像我今天早上看的新闻，都是由人们提前写好的。手机上弹出的广告也是。”

“而未来则会是生成的。基于种子信息（seeds information），由上下文做加强”，“最终呈现给你的都是生成的”。“现在我们看手机，上面展示的每个（图像）像素都是一种重新获取（retrieve）行为。但未来，这些像素都会是生成的。”“大部分计算体验都会是生成的”，“与你交互的大部分东西都会是生成的，因为它能够理解你，理解上下文。”

生成的“token可以是化学、医疗、动画、机器人、3D图形”，“如果我们能够生成文本的下一个token，那就能生成图像、视频、机械臂的下一个token。”黄仁勋说。其实用更通俗的话来说，现阶段就是基于文生图生成玩滑板的猫，或者让机器人倒杯咖啡这类最终实现。只不过现在共识的实现方法是生成式AI。

无疑要达成黄仁勋眼中的这种未来，英伟达现在要做的就是持续推广生成式AI，不仅要有Blackwell、GB200-NVL72这类能够算力支撑的硬件，为开发者提供AI开发工具，还需要引导不理解如何将AI引入到生产力及企业流程中的个人和企业。这应该是形如NIM这类工具诞生的基础。

让生成式AI设计芯片？

英伟达其实一直很清楚，很多企业对AI是存在困惑的，尤其是怎么用，能达成何种效果之类的问题；更不用说对模型做优化，将必要的计算栈都搭建起来。所以黄仁勋说“我们想了个办法”，“一种让你能够接收和操作软件的办法。软件就放在一个数字盒子里。”“这个盒子就是NIM。”

在谈NIM究竟是什么的问题之前，先聊一个英伟达自己内部已经在用的东西叫ChipNeMo。简单来说，这是个懂得芯片设计的LLM大语言模型。跟它聊天，就能得到很多相关芯片设计的回答。

其实在去年GPT大火以后，有关用生成式AI来设计芯片的讨论就时常冒出来。主打的就是不写一行代码，就靠聊、提需求，让LLM写出代码。不过过去一年我们问了好些EDA企业，这么做是不是真的可靠。大部分EDA企业的态度都是，真正走向量产的芯片设计真要这么搞，基本是天方夜谭。

不过起码表示LLM可以辅助芯片设计。英伟达首席科学家Bill Dally在分析师沟通会上说ChipNeMo在内部主要扮演3个角色。其一是让初级水平的芯片设计师，在有问题的时候就直接问ChipNeMo，这样不会浪费那些高级芯片设计的时间；其次是对bug报告做总结，因为硅工们写的bug报告有时又长又复杂，而且经常只有本人能看懂，那么ChipNeMo此时就可以为旁人理解bug报告起到很大的帮助作用；最后，ChipNeMo的确能生成Verilog，不过一般英伟达不会这么去用...

这个ChipNeMo是怎么做出来的呢？首先以Llama 2 70b为基础模型，放进NIM里面。“如果你此时问他们，CTL是什么。它给出的回答一般是一种常规知识储备，不是我们需要的。”因为此时的模型就是个普通的通用基础模型。英伟达要做的是告诉模型，在英伟达的语境中CTL是什么。之后再问它就能得到正确答案。

当然，要让模型专门适配芯片设计，要做的事情不止这一点。如果你关注过我们之前对NVIDIA AI的报道，一定知道NeMo。准备好相关数据，基于NeMo服务来对基础模型进行fine-tune, guardrail...具体的流程参见下图。

对用户来说，这其中三个核心组成部分，第一是要有个AI模型，以及能跑AI模型——这是英伟达要先打包给用户的；第二，需要有这样一个工具对模型做“修改”；第三是部署，不管是部署到DGX Cloud云上，还是部署在本地基础设施。完成以后，就能把这东西打包带走了。这就是NIM。

听起来是不是颇有一种企业版Chat with RTX的感觉——Chat with RTX是面向个人用户，可以一键安装，然后加入本地数据，基于你电脑上的个人信息，与AI对话的应用。不过Chat with RTX的外部数据结合，用的是RAG（retrieval augmented generation），前不久我们还在文章里提过。

而且很巧的是，GTC期间，在一场面向分析师的问答会上，英伟达好几名高层都认为，企业最初还不确定对AI投入多少的时候，都倾向于选择RAG，因为这是企业自己应用生成式AI最简单的方式。甚至有人提到，RAG对于早期的企业AI应用而言是个PoC——概念验证。

“而今年人们会真的开始去打造有价值的AI产品，真正着眼在整体。”这仿佛就是NIM诞生的基础，也是英伟达推GB200-NVL72这类硬件产品的基础。换句话说，就是在英伟达看来，过了最早期的探索，企业逐渐要认真考虑用AI技术了，那就是时候给他们提供基础设施、提供工具了。

有一种定位叫AI Foundry

这里把NIM再说得明确一些：英伟达给出一些LLM模型，其中有些是英伟达自己做的，有些是开源的，还有一些来自合作伙伴。企业客户可以直接拿来用，而且可以基于自家内部数据，借助英伟达的工具，来fine-tune这些模型，真正让模型为自己所用。形成像ChipNeMo这样的工具。这个服务叫做NIM。

不过如果要说NIM的确切构成，实际还是比较复杂的，包括各种预训练模型、及各种跑模型的依赖包，如CUDA, CuDNN, TensorRT-LLM, Triton Inference Server等等……上接AI API。这部分咱就不细说了，有兴趣的去研究下英伟达的博客与文档——不过从这些中间件，其实也能看出，英伟达要为企业解决模型优化之类的问题，而不单是提供和修改模型（当然关键也包括要卖跑在下面的硬件，和NVIDIA AI企业解决方案）。

尔后，企业可以建立很多个NIM，或者说很多个AI聊天机器人。某些工作是需要指派给不同的AI去分别完成的，不同的NIM可以配合工作。关于多个NIM间的协作，黄仁勋做了举例说明，但我们没能完全理解。不过框架大致就是这个样子了。

对于拥有大量数据，但不知道该怎么用来搞AI的企业而言，NIM理论上会是个不错的工具。因为NIM的价值之一，就是对企业专用的数据做出理解——构成专门的AI数据库，然后进行“re-index”——re-index这个词感觉用在这里特别合适。用户就可以和这样的AI对话了——它和ChatGPT有着很大不同。

这里提供给NIM的企业私有数据可以是多模态的，比如说PDF文档。至于具体是什么样的数据，比如说对于软件团队来说，可以是一堆平常写的bug报告和总结。那么工程师就能和AI对谈有关公司软件的bug问题，不管是现在有多少bug，还是解决情况怎么样等等。

黄仁勋在这里列举了一个多NIM的例子。比如你作为公司软件工程师，和这样一个bug聊天AI对话以后觉得非常受挫，就可以去和另一个专职心理健康的AI继续对话，接受安慰和心理辅导——后者也可以是基于NIM做出来的…

当然了，他举这个例子应该纯粹是为了谈Hippocratic AI的LLM，配合NVIDIA ACE打造的医疗健康数字人的；不过多NIM协作大概就是这么个意思了。医疗健康也是英伟达这次谈及的重点，本文就不做展开了。

如此一来，所有的企业都可以做出属于自己的Copilot，属于自己的对话AI——不管这个Copilot是面向企业内部，还是作为服务提供给客户。黄仁勋在主题演讲中宣布了不少NIM相关的首波企业合作，包括SAP, ServiceNow, Dell, Cohesity等。

值得一提的是，作为一种试用手段，英伟达还特别开放了ai.nvidia.com这么个网址，提供相对直观的NIM试用。

在此期间，黄仁勋反复提到了英伟达作为“AI foundry”的设定，说法上是对于LLM，“并非创造，而是生产（not create it, but manufacture it）”，是为英伟达作为AI foundry的定位。“你去跑这些模型，规模化运行的时候，向我们支付的其实只是AI操作系统的钱。”黄仁勋说，“操作系统也就是NVIDIA AI Enterprise”，“非常划算”…就差没讲“buy more, save more”了…

而AI foundry的本意，也在于让企业客户的AI模型用于生产环境。

GPU回归“生成”的最初使命

最后谈一谈NIM的潜在可能性。我们对于NIM的第一眼认知是，这是英伟达普及、巩固AI生态的产品。虽然这两年我们一直在谈AI，但各行各业对于AI，尤其是生成式AI的利用还非常早期。

就如前文谈到的，即便是最前沿的电子科技企业，初期都还在用RAG做AI的PoC。可见AI的发展之路还很长。英伟达一方面要把AI的蛋糕真正做大，另一方面则要尽可能利用现有资源，来持续巩固自己在AI领域的地位——不仅要降低企业用AI的门槛，同时借助与模型合作伙伴的合作，让更多的AI资源为自己所用。

NIM显然是肩负了这样的职责的。虽然听起来我们对NIM的定位似乎有些过于高估了。但我们可以等等看接下来英伟达对于NIM的推广会是怎么样。

回到最初谈世界最终会像需求电力一样，需求“生成token”的疯狂说法——其实黄仁勋的这一说法或许仍然无法被大多数人所接受，尤其从逻辑上要理解“生成”什么，人们又如何像消费电力一样消费“生成”内容的问题。这就只能交给时间去评断了。但千行百业都真正开始用AI、生成式AI，这才是世界、个人最终全面步入AI的开端。

有个有关“生成”和英伟达自己的说法很有趣。“30年后的今天，我们又回到了最初的那个我们。”黄仁勋所说的“最初的”英伟达，是指最初做图形渲染加速的英伟达。因为GPU曾经就是干“生成内容”这个活儿的。“我们生成了很多东西，就是计算机图形。”

“我们现在要回到那里了。只不过现在用来‘生成’的计算机更大了，而且是为每个人‘生成’。”这还真是有关AI和图形，相当浪漫主义的一种说法。

责编：Illumi

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

人工智能处理器/DSP

万物皆可“生成”：谈谈英伟达打算怎么靠生成式AI赚钱

未来是“生成”的未来

让生成式AI设计芯片？

有一种定位叫AI Foundry

GPU回归“生成”的最初使命

杂志声明