借助小语言模型(SLM)降低延迟:NVIDIA首款设备端小语言模型如何让数字人栩栩如生

原创 英伟达NVIDIA中国 2024-08-27 19:50

Gamescom 2024,西山居游戏推出的“解限机(Mecha BREAK)”首次展示了采用设备端小语言模型 NVIDIA Nemotron-4 4B 的 ACE 技术,它使游戏角色提供更快、更准确的响应。



在 Gamescom 2024,NVIDIA 宣布 NVIDIA ACE 技术推出首款设备端小语言模型(SLM),由 RTX AI 提供本地支持。NVIDIA ACE 是一套利用生成式 AI 驱动的让数字人栩栩如生的技术。


这款小语言模型 Nemotron-4 4B Instruct,可提供更出色的角色扮演、检索增强生成(RAG)和功能调用能力,使游戏角色能更准确地理解玩家指令,回应玩家并做出更准确的相关操作。


此模型可作为 NVIDIA NIM 微服务供游戏开发者在云端和设备端进行部署。模型为低显存使用进行优化,可提供更快的响应速度,为开发者利用超过 1 亿台 GeForce RTX 驱动的 PC、笔记本电脑、RTX 工作站提供途径。


小语言模型(SLM)的优势


AI 模型的准确性和性能取决于用于训练的数据集的规模和质量。大语言模型使用大量数据进行训练,但通常是通用型的,包含的信息对于大多数用途来说都是多余的。


相反,小语言模型则专注于特定用例。因此,即使训练数据较少,这些模型也能提供更快、更准确的响应,这也是与数字人对话自如的关键要素。


Nemotron-4 4B 最初是从 Nemotron-4 15B 大语言模型中精炼出来的。这个过程需要小模型(类似“学生”)来模拟大模型(类似“老师”)的输出。在此过程中,学生模型的非关键输出会经过精简或删除,以减少模型的参数量。然后,SLM 会被量化,这会降低模型权重的精度。


与较大的 Nemotron-4 LLM 相比,Nemotron-4 4B 的参数更少,精度更低,显存占用率更低,并且生成第一个 Token 的时间(即响应开始的速度)更快,同时基于模型精炼仍然能够保持高准确性。其较小的显存占用也意味着集成 NIM 微服务的游戏和应用可以在 GeForce RTX AI PC 和笔记本电脑以及 NVIDIA RTX AI 工作站的本地运行。


这种经优化的全新小语言模型(SLM)还专门设计了指令微调功能,这是一种根据指令提示词对模型进行微调,使其更准确地执行特定任务的技术。这项技术在“解限机(Mecha BREAK)”游戏 Demo 中展示:玩家可以与机械师 NPC 交谈,指示其选择机甲或定制机甲涂装。


ACE 持续升级


ACE NIM 微服务使开发者可以通过云端或 RTX AI PC 和工作站部署先进的生成式 AI 模型,从而将 AI 引入他们的游戏和应用。通过 ACE NIM 微服务,非玩家角色 (NPC)可以在游戏中与玩家进行实时动态互动和对话。


ACE 由语音转文本、语言、文本转语音和面部动画的关键 AI 模型组成。它同样采用模块化构建,可让开发者为其特定流程中每个元素选择所需的 NIM 微服务。


NVIDIA Riva 自动语音识别(ASR)功能可处理用户的语音输入并利用 AI 实时提供非常准确的转录文本。该技术可利用 GPU 加速的多语种语音和翻译微服务,构建完全可定制的对话式 AI 工作流。其他支持 ASR 功能的还包括 Whisper 模型,这是一个开源神经网络,在英语语音识别拥有接近真人水平的鲁棒性和准确性。


翻译成数字化的文本后,转录内容就会进入 LLM(例如 Gemma、Llama 3 或如今推出的 NVIDIA Nemotron-4 4B),开始对用户原始语音输入生成响应。



接下来,Riva 的另一项技术“文本转语音”会生成音频响应。此外,ElevenLabs 专有 AI 语音和声音技术,已作为 ACE 的一部分在“解限机(Mecha BREAK)”中演示。


最后,NVIDIA Audio2Face(A2F)可生成面部表情,并与多种语言的对话同步。通过微服务,数字虚拟化身可以显示出逼真的动态情绪,这类情绪可以实时串流传输,也能在后期处理过程中烘焙。


AI 模型会自动生成面部、眼睛、嘴巴、舌头和头部动作的动画,并使这些动画与所选情绪范围和强度水平相匹配。A2F 还可以直接根据音频片段自动推断情绪。


最后,完整的角色或数字人会在渲染器(如虚幻引擎或 NVIDIA Omniverse 平台)中制作成动画。


NIM 提供迅捷 AI 体验


除了模块化支持 NVIDIA 驱动的 AI 模型以及第三方 AI 模型提外,ACE 还能让开发者在云端或 RTX AI PC 和工作站上本地运行每个模型的推理。


NVIDIA AI Inference Manager 软件开发套件允许根据经验、工作量和成本等各种需求进行混合推理。它通过为 PC 预先配置必要的 AI 模型、引擎和依赖项,为 PC 应用开发者简化了 AI 模型部署和集成。然后,应用和游戏可以将 PC 或工作站的推理和云端推理无缝结合。


ACE NIM 微服务可在 RTX AI PC 和工作站上本地运行,也可以在云端运行。目前本地运行的微服务包括 Covert Protocol 技术 Demo 中的 Audio2Face,以及“解限机(Mecha BREAK)”中的全新 Nemotron-4 4B Instruct 和 Whisper ASR。


创造更多可能


数字人远不止是游戏中的 NPC。在上个月的 SIGGRAPH 大会上,NVIDIA 为观众预览了一个可以通过调动情绪、展现幽默等不同方式与人类沟通的交互式数字人“James”。James 基于 ACE 的客户服务工作流设计。


前往 ai.nvidia.com 与 James 互动。


几十年来,人类与科技之间交流方式的变化最终促成数字人的诞生。未来的人机界面将是一张友好的面庞,并且无需物理输入。


数字人将推动更有趣和更自然的互动。Gartner 数据预测,到 2025 年,80% 的对话式产品将嵌入生成式 AI,75% 的面向客户的应用将具备情感对话式 AI。除游戏外,数字人还将改变多个行业和用例,包括客户服务、医疗健康、零售、远程呈现和机器人开发等领域。


用户现在即可前往 ai.nvidia.com 与 James 实时互动,一窥数字人技术的未来。



GTC 2025 内容征集现已开放点击“阅读原文”,或扫描下方海报二维码即可提交。明年 3 月,在圣何塞向全世界分享您的成就。

评论
  •           近日受某专业机构邀请,参加了官方举办的《广东省科技创新条例》宣讲会。在与会之前,作为一名技术工作者一直认为技术的法例都是保密和侵权方面的,而潜意识中感觉法律有束缚创新工作的进行可能。通过一个上午学习新法,对广东省的科技创新有了新的认识。广东是改革的前沿阵地,是科技创新的沃土,企业是创新的主要个体。《广东省科技创新条例》是广东省为促进科技创新、推动高质量发展而制定的地方性法规,主要内容包括: 总则:明确立法目
    广州铁金刚 2025-02-28 10:14 103浏览
  • 在物联网领域中,无线射频技术作为设备间通信的核心手段,已深度渗透工业自动化、智慧城市及智能家居等多元场景。然而,随着物联网设备接入规模的不断扩大,如何降低运维成本,提升通信数据的传输速度和响应时间,实现更广泛、更稳定的覆盖已成为当前亟待解决的系统性难题。SoC无线收发模块-RFM25A12在此背景下,华普微创新推出了一款高性能、远距离与高性价比的Sub-GHz无线SoC收发模块RFM25A12,旨在提升射频性能以满足行业中日益增长与复杂的设备互联需求。值得一提的是,RFM25A12还支持Wi-S
    华普微HOPERF 2025-02-28 09:06 143浏览
  • 更多生命体征指标风靡的背后都只有一个原因:更多人将健康排在人生第一顺位!“AGEs,也就是晚期糖基化终末产物,英文名Advanced Glycation End-products,是存在于我们体内的一种代谢产物” 艾迈斯欧司朗亚太区健康监测高级市场经理王亚琴说道,“相信业内的朋友都会有关注,最近该指标的热度很高,它可以用来评估人的生活方式是否健康。”据悉,AGEs是可穿戴健康监测领域的一个“萌新”指标,近来备受关注。如果站在学术角度来理解它,那么AGEs是在非酶促条件下,蛋白质、氨基酸
    艾迈斯欧司朗 2025-02-27 14:50 400浏览
  • 一、VSM的基本原理震动样品磁强计(Vibrating Sample Magnetometer,简称VSM)是一种灵敏且高效的磁性测量仪器。其基本工作原理是利用震动样品在探测线圈中引起的变化磁场来产生感应电压,这个感应电压与样品的磁矩成正比。因此,通过测量这个感应电压,我们就能够精确地确定样品的磁矩。在VSM中,被测量的样品通常被固定在一个震动头上,并以一定的频率和振幅震动。这种震动在探测线圈中引起了变化的磁通量,从而产生了一个交流电信号。这个信号的幅度和样品的磁矩有着直接的关系。因此,通过仔细
    锦正茂科技 2025-02-28 13:30 100浏览
  • 美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?‌美国加州CEC能效认证与美国DOE能效认证在多个方面存在显著差异‌。认证范围和适用地区‌CEC能效认证‌:仅适用于在加利福尼亚州销售的电器产品。CEC认证的范围包括制冷设备、房间空调、中央空调、便携式空调、加热器、热水器、游泳池加热器、卫浴配件、光源、应急灯具、交通信号模块、灯具、洗碗机、洗衣机、干衣机、烹饪器具、电机和压缩机、变压器、外置电源、消费类电子设备
    张工nx808593 2025-02-27 18:04 120浏览
  • 振动样品磁强计是一种用于测量材料磁性的精密仪器,广泛应用于科研、工业检测等领域。然而,其测量准确度会受到多种因素的影响,下面我们将逐一分析这些因素。一、温度因素温度是影响振动样品磁强计测量准确度的重要因素之一。随着温度的变化,材料的磁性也会发生变化,从而影响测量结果的准确性。因此,在进行磁性测量时,应确保恒温环境,以减少温度波动对测量结果的影响。二、样品制备样品的制备过程同样会影响振动样品磁强计的测量准确度。样品的形状、尺寸和表面处理等因素都会对测量结果产生影响。为了确保测量准确度,应严格按照规
    锦正茂科技 2025-02-28 14:05 134浏览
  • 在2024年的科技征程中,具身智能的发展已成为全球关注的焦点。从实验室到现实应用,这一领域正以前所未有的速度推进,改写着人类与机器的互动边界。这一年,我们见证了具身智能技术的突破与变革,它不仅落地各行各业,带来新的机遇,更在深刻影响着我们的生活方式和思维方式。随着相关技术的飞速发展,具身智能不再仅仅是一个技术概念,更像是一把神奇的钥匙。身后的众多行业,无论愿意与否,都像是被卷入一场伟大变革浪潮中的船只,注定要被这股汹涌的力量重塑航向。01为什么是具身智能?为什么在中国?最近,中国具身智能行业的进
    艾迈斯欧司朗 2025-02-28 15:45 221浏览
  • 1,微软下载免费Visual Studio Code2,安装C/C++插件,如果无法直接点击下载, 可以选择手动install from VSIX:ms-vscode.cpptools-1.23.6@win32-x64.vsix3,安装C/C++编译器MniGW (MinGW在 Windows 环境下提供类似于 Unix/Linux 环境下的开发工具,使开发者能够轻松地在 Windows 上编写和编译 C、C++ 等程序.)4,C/C++插件扩展设置中添加Include Path 5,
    黎查 2025-02-28 14:39 140浏览
  • RGB灯光无法同步?细致的动态光效设定反而成为产品客诉来源!随着科技的进步和消费者需求变化,电脑接口设备单一功能性已无法满足市场需求,因此在产品上增加「动态光效」的形式便应运而生,藉此吸引消费者目光。这种RGB灯光效果,不仅能增强电脑周边产品的视觉吸引力,还能为用户提供个性化的体验,展现独特自我风格。如今,笔记本电脑、键盘、鼠标、鼠标垫、耳机、显示器等多种电脑接口设备多数已配备动态光效。这些设备的灯光效果会随着音乐节奏、游戏情节或使用者的设置而变化。想象一个画面,当一名游戏玩家,按下电源开关,整
    百佳泰测试实验室 2025-02-27 14:15 137浏览
  •         近日,广电计量在聚焦离子束(FIB)领域编写的专业著作《聚焦离子束:失效分析》正式出版,填补了国内聚焦离子束领域实践性专业书籍的空白,为该领域的技术发展与知识传播提供了重要助力。         随着芯片技术不断发展,芯片的集成度越来越高,结构也日益复杂。这使得传统的失效分析方法面临巨大挑战。FIB技术的出现,为芯片失效分析带来了新的解决方案。它能够在纳米尺度上对芯片进行精确加工和分析。当芯
    广电计量 2025-02-28 09:15 116浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦