使用NVIDIAIGXOrin开发者套件在边缘部署大语言模型

原创 英伟达NVIDIA中国 2023-11-24 19:17


随着大语言模型(LLM)的功能日益强大,减少其计算需求的技术也日趋成熟,由此产生了两个引人注目的问题:能够在边缘运行和部署的最先进的 LLM 是什么?现实世界中的应用如何才能充分利用这些成果?


即使采用较低的 FP16 精度,运行像 Llama 270b 这样最先进的开源 LLM,也需要超过 140 GB 的 GPU 显存(VRAM)(700 亿参数 x 2 字节 = FP16 精度下的 140 GB,还要加上 KV 缓存所增加的显存需求)。对于大多数开发者和较小的公司来说,要获得这么大的 VRAM 并不容易。此外,无论是由于成本、带宽、延迟还是数据隐私问题,应用程序的特定要求可能会排除使用云计算资源托管 LLM 这一选项。


NVIDIA IGX Orin 开发者套件和 NVIDIA Holoscan SDK 可应对这些挑战,将 LLM 的强大功能带到边缘。NVIDIA IGX Orin 开发者套件可提供一个满足工业和医疗环境需求的工业级边缘 AI 平台。内置的 NVIDIA Holoscan 是一套能够协调数据移动、加速计算、实时可视化和 AI 推理的 SDK。


该平台让开发者能够将开源 LLM 添加到边缘 AI 流式传输工作流和产品中,为实时 AI 传感器处理带来了新的可能性,同时确保敏感数据保持在 IGX 硬件的安全边界内。


适用于实时流式传输的开源 LLM


近来开源 LLM 的快速发展已经改变了人们对实时流式传输应用可能性的看法。之前,人们普遍认为,任何需要类似人类能力的应用,都只能由数据中心规模的企业级 GPU 驱动的闭源 LLM 实现。但由于近期新型开源 LLM 的性能暴涨,Falcon、MPT、Llama 2 等模型现在已经可以替代闭源黑盒 LLM。


有许多可能的应用可以利用这些边缘的开源模型,其中大多都涉及到将流式传输传感器数据提炼为自然语言摘要。可能出现的应用有:让家属随时了解手术进展的手术实时监控视频、为空中交通管制员汇总最近的雷达交流情况,以及将足球比赛的实况解说转换成另一种语言。


随着强大开源 LLM 的出现,一个致力于提高这些模型准确性,并减少运行模型所需计算量的社群应运而生。这个充满活力的社群活跃在“Hugging Face 开放式 LLM 排行榜”上,该排行榜经常会更新最新的顶尖性能模型。


丰富的边缘 AI 功能


NVIDIA IGX Orin 平台在利用激增的可用开源 LLM 和支持软件方面具有得天独厚的优势。


强大的 Llama 2 模型有 NVIDIA IGX Orin 平台安全措施的加持,并可以无缝集成到低延迟的 Holoscan SDK 管道中,因此能够应对各种问题和用例。这一融合不仅标志着边缘 AI 能力的重大进步,而且释放了多个领域变革性解决方案的潜力。


其中一个值得关注的应用能够充分利用新发布的 Clinical Camel,这是一个经过微调的 Llama 2 70B 模型变体,专门用于医学知识研究。基于该模型创建本地化的医疗聊天机器人,可确保敏感的患者数据始终处于 IGX 硬件的安全边界内。对隐私、带宽或实时反馈要求极高的应用程序是 IGX 平台真正的亮点所在。


想象一下,输入患者的病历,并向机器人查询类似病例,获得有关难以诊断的患者的新洞察,甚至为医疗专业人员筛选出不会与当前处方产生相互作用的药物——所有这些都可以通过 Holoscan 应用实现自动化。该应用可将医患互动的实时音频转换成文本,并将其无缝地输入到 Clinical Camel 模型中。


图 1. Clinical Camel 模型

根据示例对话生成的临床笔记


NVIDIA IGX 平台凭借对低延迟传感器输入数据的出色优化,将 LLM 的功能扩展到纯文本应用之外。医疗聊天机器人已经足以展现出它的强大,而 IGX Orin 开发者套件更强大的地方在于,它能够无缝集成来自各种传感器的实时数据。


IGX Orin 专为边缘环境打造,可以处理来自摄像头、激光雷达传感器、无线电天线、加速度计、超声探头等的流信息。这一通用性使各种先进的应用能够无缝地将 LLM 的强大功能与实时数据流融合。


在集成到 Holoscan 操作系统后,这些 LLM 可显著增强 AI 传感器处理管道的能力和功能。具体示例如下:


多模态医疗助手增强 LLM 的能力,使其不仅能够解释文本,还能解释医学影像,如 Med-Flamingo 等项目所验证的那样,它能解释核磁共振、X 射线和组织学影像。


图 2. LLM 可解释文本

并从医学影像中获得相关洞察


信号情报(SIGINT):从通信系统和雷达捕获的实时电子信号中获得自然语言摘要,提供衔接技术数据与人类理解的深入洞察。


手术病例记录生成:将内窥镜视频、音频、系统数据和患者记录传输到多模态 LLM 中,生成综合全面的手术病例,并自动上传到患者的电子病历中。


智慧农业:使用土壤传感器监测 pH 值、湿度和营养水平,使 LLM 能够为优化种植、灌溉和病虫害防治策略提供可操作的深入洞察。


用于教育、故障诊断或提高生产力的软件开发助手是 LLM 的另一个新颖用例。这些模型可以帮助开发者开发更高效的代码和详尽的文档。


Holoscan 团队最近发布了 HoloChat,这个 AI 驱动的聊天机器人在 Holoscan 的开发过程中充当开发者的“助手”。它能对有关 Holoscan 和编写代码的问题做出类似人类的回答。详情请访问 GitHub 上的 nvidia-holoscan/holohub:https://github.com/nvidia-holoscan/holohub/tree/main/applications/holochat_local


HoloChat 的本地托管模式旨在为开发者提供与常见的闭源聊天机器人相同的优势,同时杜绝了将数据发送到第三方远程服务器处理所带来的隐私和安全问题。


通过模型量化

实现最佳精度与内存使用


随着大量开源模型通过 Apache 2、MIT 和商业许可发布,任何人都可以下载并使用这些模型权重。但对绝大多数开发者来说,“可以”并不意味着“可行”。


模型量化提供了一种解决方案。通过用低精度数据类型(int8 和 int4)来表示权重和激活值,而不是高精度数据类型(FP16 和 FP32),模型量化减少了运行推理的计算和内存成本。


然而,从模型中移除这一精度确实会导致模型的准确性下降。但研究表明,在内存预算既定的情况下,当参数以 4 位精度存储时,使用尽可能大且与内存匹配的模型才能实现最佳的 LLM 性能。更多详情,参见 4 位精度案例:k 位推理缩放法则:https://arxiv.org/abs/2212.09720


因此,Llama 2 70B 模型在以 4 位量化实施时,达到了精度和内存使用之间的最佳平衡,将所需的 RAM 降低至 35 GB 左右。对于规模较小的开发团队甚至个人来说,这一内存需求是可以达到的。


开源 LLM 打开新的开发机遇


由于能够在商用硬件上运行最先进的 LLM,开源社区中出现了大量支持本地运行的新程序库,并提供能够扩展这些模型功能的工具,而不仅仅是预测句子的下一个单词。


您可以通过 Llama.cpp、ExLlama 和 AutoGPTQ 等程序库量化自己的模型,并在本地 GPU 上快速运行推理。不过,是否量化模型完全取决于您自己的选择,因为 HuggingFace.co/models 中有大量量化模型可供使用。这在很大程度上要归功于像 /TheBloke 这样的超级用户,他们每天都会上传新的量化模型。


这些模型本身就带来了令人兴奋的开发机会,更不用说还能使用大量新建程序库中的附加工具来对其进行扩展,使它们更加强大。例如:


  • LangChain:一个在 GitHub 上获得 58,000 颗星评分的程序库,提供从实现文档问答功能的矢量数据库集成,到使 LLM 能够浏览网页的多步骤代理框架等所有功能。

  • Haystack:支持可扩展的语义搜索。

  • Magentic:可将 LLM 轻松集成到您的 Python 代码中。

  • Oobabooga:一个用于在本地运行量化 LLM 的网络用户界面。


只要您有 LLM 用例,就可以使用一个开源库来提供您所需的大部分功能。


开始在边缘部署 LLM


使用 NVIDIA IGX Orin 开发者套件在边缘部署最先进的 LLM,可以解锁尚未被挖掘的开发机会。如要开始部署,请先查看"使用 IGX Orin 在边缘部署 Llama 2 70B 模型"综合教程,其详细介绍了在 IGX Orin 上创建简单聊天机器人应用:https://github.com/nvidia-holoscan/holohub/tree/main/tutorials/local-llama


该教程演示了如何在 IGX Orin 上无缝集成 Llama 2,并指导您使用 Gradio 开发 Python 应用。这是使用本文中提到的任何优质 LLM 库的第一步。IGX Orin 提供的弹性、非凡性能和端到端的安全性,使开发者能够围绕在边缘运行的先进 LLM,构建创新的 Holoscan 优化应用。



GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。点击 “阅读原文” 扫描下方海报二维码,立即注册 GTC 大会


评论
  • 振动样品磁强计是一种用于测量材料磁性的精密仪器,广泛应用于科研、工业检测等领域。然而,其测量准确度会受到多种因素的影响,下面我们将逐一分析这些因素。一、温度因素温度是影响振动样品磁强计测量准确度的重要因素之一。随着温度的变化,材料的磁性也会发生变化,从而影响测量结果的准确性。因此,在进行磁性测量时,应确保恒温环境,以减少温度波动对测量结果的影响。二、样品制备样品的制备过程同样会影响振动样品磁强计的测量准确度。样品的形状、尺寸和表面处理等因素都会对测量结果产生影响。为了确保测量准确度,应严格按照规
    锦正茂科技 2025-02-28 14:05 134浏览
  • 1,微软下载免费Visual Studio Code2,安装C/C++插件,如果无法直接点击下载, 可以选择手动install from VSIX:ms-vscode.cpptools-1.23.6@win32-x64.vsix3,安装C/C++编译器MniGW (MinGW在 Windows 环境下提供类似于 Unix/Linux 环境下的开发工具,使开发者能够轻松地在 Windows 上编写和编译 C、C++ 等程序.)4,C/C++插件扩展设置中添加Include Path 5,
    黎查 2025-02-28 14:39 140浏览
  • 更多生命体征指标风靡的背后都只有一个原因:更多人将健康排在人生第一顺位!“AGEs,也就是晚期糖基化终末产物,英文名Advanced Glycation End-products,是存在于我们体内的一种代谢产物” 艾迈斯欧司朗亚太区健康监测高级市场经理王亚琴说道,“相信业内的朋友都会有关注,最近该指标的热度很高,它可以用来评估人的生活方式是否健康。”据悉,AGEs是可穿戴健康监测领域的一个“萌新”指标,近来备受关注。如果站在学术角度来理解它,那么AGEs是在非酶促条件下,蛋白质、氨基酸
    艾迈斯欧司朗 2025-02-27 14:50 400浏览
  •           近日受某专业机构邀请,参加了官方举办的《广东省科技创新条例》宣讲会。在与会之前,作为一名技术工作者一直认为技术的法例都是保密和侵权方面的,而潜意识中感觉法律有束缚创新工作的进行可能。通过一个上午学习新法,对广东省的科技创新有了新的认识。广东是改革的前沿阵地,是科技创新的沃土,企业是创新的主要个体。《广东省科技创新条例》是广东省为促进科技创新、推动高质量发展而制定的地方性法规,主要内容包括: 总则:明确立法目
    广州铁金刚 2025-02-28 10:14 103浏览
  • 在物联网领域中,无线射频技术作为设备间通信的核心手段,已深度渗透工业自动化、智慧城市及智能家居等多元场景。然而,随着物联网设备接入规模的不断扩大,如何降低运维成本,提升通信数据的传输速度和响应时间,实现更广泛、更稳定的覆盖已成为当前亟待解决的系统性难题。SoC无线收发模块-RFM25A12在此背景下,华普微创新推出了一款高性能、远距离与高性价比的Sub-GHz无线SoC收发模块RFM25A12,旨在提升射频性能以满足行业中日益增长与复杂的设备互联需求。值得一提的是,RFM25A12还支持Wi-S
    华普微HOPERF 2025-02-28 09:06 143浏览
  • RGB灯光无法同步?细致的动态光效设定反而成为产品客诉来源!随着科技的进步和消费者需求变化,电脑接口设备单一功能性已无法满足市场需求,因此在产品上增加「动态光效」的形式便应运而生,藉此吸引消费者目光。这种RGB灯光效果,不仅能增强电脑周边产品的视觉吸引力,还能为用户提供个性化的体验,展现独特自我风格。如今,笔记本电脑、键盘、鼠标、鼠标垫、耳机、显示器等多种电脑接口设备多数已配备动态光效。这些设备的灯光效果会随着音乐节奏、游戏情节或使用者的设置而变化。想象一个画面,当一名游戏玩家,按下电源开关,整
    百佳泰测试实验室 2025-02-27 14:15 137浏览
  • 美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?‌美国加州CEC能效认证与美国DOE能效认证在多个方面存在显著差异‌。认证范围和适用地区‌CEC能效认证‌:仅适用于在加利福尼亚州销售的电器产品。CEC认证的范围包括制冷设备、房间空调、中央空调、便携式空调、加热器、热水器、游泳池加热器、卫浴配件、光源、应急灯具、交通信号模块、灯具、洗碗机、洗衣机、干衣机、烹饪器具、电机和压缩机、变压器、外置电源、消费类电子设备
    张工nx808593 2025-02-27 18:04 120浏览
  • 应用趋势与客户需求,AI PC的未来展望随着人工智能(AI)技术的日益成熟,AI PC(人工智能个人电脑)逐渐成为消费者和企业工作中的重要工具。这类产品集成了最新的AI处理器,如NPU、CPU和GPU,并具备许多智能化功能,为用户带来更高效且直观的操作体验。AI PC的目标是提升工作和日常生活的效率,通过深度学习与自然语言处理等技术,实现更流畅的多任务处理、实时翻译、语音助手、图像生成等功能,满足现代用户对生产力和娱乐的双重需求。随着各行各业对数字转型需求的增长,AI PC也开始在各个领域中显示
    百佳泰测试实验室 2025-02-27 14:08 252浏览
  • 在2024年的科技征程中,具身智能的发展已成为全球关注的焦点。从实验室到现实应用,这一领域正以前所未有的速度推进,改写着人类与机器的互动边界。这一年,我们见证了具身智能技术的突破与变革,它不仅落地各行各业,带来新的机遇,更在深刻影响着我们的生活方式和思维方式。随着相关技术的飞速发展,具身智能不再仅仅是一个技术概念,更像是一把神奇的钥匙。身后的众多行业,无论愿意与否,都像是被卷入一场伟大变革浪潮中的船只,注定要被这股汹涌的力量重塑航向。01为什么是具身智能?为什么在中国?最近,中国具身智能行业的进
    艾迈斯欧司朗 2025-02-28 15:45 221浏览
  •         近日,广电计量在聚焦离子束(FIB)领域编写的专业著作《聚焦离子束:失效分析》正式出版,填补了国内聚焦离子束领域实践性专业书籍的空白,为该领域的技术发展与知识传播提供了重要助力。         随着芯片技术不断发展,芯片的集成度越来越高,结构也日益复杂。这使得传统的失效分析方法面临巨大挑战。FIB技术的出现,为芯片失效分析带来了新的解决方案。它能够在纳米尺度上对芯片进行精确加工和分析。当芯
    广电计量 2025-02-28 09:15 116浏览
  • 一、VSM的基本原理震动样品磁强计(Vibrating Sample Magnetometer,简称VSM)是一种灵敏且高效的磁性测量仪器。其基本工作原理是利用震动样品在探测线圈中引起的变化磁场来产生感应电压,这个感应电压与样品的磁矩成正比。因此,通过测量这个感应电压,我们就能够精确地确定样品的磁矩。在VSM中,被测量的样品通常被固定在一个震动头上,并以一定的频率和振幅震动。这种震动在探测线圈中引起了变化的磁通量,从而产生了一个交流电信号。这个信号的幅度和样品的磁矩有着直接的关系。因此,通过仔细
    锦正茂科技 2025-02-28 13:30 100浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦