解密AI如何加速数据科学工作流

英伟达NVIDIA中国 2024-10-22 18:18

本文属于《解码 AI》系列栏目,该系列的目的是让技术更加简单易懂,从而解密 AI,同时向 RTX 工作站和 PC 用户展示全新硬件、软件、工具和加速特性。


AI 正帮助各行各业推动创新和提高效率,但要充分发挥其潜力,必须基于海量的高质量数据对各种模型进行训练。数据科学家在准备这类数据方面发挥着关键作用,在专业数据(通常为专有数据)对于增强 AI 功能至关重要的特定领域尤其如此。


为了帮助数据科学家应对日益增长的工作负载需求,NVIDIA 发布了 RAPIDS cuDF 库,以便用户更轻松地处理数据,并且无需更改代码即可加速 pandas 软件库。Pandas 是面向 Python 的一个灵活、功能强大的热门数据分析和处理库。借助 cuDF,数据科学家现在可以在他们首选的代码库上全速运行数据处理。


NVIDIA RTX AI 硬件和技术也可以加速数据处理。这包括强大的 GPU,可提供在各个层面快速高效地加速 AI 所需的计算性能 — 从数据科学工作流到 PC 和工作站上的模型训练和定制。


数据科学的瓶颈


最常用的数据格式是按行和列组织的表格数据。小型数据集可以使用 Excel 等电子表格工具进行管理,但是,包含数千万行的数据集和建模工作流通常依赖于采用了例如 Python 等编程语言的 DataFrame 程序库。


Python 是进行数据分析时的热门选择,主要是因为 pandas 库采用易于使用的应用编程接口(API)。然而,随着数据集的规模不断增长,pandas 在纯 CPU 系统中难以实现理想的处理速度和效率。该库在处理文本密集型数据集时的性能也为人所诟病,而对大语言模型来说,这是一种重要的数据类型。


当数据需求超出 pandas 的能力时,数据科学家会面临两难境地:要么忍受缓慢的处理速度,要么采取复杂且成本高昂的措施,即转而采用更高效但对用户不够友好的工具。


使用 RAPIDS cuDF 加速预处理工作流

RAPIDS cuDF 配合 RTX AI PC 和工作站,可为热门的 pandas 软件库提供最高达 100 倍加速


借助 RAPIDS cuDF,数据科学家现在可以在他们首选的代码库上全速运行数据处理。RAPIDS 是一套开源 GPU 加速的 Python 库,旨在改进数据科学和分析工作流。cuDF 是一个 GPU DataFrame 库,可提供类似于 pandas 的 API 来加载、过滤和操作数据。


使用 cuDF 的“pandas 加速器模式”,数据科学家可以在 GPU 上运行现有的 pandas 代码,充分利用强大的并行处理功能,并可放心的将代码在必要时移植到 CPU 上。这种互通性提供了出色、可靠的性能。


最新版本的 cuDF 支持更大规模的数据集和数十亿行的表格文本数据。这样,数据科学家就能够使用 pandas 代码来预处理生成式 AI 的数据。


在 NVIDIA RTX 加持的 AI 工作站

和 PC 上加速数据科学


最近的一项研究表明,57% 的数据科学家使用 PC、台式机或工作站等本地资源来执行数据科学任务。


从 NVIDIA GeForce RTX 4090 GPU 开始,数据科学家可以实现显著的速度提升。随着数据集规模不断增长,处理工作占用更多内存,相比于基于传统 CPU 的解决方案,在工作站中配合使用 cuDF 和 NVIDIA RTX 5880 Ada 架构 GPU,可以将性能提升多达 100 倍。


y 轴表示两种常见的数据科学操作—“join”和“groupby”,而 x 轴显示运行每项操作所需的时间


数据科学家可以在 NVIDIA AI Workbench 上轻松开始使用 RAPIDS cuDF。利用这个基于容器的免费开发者环境管理器,数据科学家和开发者可以跨 GPU 系统创建、迁移 AI 和数据科学工作负载并进行协作。用户可以从 NVIDIA GitHub 仓库中提供的几个示例项目开始,例如 cuDF AI Workbench 项目。


HP AI Studio 也默认支持 cuDF,这是一个集中式数据科学平台,旨在帮助 AI 开发者将其开发环境从工作站无缝复制到云端。这便于他们创建、开发项目并进行协作,而无需管理多个环境。


在 RTX 加持的 AI PC 和工作站上,cuDF 的优势并不仅限于提升原始性能。还包括:

  • 在强大的 GPU 上进行固定成本的本地开发,并可以无缝复制到本地部署的服务器或云实例,从而节省时间和支出。

  • 加快数据处理以实现更快迭代,以便数据科学家以交互式的速度进行实验、优化并从数据集中产生洞察。

  • 实现更有效的数据处理,以在后续工作流获得更好的模型结果。


数据科学的新时代


随着 AI 和数据科学的不断发展,快速处理和分析大量数据集的能力将成为各行业实现突破的关键差异化因素。无论是开发复杂的机器学习模型、执行复杂的统计分析还是探索生成式 AI,RAPIDS cuDF 都可为新一代数据处理奠定基础。


NVIDIA 正通过增加对最热门的 DataFrame 工具的支持来巩固这一基础,其中包括 Polars,它是增长最快的 Python 库之一,与其他开箱即用的纯 CPU 工具相比,可帮助显著加速数据处理。


Polars 本月宣布推出由 RAPIDS cuDF 提供支持的 Polars GPU 引擎公开测试版。Polars 用户现在可以将本已极快的 DataFrame 库性能提升多达 13 倍。


RTX AI 为未来的工程师创造无限可能


无论在大学数据中心、GeForce RTX 笔记本电脑还是 NVIDIA RTX 工作站上运行,NVIDIA GPU 都可加速学习过程。数据科学领域及其他领域的学生将增强其学习体验,并通过广泛应用于现实世界应用的硬件获得实战经验。


生成式 AI 正在深入改变游戏、视频会议和各种交互体验。点击“阅读原文”订阅解码 AI 新闻,了解该领域的最新动态和未来趋势。


GTC 2025 内容征集海报提交的截止时间为北京时间 2024 年 10 月 25 日(星期五)上午 8:00。扫描下方海报二维码即可提交。2025 年 3 月,在圣何塞向全世界分享您的成就。


评论 (0)
  •     在研究Corona现象时发现:临界电压与介电材料表面的清洁程度有关。表面越清洁的介电材料,临界电压越高;表面污染物越多的地方,越容易“爬电”。关于Corona现象,另见基础理论第007篇。    这里说的“污染物”,定义为——可能影响介电强度或表面电阻率的固体、液体或气体(电离气体)的任何情况。    IEC 60664-1 (对应GB/T 16935.1-2023) 定义了 Pollution Degree,中文术语是“污染等
    电子知识打边炉 2025-04-07 22:06 118浏览
  •   物质扩散与污染物监测系统:环境守护的关键拼图   一、物质扩散原理剖析   物质扩散,本质上是物质在浓度梯度、温度梯度或者压力梯度等驱动力的作用下,从高浓度区域向低浓度区域迁移的过程。在环境科学范畴,物质扩散作为污染物在大气、水体以及土壤中迁移的关键机制,对污染物的分布态势、浓度动态变化以及环境风险程度有着直接且重大的影响。   应用案例   目前,已有多个物质扩散与污染物监测系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润物质扩散与污染物监测系统。这些成功案例为物质
    华盛恒辉l58ll334744 2025-04-09 11:24 66浏览
  • 文/Leon编辑/侯煜‍就在小米SU7因高速交通事故、智驾性能受到质疑的时候,另一家中国领先的智驾解决方案供应商华为,低调地进行了一场重大人事变动。(详情见:雷军熬过黑夜,寄望小米SU7成为及时雨)4月4日上午,有网友发现余承东的职务发生了变化,华为官网、其个人微博认证信息为“常务董事,终端BG董事长”,不再包括“智能汽车解决方案BU董事长”。余承东的确不再兼任华为车BU董事长,但并非完全脱离华为的汽车业务,而是聚焦鸿蒙智行。据悉,华为方面寻求将车BU独立出去,但鸿蒙智行仍留在华为终端BG部门。
    华尔街科技眼 2025-04-09 15:28 98浏览
  • ## DL/T645-2007* 帧格式:* 帧起始字符:68H* 地址域:A0 A1 A2 A3 A4 A5* 帧起始字符:68H* 控制码:1字节* 主站:* 13H:请求读电能表通信地址* 11H:请求读电能表数据* 1CH:请求跳闸、合闸* 从站:* 91H:正常应答读电能表* 9CH:正常应答跳闸、合闸* 数据域长度:1字节* 数据域:DI0 DI1 DI2 DI3* 发送方:每字节+33H* 接收方:每字节-33H* 数据标识:* 电能量* 最大需量及发生时间* 变量* 事件记录*
    四毛打印店 2025-04-09 10:53 70浏览
  •   卫星图像智能测绘系统:地理空间数据处理的创新引擎   卫星图像智能测绘系统作为融合卫星遥感、地理信息系统(GIS)、人工智能(AI)以及大数据分析等前沿技术的综合性平台,致力于达成高精度、高效率的地理空间数据采集、处理与应用目标。借助自动化、智能化的技术路径,该系统为国土资源管理、城市规划、灾害监测、环境保护等诸多领域输送关键数据支撑。   应用案例   目前,已有多个卫星图像智能测绘系统在实际应用中取得了显著成效。例如,北京华盛恒辉北京五木恒润卫星图像智能测绘系统。这些成功案例为卫星
    华盛恒辉l58ll334744 2025-04-08 16:19 88浏览
  •   物质扩散与污染物监测系统软件:多领域环境守护的智能中枢   北京华盛恒辉物质扩散与污染物监测系统软件,作为一款融合了物质扩散模拟、污染物监测、数据分析以及可视化等多元功能的综合性工具,致力于为环境科学、公共安全、工业生产等诸多领域给予强有力的技术支撑。接下来,将从功能特性、应用场景、技术实现途径、未来发展趋势等多个维度对这类软件展开详尽介绍。   应用案例   目前,已有多个物质扩散与污染物监测系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润物质扩散与污染物监测系统。这
    华盛恒辉l58ll334744 2025-04-09 14:54 120浏览
  •     根据 IEC术语,瞬态过电压是指持续时间几个毫秒及以下的过高电压,通常是以高阻尼(快速衰减)形式出现,波形可以是振荡的,也可以是非振荡的。    瞬态过电压的成因和机理,IEC 60664-1给出了以下四种:    1. 自然放电,最典型的例子是雷击,感应到电力线路上,并通过电网配电系统传输,抵达用户端;        2. 电网中非特定感性负载通断。例如热处理工厂、机加工工厂对
    电子知识打边炉 2025-04-07 22:59 164浏览
  • 文/郭楚妤编辑/cc孙聪颖‍伴随贸易全球化的持续深入,跨境电商迎来蓬勃发展期,物流行业 “出海” 成为不可阻挡的必然趋势。加之国内快递市场渐趋饱和,存量竞争愈发激烈。在此背景下,国内头部快递企业为突破发展瓶颈,寻求新的增长曲线,纷纷将战略目光投向海外市场。2024 年,堪称中国物流企业出海进程中的关键节点,众多企业纷纷扬帆起航,开启海外拓展之旅。然而,在一片向好的行业发展表象下,部分跨境物流企业的经营状况却不容乐观。它们受困于激烈的市场竞争、不断攀升的运营成本,以及复杂的国际物流环境,陷入了微利
    华尔街科技眼 2025-04-09 15:15 99浏览
  • 在万物互联时代,智能化安防需求持续升级,传统报警系统已难以满足实时性、可靠性与安全性并重的要求。WT2003H-16S低功耗语音芯片方案,以4G实时音频传输、超低功耗设计、端云加密交互为核心,重新定义智能报警设备的性能边界,为家庭、工业、公共安防等领域提供高效、稳定的安全守护。一、技术内核:五大核心突破,构建全场景安防基座1. 双模音频传输,灵活应对复杂场景实时音频流传输:内置高灵敏度MIC,支持环境音实时采集,通过4G模块直接上传至云端服务器,响应速度低至毫秒级,适用于火灾警报、紧急呼救等需即
    广州唯创电子 2025-04-08 08:59 159浏览
  • HDMI从2.1版本开始采用FRL传输模式,和2.0及之前的版本不同。两者在物理层信号上有所区别,这就需要在一些2.1版本的电路设计上增加匹配电路,使得2.1版本的电路能够向下兼容2.0及之前版本。2.1版本的信号特性下面截取自2.1版本规范定义,可以看到2.1版本支持直流耦合和交流耦合,其共模电压和AVCC相关,信号摆幅在400mV-1200mV2.0及之前版本的信号特性HDMI2.0及之前版本采用TMDS信号物理层,其结构和参数如下:兼容设计根据以上规范定义,可以看出TMDS信号的共模电压范
    durid 2025-04-08 19:01 175浏览
  •   卫星图像智能测绘系统全面解析   一、系统概述   卫星图像智能测绘系统是基于卫星遥感技术、图像处理算法与人工智能(AI)技术的综合应用平台,旨在实现高精度、高效率的地理空间数据获取、处理与分析。该系统通过融合多源卫星数据(如光学、雷达、高光谱等),结合AI驱动的智能算法,实现自动化、智能化的测绘流程,广泛应用于城市规划、自然资源调查、灾害监测等领域。   应用案例   目前,已有多个卫星图像智能测绘系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润卫星图像智能测绘系统
    华盛恒辉l58ll334744 2025-04-08 15:04 105浏览
  • 在人工智能技术飞速发展的今天,语音交互正以颠覆性的方式重塑我们的生活体验。WTK6900系列语音识别芯片凭借其离线高性能、抗噪远场识别、毫秒级响应的核心优势,为智能家居领域注入全新活力。以智能风扇为起点,我们开启一场“解放双手”的科技革命,让每一缕凉风都随“声”而至。一、核心技术:精准识别,无惧环境挑战自适应降噪,听懂你的每一句话WTK6900系列芯片搭载前沿信号处理技术,通过自适应降噪算法,可智能过滤环境噪声干扰。无论是家中电视声、户外虫鸣声,还是厨房烹饪的嘈杂声,芯片均能精准提取有效指令,识
    广州唯创电子 2025-04-08 08:40 194浏览
  •   工业自动化领域电磁兼容与接地系统深度剖析   一、电磁兼容(EMC)基础认知   定义及关键意义   电磁兼容性(EMC),指的是设备或者系统在既定的电磁环境里,不但能按预期功能正常运转,而且不会对周边其他设备或系统造成难以承受的电磁干扰。在工业自动化不断发展的当下,大功率电机、变频器等设备被大量应用,现场总线、工业网络等技术也日益普及,致使工业自动化系统所处的电磁环境变得愈发复杂,电磁兼容(EMC)问题也越发严峻。   ​电磁兼容三大核心要素   屏蔽:屏蔽旨在切断电磁波的传播路
    北京华盛恒辉软件开发 2025-04-07 22:55 256浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦