解密AI如何加速数据科学工作流

英伟达NVIDIA中国 2024-10-22 18:18

本文属于《解码 AI》系列栏目,该系列的目的是让技术更加简单易懂,从而解密 AI,同时向 RTX 工作站和 PC 用户展示全新硬件、软件、工具和加速特性。


AI 正帮助各行各业推动创新和提高效率,但要充分发挥其潜力,必须基于海量的高质量数据对各种模型进行训练。数据科学家在准备这类数据方面发挥着关键作用,在专业数据(通常为专有数据)对于增强 AI 功能至关重要的特定领域尤其如此。


为了帮助数据科学家应对日益增长的工作负载需求,NVIDIA 发布了 RAPIDS cuDF 库,以便用户更轻松地处理数据,并且无需更改代码即可加速 pandas 软件库。Pandas 是面向 Python 的一个灵活、功能强大的热门数据分析和处理库。借助 cuDF,数据科学家现在可以在他们首选的代码库上全速运行数据处理。


NVIDIA RTX AI 硬件和技术也可以加速数据处理。这包括强大的 GPU,可提供在各个层面快速高效地加速 AI 所需的计算性能 — 从数据科学工作流到 PC 和工作站上的模型训练和定制。


数据科学的瓶颈


最常用的数据格式是按行和列组织的表格数据。小型数据集可以使用 Excel 等电子表格工具进行管理,但是,包含数千万行的数据集和建模工作流通常依赖于采用了例如 Python 等编程语言的 DataFrame 程序库。


Python 是进行数据分析时的热门选择,主要是因为 pandas 库采用易于使用的应用编程接口(API)。然而,随着数据集的规模不断增长,pandas 在纯 CPU 系统中难以实现理想的处理速度和效率。该库在处理文本密集型数据集时的性能也为人所诟病,而对大语言模型来说,这是一种重要的数据类型。


当数据需求超出 pandas 的能力时,数据科学家会面临两难境地:要么忍受缓慢的处理速度,要么采取复杂且成本高昂的措施,即转而采用更高效但对用户不够友好的工具。


使用 RAPIDS cuDF 加速预处理工作流

RAPIDS cuDF 配合 RTX AI PC 和工作站,可为热门的 pandas 软件库提供最高达 100 倍加速


借助 RAPIDS cuDF,数据科学家现在可以在他们首选的代码库上全速运行数据处理。RAPIDS 是一套开源 GPU 加速的 Python 库,旨在改进数据科学和分析工作流。cuDF 是一个 GPU DataFrame 库,可提供类似于 pandas 的 API 来加载、过滤和操作数据。


使用 cuDF 的“pandas 加速器模式”,数据科学家可以在 GPU 上运行现有的 pandas 代码,充分利用强大的并行处理功能,并可放心的将代码在必要时移植到 CPU 上。这种互通性提供了出色、可靠的性能。


最新版本的 cuDF 支持更大规模的数据集和数十亿行的表格文本数据。这样,数据科学家就能够使用 pandas 代码来预处理生成式 AI 的数据。


在 NVIDIA RTX 加持的 AI 工作站

和 PC 上加速数据科学


最近的一项研究表明,57% 的数据科学家使用 PC、台式机或工作站等本地资源来执行数据科学任务。


从 NVIDIA GeForce RTX 4090 GPU 开始,数据科学家可以实现显著的速度提升。随着数据集规模不断增长,处理工作占用更多内存,相比于基于传统 CPU 的解决方案,在工作站中配合使用 cuDF 和 NVIDIA RTX 5880 Ada 架构 GPU,可以将性能提升多达 100 倍。


y 轴表示两种常见的数据科学操作—“join”和“groupby”,而 x 轴显示运行每项操作所需的时间


数据科学家可以在 NVIDIA AI Workbench 上轻松开始使用 RAPIDS cuDF。利用这个基于容器的免费开发者环境管理器,数据科学家和开发者可以跨 GPU 系统创建、迁移 AI 和数据科学工作负载并进行协作。用户可以从 NVIDIA GitHub 仓库中提供的几个示例项目开始,例如 cuDF AI Workbench 项目。


HP AI Studio 也默认支持 cuDF,这是一个集中式数据科学平台,旨在帮助 AI 开发者将其开发环境从工作站无缝复制到云端。这便于他们创建、开发项目并进行协作,而无需管理多个环境。


在 RTX 加持的 AI PC 和工作站上,cuDF 的优势并不仅限于提升原始性能。还包括:

  • 在强大的 GPU 上进行固定成本的本地开发,并可以无缝复制到本地部署的服务器或云实例,从而节省时间和支出。

  • 加快数据处理以实现更快迭代,以便数据科学家以交互式的速度进行实验、优化并从数据集中产生洞察。

  • 实现更有效的数据处理,以在后续工作流获得更好的模型结果。


数据科学的新时代


随着 AI 和数据科学的不断发展,快速处理和分析大量数据集的能力将成为各行业实现突破的关键差异化因素。无论是开发复杂的机器学习模型、执行复杂的统计分析还是探索生成式 AI,RAPIDS cuDF 都可为新一代数据处理奠定基础。


NVIDIA 正通过增加对最热门的 DataFrame 工具的支持来巩固这一基础,其中包括 Polars,它是增长最快的 Python 库之一,与其他开箱即用的纯 CPU 工具相比,可帮助显著加速数据处理。


Polars 本月宣布推出由 RAPIDS cuDF 提供支持的 Polars GPU 引擎公开测试版。Polars 用户现在可以将本已极快的 DataFrame 库性能提升多达 13 倍。


RTX AI 为未来的工程师创造无限可能


无论在大学数据中心、GeForce RTX 笔记本电脑还是 NVIDIA RTX 工作站上运行,NVIDIA GPU 都可加速学习过程。数据科学领域及其他领域的学生将增强其学习体验,并通过广泛应用于现实世界应用的硬件获得实战经验。


生成式 AI 正在深入改变游戏、视频会议和各种交互体验。点击“阅读原文”订阅解码 AI 新闻,了解该领域的最新动态和未来趋势。


GTC 2025 内容征集海报提交的截止时间为北京时间 2024 年 10 月 25 日(星期五)上午 8:00。扫描下方海报二维码即可提交。2025 年 3 月,在圣何塞向全世界分享您的成就。


评论
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 94浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 105浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 151浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球中空长航时无人机产值达到9009百万美元,2024-2030年期间年复合增长率CAGR为8.0%。 环洋市场咨询机构出版了的【全球中空长航时无人机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球中空长航时无人机总体规模,包括产量、产值、消费量、主要生产地区、主要生产商及市场份额,同时分析中空长航时无人机市场主要驱动因素、阻碍因素、市场机遇、挑战、新产品发布等。报告从中空长航时
    GIRtina 2025-01-09 10:35 37浏览
  • 1月7日-10日,2025年国际消费电子产品展览会(CES 2025)盛大举行,广和通发布Fibocom AI Stack,赋智千行百业端侧应用。Fibocom AI Stack提供集高性能模组、AI工具链、高性能推理引擎、海量模型、支持与服务一体化的端侧AI解决方案,帮助智能设备快速实现AI能力商用。为适应不同端侧场景的应用,AI Stack具备海量端侧AI模型及行业端侧模型,基于不同等级算力的芯片平台或模组,Fibocom AI Stack可将TensorFlow、PyTorch、ONNX、
    物吾悟小通 2025-01-08 18:17 43浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 126浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2025-01-09 09:58 33浏览
  • 在过去十年中,自动驾驶和高级驾驶辅助系统(AD/ADAS)软件与硬件的快速发展对多传感器数据采集的设计需求提出了更高的要求。然而,目前仍缺乏能够高质量集成多传感器数据采集的解决方案。康谋ADTF正是应运而生,它提供了一个广受认可和广泛引用的软件框架,包含模块化的标准化应用程序和工具,旨在为ADAS功能的开发提供一站式体验。一、ADTF的关键之处!无论是奥迪、大众、宝马还是梅赛德斯-奔驰:他们都依赖我们不断发展的ADTF来开发智能驾驶辅助解决方案,直至实现自动驾驶的目标。从新功能的最初构思到批量生
    康谋 2025-01-09 10:04 40浏览
  • 在智能网联汽车中,各种通信技术如2G/3G/4G/5G、GNSS(全球导航卫星系统)、V2X(车联网通信)等在行业内被广泛使用。这些技术让汽车能够实现紧急呼叫、在线娱乐、导航等多种功能。EMC测试就是为了确保在复杂电磁环境下,汽车的通信系统仍然可以正常工作,保护驾乘者的安全。参考《QCT-基于LTE-V2X直连通信的车载信息交互系统技术要求及试验方法-1》标准10.5电磁兼容试验方法,下面将会从整车功能层面为大家解读V2X整车电磁兼容试验的过程。测试过程揭秘1. 设备准备为了进行电磁兼容试验,技
    北汇信息 2025-01-09 11:24 51浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 82浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 128浏览
  • 一个真正的质量工程师(QE)必须将一件产品设计的“意图”与系统的可制造性、可服务性以及资源在现实中实现设计和产品的能力结合起来。所以,可以说,这确实是一种工程学科。我们常开玩笑说,质量工程师是工程领域里的「侦探」、「警察」或「律师」,守护神是"墨菲”,信奉的哲学就是「墨菲定律」。(注:墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。)做质量工程师的,有时会不受欢迎,也会被忽视,甚至可能遭遇主动或被动的阻碍,而一旦出了问题,责任往往就落在质量工程师的头上。虽然质量工程师并不负
    优思学院 2025-01-09 11:48 57浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 115浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 80浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦