NVIDIA招聘|NVIDIA最新热招岗位!一起迎接未来加速计算!

原创 英伟达NVIDIA中国 2023-06-14 18:25

NVIDIA 计算架构团队和 NVIDIA 计算专家团队正在热招!


如果你对加速计算领域充满热情,并且希望与优秀的技术专家一起合作,那么这个机会将是你展现才华的优质平台,快来加入

NVIDIA 计算架构团队


热门岗位:

简历请投递至:

sh-recruitment@nvidia.com 


Deep Learning Performance Architect - Triton / LLM - TensorRT


工作内容:围绕深度学习端到端 AI 软件全栈,包括但不限于:训练框架、核心计算库、推理优化工具(比如 TensorRT)、AI 编译器、模型压缩等全栈软件栈,以及可以在 AI 软件全栈基础上影响到下一代甚至下两代硬件架构的特性设计。


技能要求: 良好 C++ 编程,熟悉 AI 软件栈底层或者计算机体系结构,熟悉上层算法与 Python 是加分项。


工作地点:北京 / 上海


Deep Learning Performance Architect - TensorRT


工作内容:NVIDIA 深度学习推理引擎 TensorRT 的设计、开发和维护工作(比如,TensorRT 模型导入的流程和相关工具,图优化,算子的 CUDA 实现及代码生成,算子性能优化等),以及对当前主流的深度学习模型使用 TensorRT 进行推理的性能进行分析和优化。同时,还将与 NVIDIA GPU 体系结构设计团队合作,来推动 NVIDIA 深度学习解决方案的软硬件协同设计和研发。


技能要求: 熟练掌握 C++ 编程。


加分技能 / 经验: 度学习框架 / 深度学习编译器开发,性能分析 / 建模 / 优化相关的方法论 / 工具,计算机体系结构相关知识,CUDA kernel 开发 / 优化。


工作地点:上海 / 北京


Deep Learning Performance Architect - Operator


工作内容:针对不同 GPU 架构为 TensorRT、cuDNN、cuBLAS2、cuSPARSE 等深度学习算子库提供高性能基础算子以及算子融合实现,包含在线代码生成,代码融合等相关开发工作,以及根据当代 GPU 优化瓶颈影响后续硬件架构特征设计和验证工作。


技能要求: 良好 C++ 编程、熟悉计算机体系结构,有 TVM、MLIR 相关开发经验是加分项。


工作地点:上海 / 北京


Deep Learning Performance Architect


工作内容:围绕运算架构的全栈优化,包括但不限于:深度学习模型分析与预测、架构的性能分析、编译器性能分析,以及对主流运算架构和软件生态的分析。使 NVIDIA 软件生态与计算架构更好的支持主流应用。


技能要求: 良好 C++ / Python 编程,熟悉 AI 软件或者计算机体系结构。


工作地点:上海

 

上下滑动查看更多职位详情


团队介绍



算力是 AI 时代的基础设施,而“后摩尔定律时代”,软硬件协同设计,才是加速计算的未来!


NVIDIA 计算架构团队历经 CUDA 并行编程模型从起步至今的所有阶段,其间参与了数代通用 GPU 计算架构及之上的包括 cuDNN、TensorRT、底层高性能算子、并行编程语言在内的加速软件栈的研发工作。该团队同时参与关键机器学习模型的算法及框架优化。


目前,该团队开放多个职位等你的加入!与我们共同书写下一代 AI 计算架构的未来!


NVIDIA 计算架构团队旨在推动算法、并行编程模型、核心加速软件库及 GPU 体系结构的协同设计和演化,在高速发展的深度学习算法与 GPU 硬件体系结构之间建立桥梁,并研发先进的软硬件协同的加速计算解决方案。


该团队从高性能计算、深度学习、自动驾驶等计算应用领域出发,跟踪学界、工业界前沿算法,并掌握其发展方向;通过对前沿算法(比如:神经网络结构)的深入理解,分析并提出芯片架构的需求,包含指令集、编程模型、计算能力、访存带宽、片上存储、片上网络及网络互联等。


同时,承担基于架构的计算加速软件栈的开发及产品化工作。自底层加速核心算子开发及优化,基于硬件加速的并行编程模型的研发和编译,TensorRT、cuDNN 等核心加速库,直到上层训练框架、编译优化。以及,针对模型的混合精度、稀疏矩阵训练及量化方法开发。


上下滑动查看更多详情


团队发展



该团队基于硬件架构开发软件、编程模型、算法实现,通过算法、软件开发实践反馈并推动硬件架构优化,形成闭环,最终实现软件、编程模型及硬件架构的协同演化和迭代,达到极致计算加速的目标:


  • 建立下一代芯片性能模型、搭建芯片性能分析平台、调研下一代芯片新特性

  • 研发及设计新的加速指令、开发原型代码及编程模型、迭代优化下一代芯片架构

  • 跟踪下一代芯片新特性在应用中的落地实现(算子实现、编译等)

  • 开发集成最终软件产品库 - TensorRT,cuDNN

  • 优化训练框架(MLPerf 各项优化)

  • 开发混合精度、稀疏矩阵及量化方法

上下滑动查看更多详情

NVIDIA 计算专家团队


热门岗位:

简历请投递至:

sh-recruitment@nvidia.com 


Developer Technology Engineer


工作内容:


  • 包括大语言模型、生成式 AI、 推荐系统在内的深度学习、机器学习、数据分析领域新技术,以及编程实现、优化、模型、算法等方面的研究和开发;

  • 工业界实际应用的深度分析和优化,以保证该类应用在当前和未来的 NVIDIA 架构上都能保持卓越性能;

  • 为关键客户(业界头部公司)提供合适的 AI 解决方案;

  • 和 GPU / CPU / DPU 架构团队、研究团队、应用库和开发工具团队、系统软件团队等紧密合作来影响下一代产品架构、软件平台和编程模式的设计与开发;

  • 与世界各地的优秀同事一起助力深度学习技术在互联网、交通、金融、医疗等各领域的落地。


基本要求:


  • 计算机科学相关专业优秀硕士、博士毕业生;

  • 拥有良好的 C / C++ / Python 编程能力,良好的软件设计和开发能力;

  • (二选一)有并行计算编程基础,有 CUDA / C / C++ / Python 编程经验;

  • (二选一)拥有深度学习,机器学习领域的扎实理论基础,熟悉常见的深度学习网络或机器学习算法;

  • 良好的沟通能力、解决问题能力、时间管理能力和任务优先级管理能力;

  • 良好的英文技术文档读写能力和日常听说沟通能力。


工作地点:北京 / 上海 / 深圳 / 台北


上下滑动查看更多职位详情


团队介绍



NVIDIA 计算专家团队(DevTech)专注于各种深度学习算法、科学计算、数据分析和云端应用;在 NVIDIA 平台上进行性能分析以及优化,以充分发挥 NVIDIA  GPU / CPU / DPU,集群和数据中心强大的算力,使其达到,或者接近“光速”(SOL)水平的高级技术团队。


该团队与世界上技术领先的企业、高校、研究院所合作,共同推动和加速各项 AI 应用的落地。通过与用户深度紧密的合作,在大语言模型、生成式 AI、推荐系统、自动驾驶、自然语言处理、视频和图像理解、语音识别与合成,游戏等领域取得了累累硕果。该团队成为帮助客户发挥硬件平台和软件栈综合算力的中坚力量,能够为产品研发团队提供性能优化、设计原型和行业应用案例。


团队目标:在 NVIDIA 系统上,将各类应用优化到性能极致!


以打造大语言模型(LLM)应用为例,既可以直接使用 NVAIE / NVIDIA Nemo Service,也可以使用应用框架(Nemo FW、Triton+TensorRT、FT 等)来训练和部署模型,也可以基于 cuDNN / TensorRT 等软件库自己开发自己的框架,还可以基于 CUDA 来完全定制化自己的 pipeline,或者也可以混合采用这些方法。


如何选择一种合适的方法,其关键在于取得应用场景、性能要求、平台灵活性、时间成本、技术成本之间的平衡。NVIDIA 计算专家团队就是帮助客户和 NVIDIA 解决这个问题的。


上下滑动查看更多详情


团队发展



团队成员主要来自北京、上海、深圳、台北、首尔等地。


科学计算时代,当整个市场都还只关注于不断扩大通用硬件的规模时,NVIDIA 推出了加速计算 GPGPU 和 CUDA 编程模型。GPU 和 CUDA 这一全新的加速计算范式,为业界带来了源源不断的加速,但是也对应用的开发和优化提出了挑战。


在不断改进基础库性能的同时,NVIDIA 组建了一支特别团队,关注更为具体的应用。团队成员们不仅有深厚的计算机功底(从计算机体系结构、CUDA 编程,到编译原理、网络互连),还拥有各个领域的专业知识。这支团队不但可以从 GPU 编程方面对程序进行优化,更能从算法、模型方面提出改进建议,这使得 NVIDIA GPU 从科学计算领域脱颖而出。


随着深度学习的高速发展,该团队也在续写着相同的故事。对于 AI 中的神经网络,从代码和算法两个方面对其进行优化。代码方面涉及 CUDA、GPU 库,多机多卡网络互连等各个领域;而算法包括了模型压缩、量化、剪枝、混合精度训练、梯度压缩等,其最终目标都是在模型精度没有损失,或者损失不大的情况下,提高训练和预测的速度。


对于一个基于 AI 的实际工业项目,除了神经网络以外,系统内还包括了很多其他模块,神经网络在其中耗时只占 1/3 - 1/2。以互联网核心的推荐系统为例,其包括了召回、过滤、粗排、精排、离线训练、在线训练、ETL、特征工程等模块和流程。该团队致力于提供全流程的参考解决方案,让尽可能多的模块运行在 GPU 上,进而为应用带来显著加速。


上下滑动查看更多详情



点击 “阅读原文”,或扫描下方海报二维码观看 NVIDIA 创始人兼 CEO 黄仁勋在 COMPUTEX 2023 的主题演讲直播回放,主题演讲中文字幕版已上线,了解 AI、图形及其他领域的最新进展!


评论
  • 全球智能电视时代来临这年头若是消费者想随意地从各个通路中选购电视时,不难发现目前市场上的产品都已是具有智能联网功能的智能电视了,可以宣告智能电视的普及时代已到临!Google从2021年开始大力推广Google TV(即原Android TV的升级版),其他各大品牌商也都跟进推出搭载Google TV操作系统的机种,除了Google TV外,LG、Samsung、Panasonic等大厂牌也开发出自家的智能电视平台,可以看出各家业者都一致地看好这块大饼。智能电视的Wi-Fi连线怎么消失了?智能电
    百佳泰测试实验室 2024-12-12 17:33 34浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 106浏览
  • 在智能化技术快速发展当下,图像数据的采集与处理逐渐成为自动驾驶、工业等领域的一项关键技术。高质量的图像数据采集与算法集成测试都是确保系统性能和可靠性的关键。随着技术的不断进步,对于图像数据的采集、处理和分析的需求日益增长,这不仅要求我们拥有高性能的相机硬件,还要求我们能够高效地集成和测试各种算法。我们探索了一种多源相机数据采集与算法集成测试方案,能够满足不同应用场景下对图像采集和算法测试的多样化需求,确保数据的准确性和算法的有效性。一、相机组成相机一般由镜头(Lens),图像传感器(Image
    康谋 2024-12-12 09:45 74浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 108浏览
  • 首先在gitee上打个广告:ad5d2f3b647444a88b6f7f9555fd681f.mp4 · 丙丁先生/香河英茂工作室中国 - Gitee.com丙丁先生 (mr-bingding) - Gitee.com2024年对我来说是充满挑战和机遇的一年。在这一年里,我不仅进行了多个开发板的测评,还尝试了多种不同的项目和技术。今天,我想分享一下这一年的故事,希望能给大家带来一些启发和乐趣。 年初的时候,我开始对各种开发板进行测评。从STM32WBA55CG到瑞萨、平头哥和平海的开发板,我都
    丙丁先生 2024-12-11 20:14 68浏览
  • 铁氧体芯片是一种基于铁氧体磁性材料制成的芯片,在通信、传感器、储能等领域有着广泛的应用。铁氧体磁性材料能够通过外加磁场调控其导电性质和反射性质,因此在信号处理和传感器技术方面有着独特的优势。以下是对半导体划片机在铁氧体划切领域应用的详细阐述: 一、半导体划片机的工作原理与特点半导体划片机是一种使用刀片或通过激光等方式高精度切割被加工物的装置,是半导体后道封测中晶圆切割和WLP切割环节的关键设备。它结合了水气电、空气静压高速主轴、精密机械传动、传感器及自动化控制等先进技术,具有高精度、高
    博捷芯划片机 2024-12-12 09:16 80浏览
  • 应用环境与极具挑战性的测试需求在服务器制造领域里,系统整合测试(System Integration Test;SIT)是确保产品质量和性能的关键步骤。随着服务器系统的复杂性不断提升,包括:多种硬件组件、操作系统、虚拟化平台以及各种应用程序和服务的整合,服务器制造商面临着更有挑战性的测试需求。这些挑战主要体现在以下五个方面:1. 硬件和软件的高度整合:现代服务器通常包括多个处理器、内存模块、储存设备和网络接口。这些硬件组件必须与操作系统及应用软件无缝整合。SIT测试可以帮助制造商确保这些不同组件
    百佳泰测试实验室 2024-12-12 17:45 27浏览
  • 本文介绍瑞芯微RK3588主板/开发板Android12系统下,APK签名文件生成方法。触觉智能EVB3588开发板演示,搭载了瑞芯微RK3588芯片,该开发板是核心板加底板设计,音视频接口、通信接口等各类接口一应俱全,可帮助企业提高产品开发效率,缩短上市时间,降低成本和设计风险。工具准备下载Keytool-ImportKeyPair工具在源码:build/target/product/security/系统初始签名文件目录中,将以下三个文件拷贝出来:platform.pem;platform.
    Industio_触觉智能 2024-12-12 10:27 29浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-12 10:13 25浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-11 17:58 83浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦