惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

T
The Blog of Author Tim Ferriss
Know Your Adversary
Know Your Adversary
P
Palo Alto Networks Blog
D
Darknet – Hacking Tools, Hacker News & Cyber Security
K
Kaspersky official blog
L
LINUX DO - 热门话题
P
Proofpoint News Feed
P
Privacy & Cybersecurity Law Blog
Google DeepMind News
Google DeepMind News
Attack and Defense Labs
Attack and Defense Labs
Cisco Talos Blog
Cisco Talos Blog
AI
AI
L
LINUX DO - 最新话题
H
Heimdal Security Blog
Hacker News: Ask HN
Hacker News: Ask HN
Webroot Blog
Webroot Blog
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
The GitHub Blog
The GitHub Blog
I
Intezer
Blog — PlanetScale
Blog — PlanetScale
有赞技术团队
有赞技术团队
S
Securelist
博客园_首页
IT之家
IT之家
Schneier on Security
Schneier on Security
博客园 - 叶小钗
罗磊的独立博客
WordPress大学
WordPress大学
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
MongoDB | Blog
MongoDB | Blog
P
Proofpoint News Feed
阮一峰的网络日志
阮一峰的网络日志
A
Arctic Wolf
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
W
WeLiveSecurity
The Register - Security
The Register - Security
D
DataBreaches.Net
S
Security @ Cisco Blogs
Security Archives - TechRepublic
Security Archives - TechRepublic
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
腾讯CDC
Recorded Future
Recorded Future
NISL@THU
NISL@THU
N
News and Events Feed by Topic
T
Tailwind CSS Blog
N
News and Events Feed by Topic
Cyberwarzone
Cyberwarzone
T
Tor Project blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com

CUDA

招聘|外资对冲基金|机器学习工程师 [英伟达] [北京或者上海] [深度学习性能优化-CUDA] - V2EX 训练 SVC 声音模型 2060 12g 和 8G 的 3060TI 哪个快 - V2EX win11 使用 cuda 调用两个 gpu 计算时,自带任务管理器看不到 gpu2 的使用率? - V2EX [cuda 函数劫持] cuda12.2 版本新增了一个函数 cuGetProcAddress_v2,请问如何进行劫持? - V2EX Set Max_split_size_mb To Avoid Oom In Pytorch - V2EX 如果实现 openmpi 和 cuda 编程的结合 - V2EX 怎么把显卡显存中的 rgba 图像渲染输出? - V2EX 如何实现 CUDA 的分布式并行运算? - V2EX 游戏本上用 cuda 是什么体验? - V2EX Tesla k20m 使用问题 - V2EX CUDA on WSL - V2EX 关于使用 GPU 生成随机数(cuda/opencl) - V2EX cuda 计算 titan v 为何比 rtx2080ti 更慢? - V2EX DeOldify - V2EX 不死心问一下笔记本 1050 支持 cudnn 吗? - V2EX Python+CUDA,大家有什么推荐的值得深入学习了解的项目或者著作么? - V2EX 写 CUDA,使用专业卡与游戏卡有什么区别? - V2EX 急求推荐个 5k 人民币左右的运算 GPU,能装 ubuntu 就行,跑深度学习用的,必须在 nvidia 运算能力表里面的卡 - V2EX OpenCL/CUDA/云存储求牛人指导,小伙伴们来围观 :) - V2EX 想了想用 WebGL 能不能做科学计算 - V2EX 有人用雷电转 PCI-e 设备外接显卡跑过 CUDA 的么? - V2EX 关于 GPU CUDA 编程的优化问题 - V2EX CPU or GPU? CUDA or OpenCL ? - V2EX
[英伟达 NVIDIA] [上海/北京/深圳] [CUDA 相关岗位] - V2EX
zoe1016aaa · 2023-06-09 · via CUDA

[ 地点 ] :Shanghai/Beijing/Shenzhen

[ 发送简历到 ] :[email protected]

[ WeChat 可加微信 ] :18867144803

代码能力〉工作年限

Deep Learning Performance Architect-Compiler/LLM-TensorRT

主要做的是围绕深度学习端到端的 AI 软件全栈,包括但不限于训练框架、核心计算库、推理优化工具(比如 TensorRT ),AI 编译器,模型压缩等全栈软件栈。以及可以在 AI 软件全栈基础上影响到下一代甚至下两代硬件架构的特性设计。

Required skills: 良好 C++编程,熟悉 AI 软件栈底层或者计算机体系结构,熟悉上层算法与 Python 是加分项。

地点:北京与上海

Deep Learning Performance Architect-TensorRT

负责 NVIDIA 深度学习推理引擎 TensorRT 的设计、开发和维护工作(e.g. TensorRT 模型导入的流程和相关工具,图优化,算子的 CUDA 实现及代码生成,算子性能优化等),以及对当前主流的深度学习模型使用 TensorRT 进行推理的性能进行分析和优化。同时,还将与 NVIDIA GPU 体系结构设计团队合作来推动 NVIDIA 深度学习解决方案的软硬件协同设计和研发。

岗位基本要求: 熟练掌握 C++编程

其它密切相关的技能 /经验: 深度学习框架 /深度学习编译器开发,性能分析 /建模 /优化相关的方法论 /工具,计算机体系结构相关知识,CUDA kernel 开发 /优化

地点:北京与上海

Deep Learning Performance Architect-Operator

主要做的是针对不同 GPU 架构为 TensorRT, cuDNN, cuBLAS, cuSPARSE 等深度学习算子库提供高性能基础算子以及算子融合实现,包含在线代码生成,代码融合等相关开发工作,以及根据当代 GPU 优化瓶颈影响后续硬件架构特征设计和验证工作。

Required skills: 良好 C++编程,熟悉计算机体系结构, 有 TVM, MLIR 相关开发经验是加分项。

地点:上海与北京

Deep Learning Performance Architect

主要做的是围绕运算架构的全栈优化,包括但不限于深度学习模型分析与预测,架构的性能分析,编译器性能分析以及对主流运算架构,软件生态的分析。使 NVIDIA 软件生态与计算架构更好的支持主流应用。

Required skills: 良好 C++/Python ,熟悉 AI 软件或者计算机体系结构。

地点:北京与上海

Developer Technology Engineer-AI

客户的深度学习和高能性计算应用在 NVIDIA 生态上的移植和优化。这些应用包括大语言模型,CV ,Speech,推荐系统和分子动力学,计算力学,计算量子化学等。通过算法和工程优化,提供系统级的优化方案。深度与内部架构和产品团队合作,构建和完善 NVIDIA 软硬件加速生态。

Required skills: Required Skills: 良好 C/C++编程能力,分析能力和沟通能力,熟悉深度学习或 GPU 加速计算软件栈,扎实的深度学习理论基础或精通 GPU 架构和优化。

地点:北京,上海与深圳