职位详情 2026年5月

GPU Systems Engineer

类型全职（意向表达）地点远程时间安排工作时间，含轮班待命日期 2026年5月23日

职位简介

本职位为意向表达，非正式招募岗位。

我们运营 AMD Instinct 和 Nvidia HGX 级硬件上的 GPU 集群。系统工程工作涵盖从固件、ROCm 或 CUDA 技术栈，经由 fabric、光纤、RDMA 和存储，直至租户就绪集群的全链条。

如果您曾在有意义的规模上构建或运营过生产级 GPU 系统，我们希望认识您。

职责范围

启动新 GPU 集群：固件、BIOS、驱动栈、fabric 配置、验证。
在集群层面调优和排查 RDMA、RoCE 及 NCCL 或 RCCL 行为。
跨租户运营 ROCm、CUDA 及配套库栈。
与平台、网络和数据中心团队协调容量、可靠性和硬件更换事宜。
撰写下一位运维人员将依赖的操作手册。

必备技能与经验

具有 AMD Instinct 或 Nvidia HGX 级生产 GPU 集群的实际操作经验。
扎实的 Linux 基础，能够进行内核和驱动级排查。
理解 RDMA fabric 设计、NCCL 或 RCCL 调优及多节点训练性能。
熟悉固件更新、硬件诊断及供应商升级处理。
方法论严谨。倾向于隔离变量，而非直接更换部件。

关于 OneQode

OneQode 是全球高性能数字基础设施提供商。凭借跨越五大洲、超过 30 座数据中心的纵向整合平台，涵盖云计算、低延迟网络与主权技术，OneQode 使企业、政府及对性能有极致需求的机构能够在全球范围内大规模运行 AI 及关键任务工作负载。

如何申请

如果您认为这正是适合您的职位，我们期待您的来信。

点击下方按钮提交申请。

申请此职位

browse similar roles

NOC Engineer

类型全职（合同制）地点远程（马来西亚）班次 24x7 轮班制日期 2026年3月24日
Solutions Architect

类型全职地点远程（优先考虑亚太地区）班次标准工作时间日期 2026年5月23日
Cloud Platform Engineer

类型全职地点远程班次标准工作时间日期 2026年5月23日
PR & Narrative Lead

类型全职地点远程（优先考虑亚太时区）班次标准工作时间日期 2026年5月23日
Enterprise Sales

类型全职地点美国、东盟或欧洲班次与目标区域对齐日期 2026年5月23日
Executive Assistant

类型全职地点远程（亚太时区）班次标准工作时间日期 2026年5月23日
Head of People

类型全职地点远程班次标准工作时间日期 2026年5月23日
Legal Counsel

类型全职地点远程班次标准工作时间日期 2026年5月23日
Datacenter Operations Engineer

类型全职地点泰国曼谷班次现场办公，含随叫随到轮班日期 2026年5月23日