职位详情 2026年5月

GPU Systems Engineer

类型 全职(意向表达) 地点 远程 时间安排 工作时间,含轮班待命 日期 2026年5月23日

职位简介

本职位为意向表达,非正式招募岗位。

我们运营 AMD Instinct 和 Nvidia HGX 级硬件上的 GPU 集群。系统工程工作涵盖从固件、ROCm 或 CUDA 技术栈,经由 fabric、光纤、RDMA 和存储,直至租户就绪集群的全链条。

如果您曾在有意义的规模上构建或运营过生产级 GPU 系统,我们希望认识您。

职责范围

  • 启动新 GPU 集群:固件、BIOS、驱动栈、fabric 配置、验证。
  • 在集群层面调优和排查 RDMA、RoCE 及 NCCL 或 RCCL 行为。
  • 跨租户运营 ROCm、CUDA 及配套库栈。
  • 与平台、网络和数据中心团队协调容量、可靠性和硬件更换事宜。
  • 撰写下一位运维人员将依赖的操作手册。

必备技能与经验

  • 具有 AMD Instinct 或 Nvidia HGX 级生产 GPU 集群的实际操作经验。
  • 扎实的 Linux 基础,能够进行内核和驱动级排查。
  • 理解 RDMA fabric 设计、NCCL 或 RCCL 调优及多节点训练性能。
  • 熟悉固件更新、硬件诊断及供应商升级处理。
  • 方法论严谨。倾向于隔离变量,而非直接更换部件。

关于 OneQode

OneQode 是全球高性能数字基础设施提供商。凭借跨越五大洲、超过 30 座数据中心的纵向整合平台,涵盖云计算、低延迟网络与主权技术,OneQode 使企业、政府及对性能有极致需求的机构能够在全球范围内大规模运行 AI 及关键任务工作负载。

如何申请

如果您认为这正是适合您的职位,我们期待您的来信。

点击下方按钮提交申请。

browse similar roles

NOC Engineer

类型 全职(合同制) 地点 远程(马来西亚) 班次 24x7 轮班制 日期

Solutions Architect

类型 全职 地点 远程(优先考虑亚太地区) 班次 标准工作时间 日期

Cloud Platform Engineer

类型 全职 地点 远程 班次 标准工作时间 日期

PR & Narrative Lead

类型 全职 地点 远程(优先考虑亚太时区) 班次 标准工作时间 日期

Enterprise Sales

类型 全职 地点 美国、东盟或欧洲 班次 与目标区域对齐 日期

Executive Assistant

类型 全职 地点 远程(亚太时区) 班次 标准工作时间 日期

Head of People

类型 全职 地点 远程 班次 标准工作时间 日期

Legal Counsel

类型 全职 地点 远程 班次 标准工作时间 日期

Datacenter Operations Engineer

类型 全职 地点 泰国曼谷 班次 现场办公,含随叫随到轮班 日期

准备好开始了吗?

与我们的基础设施团队探讨您的下一次部署。