职位详情 2026年5月

GPU Systems Engineer

类型 全职(意向表达) 地点 远程 时间安排 工作时间,含轮班待命 日期 2026年5月23日

职位简介

本职位为意向表达,非正式招募岗位。

我们运营 AMD Instinct 和 Nvidia HGX 级硬件上的 GPU 集群。系统工程工作涵盖从固件、ROCm 或 CUDA 技术栈,经由 fabric、光纤、RDMA 和存储,直至租户就绪集群的全链条。

如果您曾在有意义的规模上构建或运营过生产级 GPU 系统,我们希望认识您。

职责范围

  • 启动新 GPU 集群:固件、BIOS、驱动栈、fabric 配置、验证。
  • 在集群层面调优和排查 RDMA、RoCE 及 NCCL 或 RCCL 行为。
  • 跨租户运营 ROCm、CUDA 及配套库栈。
  • 与平台、网络和数据中心团队协调容量、可靠性和硬件更换事宜。
  • 撰写下一位运维人员将依赖的操作手册。

必备技能与经验

  • 具有 AMD Instinct 或 Nvidia HGX 级生产 GPU 集群的实际操作经验。
  • 扎实的 Linux 基础,能够进行内核和驱动级排查。
  • 理解 RDMA fabric 设计、NCCL 或 RCCL 调优及多节点训练性能。
  • 熟悉固件更新、硬件诊断及供应商升级处理。
  • 方法论严谨。倾向于隔离变量,而非直接更换部件。

关于 OneQode

OneQode 是全球高性能数字基础设施提供商。凭借跨越五大洲、超过 30 座数据中心的纵向整合平台,涵盖云计算、低延迟网络与主权技术,OneQode 使企业、政府及对性能有极致需求的机构能够在全球范围内大规模运行 AI 及关键任务工作负载。

如何申请

如果您认为这正是适合您的职位,我们期待您的来信。

点击下方按钮提交申请。

browse similar roles
  • NOC Engineer

    类型 全职(合同制) 地点 远程(马来西亚) 班次 24x7 轮班制 日期

  • Solutions Architect

    类型 全职 地点 远程(优先考虑亚太地区) 班次 标准工作时间 日期

  • Cloud Platform Engineer

    类型 全职 地点 远程 班次 标准工作时间 日期

  • PR & Narrative Lead

    类型 全职 地点 远程(优先考虑亚太时区) 班次 标准工作时间 日期

  • Enterprise Sales

    类型 全职 地点 美国、东盟或欧洲 班次 与目标区域对齐 日期

  • Executive Assistant

    类型 全职 地点 远程(亚太时区) 班次 标准工作时间 日期

  • Head of People

    类型 全职 地点 远程 班次 标准工作时间 日期

  • Legal Counsel

    类型 全职 地点 远程 班次 标准工作时间 日期

  • Datacenter Operations Engineer

    类型 全职 地点 泰国曼谷 班次 现场办公,含随叫随到轮班 日期

准备好开始了吗?

与我们的基础设施团队探讨您的下一次部署。