职位简介
本职位为意向表达,非正式招募岗位。
我们运营 AMD Instinct 和 Nvidia HGX 级硬件上的 GPU 集群。系统工程工作涵盖从固件、ROCm 或 CUDA 技术栈,经由 fabric、光纤、RDMA 和存储,直至租户就绪集群的全链条。
如果您曾在有意义的规模上构建或运营过生产级 GPU 系统,我们希望认识您。
职责范围
- 启动新 GPU 集群:固件、BIOS、驱动栈、fabric 配置、验证。
- 在集群层面调优和排查 RDMA、RoCE 及 NCCL 或 RCCL 行为。
- 跨租户运营 ROCm、CUDA 及配套库栈。
- 与平台、网络和数据中心团队协调容量、可靠性和硬件更换事宜。
- 撰写下一位运维人员将依赖的操作手册。
必备技能与经验
- 具有 AMD Instinct 或 Nvidia HGX 级生产 GPU 集群的实际操作经验。
- 扎实的 Linux 基础,能够进行内核和驱动级排查。
- 理解 RDMA fabric 设计、NCCL 或 RCCL 调优及多节点训练性能。
- 熟悉固件更新、硬件诊断及供应商升级处理。
- 方法论严谨。倾向于隔离变量,而非直接更换部件。
关于 OneQode
OneQode 是全球高性能数字基础设施提供商。凭借跨越五大洲、超过 30 座数据中心的纵向整合平台,涵盖云计算、低延迟网络与主权技术,OneQode 使企业、政府及对性能有极致需求的机构能够在全球范围内大规模运行 AI 及关键任务工作负载。
如何申请
如果您认为这正是适合您的职位,我们期待您的来信。
点击下方按钮提交申请。