关于此职位
我们正在组建端到端负责内部 Cloud 平台的团队。
这份工作分为两部分。大多数时候,您将构建和运营跨 GPU 和 CPU 机群的编排层,包括租户隔离、网络、可观测性以及围绕其的运营工具。其余时间,您将面向客户和更广泛的业务,帮助规划平台的下一步发展方向。
如果您有在裸机上大规模运行 Kubernetes 的经验,这正是您的领域。
职责
- 跨区域和租户类型设计、部署和运营 Cloud 控制平面。
- 负责集群的完整生命周期:配置、升级、第二天运营和下线。
- 构建内部工具,减少运营和面向客户团队的重复工作。
- 与销售和产品团队合作,根据实际客户需求塑造平台能力。
- 在有帮助的情况下参与市场推广、技术内容和客户互动。
必备技能与经验
- 生产级 Kubernetes 经验是必要条件。
- Bare Metal、IaaS 或平台工程背景非常重要。
- 具备大规模系统运营经验:大型 GPU 集群、超级计算机或大型机。
- 熟悉计算、存储、网络和身份认证各层。
- 扎实的 Linux 和基础设施即代码基础知识。
- 务实。乐于承担使平台可靠的繁琐工作。
- 愿意与客户、销售和产品部门互动,而不仅仅局限于工程领域。
加分/优选技能
- 有 Cloud 提供商工作经验。
- 熟悉多租户网络、RDMA 网络结构和 GPU 特定调度。
关于 OneQode
OneQode 是全球高性能数字基础设施提供商。凭借跨越 5 大洲 30 余个数据中心、涵盖 Cloud 计算、低延迟网络和主权技术的垂直整合平台,OneQode 使企业、政府和追求高性能的企业能够在全球范围内大规模运行 AI 及关键任务工作负载。
如何申请
如果您符合以上描述,我们非常期待收到您的申请。
点击下方按钮申请。