ポジションについて
これは意向確認(Expression of Interest)であり、現在募集中のポジションではありません。
私たちはAMD InstinctおよびNvidia HGXクラスのハードウェアでGPUクラスターを運用しています。システムエンジニアリングの業務は、ファームウェアおよびROCmまたはCUDAスタックから、ファブリック、光学系、RDMA、ストレージを経て、テナント対応クラスターまでの全工程を含みます。
意味のある規模での本番GPUシステムの構築または運用経験があれば、ぜひご連絡ください。
職務内容
- 新規GPUクラスターの立ち上げ:ファームウェア、BIOS、ドライバースタック、ファブリック設定、検証。
- クラスターレベルでのRDMA、RoCE、NCCLまたはRCCLの動作チューニングとトラブルシューティング。
- テナント全体でのROCm、CUDAおよびサポートライブラリスタックの運用。
- プラットフォーム、ネットワーク、DCチームとのキャパシティ、信頼性、ハードウェア交換の調整。
- 次のオペレーターが参照するランブックの作成。
必須スキルと経験
- AMD InstinctまたはNvidia HGXクラスの本番GPUクラスターの実践的な経験。
- 強力なLinuxの基礎、カーネルおよびドライバーレベルのトラブルシューティング。
- RDMAファブリック設計、NCCLまたはRCCLチューニング、マルチノードトレーニングパフォーマンスの理解。
- ファームウェアアップデート、ハードウェア診断、ベンダーエスカレーションへの対応。
- 体系的な思考。部品を交換するのではなく、変数を特定できる方。
OneQodeについて
OneQodeは、パフォーマンスデジタルインフラのグローバルプロバイダーです。cloudコンピュート、低レイテンシネットワーキング、5大陸30以上のデータセンターにわたるソブリンテクノロジーを統合した垂直統合プラットフォームにより、エンタープライズ、政府、パフォーマンスを追求する企業がAIおよびミッションクリティカルなワークロードをグローバルに大規模で実行できるよう支援しています。
応募方法
ご自身に合うと感じたら、ぜひご連絡ください。
下のボタンをクリックしてご応募ください。