Job Description
机器学习平台调度工程师(北京/深圳) 北京 分享 在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。 岗位职责 1.主导万卡级GPU集群的全局资源调度,通过精细化管理和优化策略,显著提升资源利用率,确保离线和在线任务的高效稳定运行;
2.深入优化RDMA高速网络、分布式存储与计算资源的协同调度,有效解决大规模训练任务中的性能瓶颈,提升整体计算效率;
3.基于Kubernetes、Docker等云原生技术,构建高可用调度框架,全面支持分布式训练框架,实现任务编排、容灾与混部能力,并深入K8s调度器、CSI插件及CRD的开发,推动大规模训推技术的实际落地;
4.积极探索混合云、虚拟化、ARM异构计算等前沿方向,不断推动技术与平台能力的升级和创新。 岗位要求 1.熟练掌握Go/Python/C++至少一门编程语言,精通数据结构和算法,具备扎实的编程基础和问题解决能力;
2.熟悉Kubernetes核心组件(调度器/网络/存储)、容器运行时及CRD开发,具备丰富的大规模集群调优经验,能够有效应对复杂环境下的调度需求;
3.具备OpenMP/MPI/RDMA高性能计算开发经验,熟悉并行计算原理及优化技巧,能够提升大规模训练任务的执行效率;
4.熟悉主流AI框架(Pytorch/TensorFlow等)及训练加速技术(算子优化/显存管理),能够针对AI任务进行深度优化。
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 TEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年01月28日2.深入优化RDMA高速网络、分布式存储与计算资源的协同调度,有效解决大规模训练任务中的性能瓶颈,提升整体计算效率;
3.基于Kubernetes、Docker等云原生技术,构建高可用调度框架,全面支持分布式训练框架,实现任务编排、容灾与混部能力,并深入K8s调度器、CSI插件及CRD的开发,推动大规模训推技术的实际落地;
4.积极探索混合云、虚拟化、ARM异构计算等前沿方向,不断推动技术与平台能力的升级和创新。
2.熟悉Kubernetes核心组件(调度器/网络/存储)、容器运行时及CRD开发,具备丰富的大规模集群调优经验,能够有效应对复杂环境下的调度需求;
3.具备OpenMP/MPI/RDMA高性能计算开发经验,熟悉并行计算原理及优化技巧,能够提升大规模训练任务的执行效率;
4.熟悉主流AI框架(Pytorch/TensorFlow等)及训练加速技术(算子优化/显存管理),能够针对AI任务进行深度优化。
Ready to Apply?
Take the next step in your AI career. Submit your application to Tencent today.
Submit Application