任职要求:
要求:
1 本科5年以上开发经验,计算机相关专业,有扎实的编程基础,具有DevOps、MLops相关背景优先
2 熟悉python全栈应用开发,熟练掌握开发框架如fab等,熟悉数据库操作
3 熟悉kubernetes架构及基本使用,具有kubernetes开发能力者优先。熟悉多项大数据处理/分析相关工具如spark、hdfs等
5 熟悉linux基础操作、配置、日志排查等
6 要求候选人性格稳重、主动思考、抗压、学习能力强、有较好的合作意识、团队合作能力、且有进取心
加分项:
1 有0-1搭建基础设施devops使用经验
2 有MLOPOS或者AIOps项目开发经验优先
3 有开源项目、技术博客撰写爱好、能分享高可用系统在先进制造中见解和经验
4 有搭建分布式GPU集群、多机多卡GPU互联软件栈经验,具备GPU环境下丰富的debug、性能优化经验
岗位职责:
岗位描述:
1 负责一站式机器学习平台的研发与迭代,包括前端、后台、平台任务流设计与研发,开发高可用的机器学习MLOps平台
2 搭建稳定高可用计算集群基础设施(GPU&CPU),了解vgpu或者gpu共享机制尤佳,持续跟进业界先进开源组件和方案并落地到项目中,如k8s,docker,argo,vocalno等,实现自动化、健康检查、实时监控性能指标等
3 维护平台数据、训练和部署,负责线上服务日常运营,能够及时响应故障报警、快速解决问题恢复业务
4 搭建高可用企业生产系统