Вакансии компании Selectel, дата-центр в Санкт-Петербурге – Работа в Selectel, дата-центр

Мы ищем MLOps-инженера в команду Machine Learning Infrastructure Services! Ты будешь участвовать в проектировании и развитии Inference Platform-as-a-Service — масштабируемой, отказоустойчивой и производительной платформы для сервинга ML-моделей. Мы ищем специалиста с опытом и отраслевой экспертизой, готового принимать инженерные решения и развивать наши продукты! Основные задачи – Разрабатывать и поддерживать Inference Platform-as-a-Service – Автоматизировать жизненный цикла ML-моделей - от регистрации до сервинга модели – Создавать новые продукты для автоматизации ML-разработки – Разрабатывать платформенные сервисы для ML – Исследовать новые платформы/инструменты для внедрения их в продукты компании – Продвигать и развивать best practices в области MLOps Мы ожидаем ( ML / Inference трек) – Опыт развертывания и эксплуатации Kubernetes для инференса моделей (GPU/CPU) – Практический опыт работы с MLOps-инструментами деплоя и эксплуатации моделей (Triton Inference Server, BentoML или аналогов) – Опыт работы с инференс-движками в Kubernetes – Знание принципов автоскейлинга, балансировки нагрузки и маршрутизации трафика в контексте ML-сервисов – Понимание принципов мониторинга качества и параметров ML-моделей – Опыт настройки и использования GPU-инфраструктуры: драйверы, CUDA Toolkit, MIG, GPU-Enabled Docker (nvidia-container-toolkit) – Понимание жизненного цикла ML-экспериментов и их трекинга (MLflow/Clearml или аналоги) – Уверенное знание Python Мы ожидаем (OPS трек) – Экспертные знания Kubernetes: контроллеры, операторы, HPA, работа с GPU (allocation, driver’s) – Опыт автоматизации инфраструктуры и Infrastructure as Code (Terraform, GitOps-подходы) – Опыт работы с системами контроля версий и CI/CD (GitLab, GitHub) – Опыт работы с Docker и OCI-образами – Администрирование Linux: от настройки до мониторинга и диагностики проблем – Опыт внедрения и работы со стеком мониторинга (Prometheus Stack) – Навыки безопасной работы с чувствительными данными (секреты, токены, сертификаты) +100 к резюме – Опыт работы с Jupyter-средами – Знание REST/gRPC, HTTP-трассировки и дебага инференс-эндпоинтов – Опыт разработки проектов по работе с данными и ML на Python – Знание фреймворков ML/DL: PyTorch, TensorFlow, HuggingFace Transformers – Знание оркестраторов задач (Prefect, AirFlow) – Понимание принципов тестирования (Unit, Integration, System) – Понимание основ машинного обучения, его методов, а также сопряженных с ним дисциплин – Опыт поддержки production AI-сервисов – Желание помогать клиентам в решении их задач Про условия – Оформление в официально аккредитованную IT-компанию – Белая заработная плата – Годовая премия по результатам работы до 15% от суммарного оклада за 12 месяцев – 30 000 бонусных рублей на услуги компании ежегодно – Релокационный бонус при переезде – Бесплатные обеды и кофе-брейки – Гибкое начало рабочего дня (до 12:00), гибридный формат работы