Мы ищем MLOps-инженера в команду Machine Learning Infrastructure Services!
Ты будешь участвовать в проектировании и развитии Inference Platform-as-a-Service — масштабируемой, отказоустойчивой и производительной платформы для сервинга ML-моделей.
Мы ищем специалиста с опытом и отраслевой экспертизой, готового принимать инженерные решения и развивать наши продукты!
Основные задачи
– Разрабатывать и поддерживать Inference Platform-as-a-Service
– Автоматизировать жизненный цикла ML-моделей - от регистрации до сервинга модели
– Создавать новые продукты для автоматизации ML-разработки
– Разрабатывать платформенные сервисы для ML
– Исследовать новые платформы/инструменты для внедрения их в продукты компании
– Продвигать и развивать best practices в области MLOps
Мы ожидаем ( ML / Inference трек)
– Опыт развертывания и эксплуатации Kubernetes для инференса моделей (GPU/CPU)
– Практический опыт работы с MLOps-инструментами деплоя и эксплуатации моделей (Triton Inference Server, BentoML или аналогов)
–
Опыт работы с инференс-движками в Kubernetes
– Знание принципов автоскейлинга, балансировки нагрузки и маршрутизации трафика в контексте ML-сервисов
– Понимание принципов мониторинга качества и параметров ML-моделей
– Опыт настройки и использования GPU-инфраструктуры: драйверы, CUDA Toolkit, MIG, GPU-Enabled Docker (nvidia-container-toolkit)
– Понимание жизненного цикла ML-экспериментов и их трекинга (MLflow/Clearml или аналоги)
– Уверенное знание Python
Мы ожидаем (OPS трек)
– Экспертные знания Kubernetes: контроллеры, операторы, HPA, работа с GPU (allocation, driver’s)
–
Опыт автоматизации инфраструктуры и Infrastructure as Code (Terraform, GitOps-подходы)
– Опыт работы с системами контроля версий и CI/CD (GitLab, GitHub)
– Опыт работы с Docker и OCI-образами
– Администрирование Linux: от настройки до мониторинга и диагностики проблем
– Опыт внедрения и работы со стеком мониторинга (Prometheus Stack)
– Навыки безопасной работы с чувствительными данными (секреты, токены, сертификаты)
+100 к резюме
– Опыт работы с Jupyter-средами
– Знание REST/gRPC, HTTP-трассировки и дебага инференс-эндпоинтов
– Опыт разработки проектов по работе с данными и ML на Python
– Знание фреймворков ML/DL: PyTorch, TensorFlow, HuggingFace Transformers
– Знание оркестраторов задач (Prefect, AirFlow)
– Понимание принципов тестирования (Unit, Integration, System)
– Понимание основ машинного обучения, его методов, а также сопряженных с ним дисциплин
– Опыт поддержки production AI-сервисов
– Желание помогать клиентам в решении их задач
Про условия
– Оформление в официально аккредитованную IT-компанию
– Белая заработная плата
– Годовая премия по результатам работы до 15% от суммарного оклада за 12 месяцев
– 30 000 бонусных рублей на услуги компании ежегодно
– Релокационный бонус при переезде
– Бесплатные обеды и кофе-брейки
– Гибкое начало рабочего дня (до 12:00), гибридный формат работы