Комус – ведущий производитель и комплексный поставщик товаров и услуг для бизнеса.
IT-ландшафт включает в себя собственные ЦОДы, мощности в облаках и 100 бизнес-приложений, 40 из которых – крупные.
Сегодня ИТ-подразделение Комус – это аккредитованная ИТ-компания, численностью свыше 900 сотрудников.
Мы реализуем амбициозную программу цифровой трансформации, и в нашей команде открыта вакансия ведущего инженера систем резервного копирования.
ПРЕДЛАГАЕМ
– Конкурентный доход (обсуждаем индивидуально)
– Официальное оформление по ТК РФ в аккредитованную ИТ-компанию
– Гибридный или удаленный формат работы (гибкость и индивидуальный подход), график 5/2 с 9.00 до 18.00
– Удобную локацию – новый современный офис БЦ «Интеграл» в пешей доступности от ст. м. Авиамоторная
– Развитую офисную инфраструктуру: кофе-поинты с бесплатными напитками и снеками, корпоративный бесплатный фитнес-центр и игровые пространства
– ДМС.
– Корпоративную программу лояльности и скидок (товары и услуги, развлечения, рестораны, спорт, отдых и многое другое)
– Абонементы в фитнес-клубы по специальным условиям
– Дополнительное премирование в рамках реферальной программы «Все в Комус»
– Корпоративное обучение и поддержка опытного наставника
– Возможности для развития и карьерного роста
– Драйвовые мероприятия и подарки к праздникам для сотрудников и их семей
ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ
– Проектировать и развивать архитектуру резервного копирования и восстановления для инфраструктуры, ключевых платформенных сервисов и Кubernetes
– Формировать и поддерживать политику бэкапов: классы данных, SLA, RPO/RTO, схемы хранения (retention)
– Настраивать и сопровождать системы резервного копирования: задания, репозитории, прокси, каталоги, дедупликация/компрессия
– Организовывать хранение копий в разных слоях (в т.ч. объектное S3/Ceph), обеспечивать изоляцию и устойчивость к инцидентам
– Выстраивать процессы регулярного тестирования восстановления: restore drills, контроль успешности, отчётность, документирование runbooks
– Совместно с владельцами систем развивать бэкап/восстановление для PostgreSQL/ClickHouse/Elasticsearch: выбор подходов (PITR, снапшоты, логические/физические), контроль корректности и воспроизводимости
– Настраивать наблюдаемость: метрики/алерты по успешности бэкапов, времени окон, объёмам, заполнению репозиториев, скорости восстановления; корреляция событий по метрикам и логам (Grafana/Prometheus/Loki)
– При необходимости интегрировать проверки (например, “контроль восстановления”, валидация артефактов, отчётность) в GitLab CI: артефакты, отчёты, пороговые критерии
– Управлять инфраструктурой в парадигме IaC с использованием Terraform и внедрять GitOps для управления состоянием Kubernetes-приложений с помощью ArgoCD
– Автоматизировать рутинные процессы
– Проактивно видеть проблемы в будущем и предлагать их решение
– Обеспечивать безопасность, отказоустойчивость и мониторинг платформы
– Влиять на архитектуру кластеров для повышения её доступности, стабильности и быстродействия
– Расследование инцидентов и поиск решений для предотвращения их в будущем
ДЛЯ НАС ВАЖНЫ
– Опыт работы инженером (DevOps/SRE/Platform Engineer) от 2-х лет
– Опыт эксплуатации/построения систем резервного копирования
– Понимание ключевых принципов: RPO/RTO, retention, full/incremental/synthetic.
– Уверенно владеете Terraform и понимаете принципы IaC (Infrastructure as Code).
– Понимание микросервисной архитектуры и зависимостей (БД/очереди/LB), достаточное для корректного планирования backup/restore и оценки рисков восстановления сервисов “как системы”.
– Умение работать с мониторингом и логами: Grafana/Prometheus (метрики), Loki (логи), корреляция метрик между слоями.
– Понимание принципов CI/CD и опыт интеграции тестов в GitLab CI (отчетность, артефакты, пороговые критерии).
– Уверенные знания Linux и сетей (TCP/IP, DNS, TLS, LB, firewall) — чтобы диагностировать окна бэкапа, пропускную способность, таймауты, доступность репозиториев и сервисов.
– Знание языков программирования Python, Go на уровне скриптов.
– Готовность работать в команде, аргументировать выводы, участвовать в разборе инцидентов и помогать внедрять улучшения, участвовать в код-ревью и писать понятный, поддерживаемый код для инфраструктуры
БУДЕТ ПЛЮСОМ
– Опыт Kubernetes (Helm, операторы, troubleshooting) и понимание подходов к бэкапу Kubernetes (ETCD, PV/PVC, namespace restore)
– Опыт с S3/Ceph
– Опыт работы с ArgoCD
– Опыт работы с облачными провайдерами (DataLine,VK,Yandex,SberCloud)
–
Опыт построения высокодоступных систем