Мы — Timeweb Cloud, провайдер облачных решений с географически распределённой инфраструктурой. Мы разрабатываем полноценную IaaS/PaaS-платформу, которая включает сервисы Managed Kubernetes, DBaaS, объектное хранилище S3, Load Balancing as a Service (LBaaS) и виртуальные приватные сети.
Наша ценность — создавать мощные технологичные продукты, за которыми стоит сложная и по-настоящему интересная инженерная работа.
Наша цель — сделать облачные технологии доступными каждому.
Мы ищем системного администратора, который будет заниматься нетиповыми конфигурациями серверов, расследовать сложные инциденты и автоматизировать всё, что движется.
Фокус роли — инфраструктура облака: виртуализация, сеть (overlay/underlay), производительность, инциденты уровня платформы.
Основной результат — устранение первопричин и автоматизация, а не ручные правки на серверах.
Ты — последняя линия обороны: если младшие команды не смогли решить проблему, эстафета переходит к тебе.
Работа не про тикеты пользователей. Это SRE-стиль: инциденты платформы, RCA, улучшения, постмортемы.
Что предстоит делать:
– Расследование сложных проблем
– Анализировать логи, трейсы и метрики, чтобы находить корневые причины инцидентов в любой части облака.
– Диагностировать проблемы на уровне Python-сервисов и скриптов (достаточно понимания кода, активная разработка не требуется).
– Работать с ядром Linux, сетевым стеком для поиска узких мест.
– Проектирование и установка нетиповых конфигураций
– Разворачивать распределённые системы в проде и на живой нагрузке.
– Оптимизировать производительность хостов виртуализации и сетевых dataplane-компонентов (NUMA, IRQ/RPS, I/O, планировщики).
– Участвовать в архитектурном проектировании новых решений вместе с командой.
– Автоматизация
– Писать скрипты на Bash и Python для автоматизации установки ПО и конфигурации серверов.
– Работать с системами управления конфигурациями (SaltStack / Ansible).
– Настраивать и развивать мониторинг (Zabbix и другие системы).
– Oncall и эскалации
– Участвовать в дежурствах (примерно неделя в месяц, oncall).
– Подключаться к решению аварийных ситуаций, когда штатные средства и младшие команды не справляются.
Мы ждём от тебя:
Hard skills:
– Linux
– Глубокое понимание работы ОС: cgroups, namespaces, сетевой стек, systemd, процессы и система инициализации.
– Понимание топологии процессоров, включая NUMA, и умение учитывать это при настройке производительности.
– Умение расследовать проблемы на уровне ядра и системных вызовов: от анализа логов и strace до поиска узких мест.
– Понимание устройства дискового ввода-вывода, файловых систем, вольюм менеджеров и планировщиков.
– Виртуализация
– Опыт работы с QEMU/KVM и libvirt.
– Понимание различий между виртуальными машинами и контейнерами.
– Сети
– Понимание VLAN, VXLAN, BGP.
– Опыт работы с OpenvSwitch, понимание OpenFlow..
– Автоматизация и мониторинг
– Опыт работы с SaltStack и/или Ansible
– Настройка и поддержка мониторинга (Zabbix или аналоги).
– Скриптинг и диагностика
– Python на уровне чтения кода (понимание, что происходит в сервисах и скриптах).
– Уверенное владение Bash.
Soft skills:
– Готовность аргументировать и отстаивать свои технические решения.
– Системное мышление и способность выстраивать картину происходящего и доводить её до проверяемых гипотез.
– Будет огромным плюсом
– Хранилища
– Базовое понимание Ceph: что это такое, как на нём строятся S3 и RBD-диски для виртуалок.
– Опыт работы с SAN/NAS.
– SDN и виртуализация
– Опыт работы с OpenStack / OpenNebula / oVirt.
– Знакомство с SDN-решениями (OVN, Tungsten Fabric).
Наш стек:
– ОС и виртуализация: Linux (ядро, systemd), QEMU/KVM, libvirt
– Сети: VLAN, VXLAN, BGP, OpenvSwitch, OpenFlow, FRR
– Автоматизация: SaltStack, Ansible, Bash, Python (скриптинг)
– Мониторинг: Zabbix, Prometheus/Node Exporter, Victoria Metrics
– Хранилища: базовое взаимодействие с Ceph
– CI/CD: GitLab CI/CD
Ключевые навыки:
Linux, systemd, QEMU/KVM, libvirt, OpenvSwitch, VLAN, VXLAN, BGP, SaltStack, Ansible, Python, Bash, Zabbix, Victoria Metrics, Ceph, GitLab CI/CD, NUMA
Почему тебе стоит откликнуться:
– Сложные и нестандартные задачи: Ты не будешь крутить типовые конфигурации — каждый случай уникален.
– Высокий уровень ответственности: Ты — последняя инстанция, эскалация для младших команд. Твои решения напрямую влияют на стабильность всего облака.
– Развитие экспертизы: Ты будешь работать с современными технологиями, углублять знания Linux, сетей и виртуализации на задачах уровня платформы.
– Влияние на архитектуру: Ты участвуешь в проектировании новых решений, а не просто выполняешь задачи.
– Сильная команда: Мы собираем инженеров, которым интересно разбираться в сложном и строить надёжные системы.
Что вас ждёт с нами:
– Работа в надежной и стабильной компании, которая на рынке уже много лет;
– Стабильный выплаты "белой" заработной платы, оплата отпускных и больничных, официальное оформление с первого дня;
– Сильная продуктовая команда. Мыслим гипотезами и возможностями. Стараемся быстро применять изменения и не любим бюрократию;
– Территориально офис расположен в 10 минутах от метро Московские ворота;
– В офисе есть комфортная кухня с вкусным кофе/чаем и фруктами, а также зона отдыха , где можно классно провести время с коллегами, играя в настольный теннис;
– Плюшки в виде питания, спорта и ДМС, конечно же, есть.
Если есть вопросы или желание прийти на собеседование, просто отправьте отклик