Привет! Наша ML-команда отвечает за создание умных решений на базе ИИ для одного из крупнейших медиа на одной шестой части земли — от персонализации лент до генерации контента, используя для этого как стек на острие технологий, так и проверенные временем подходы.
Хотим усиливаться новыми единомышленниками, которые как могут принести нам свою уникальную экспертизу в ML/AI, так и развиваться в интересном для себя направлении — от инженера до solution architect, имея доступ к классным спецам и реальным highload-задачам.
Что делаем
Проектируем и внедряем ML/AI-решения на базе LLM, трансформеров, эмбеддингов и агентских пайплайнов для анализа текстов, классификации контента и персонализации в Mediatech-продуктах РБК. Работаем с новостными потоками, аудио и видео-контентом, строим рекомендательные системы и интеллектуальную обработку данных.
Наш технологический стек
– ML Core: PyTorch, Hugging Face Transformers/Datasets, sentence-transformers, scikit-learn
– NLP/LLM: токенизация, эмбеддинги, RAG, prompt engineering, агентские оркестраторы (LangChain/LangGraph)
– Инференс: batching, quantization (8-bit/4-bit), оптимизация latency/cost
– Векторные хранилища: FAISS, Milvus, PGVector, Elastic
– API/сервисы: FastAPI, Flask, OpenAPI, async-обработка
– Data pipeline: подготовка датасетов, weak supervision, очистка, балансировка
– MLOps: мониторинг drift, версионирование, воспроизводимость экспериментов
– Интеграции: Kafka/RabbitMQ, брокеры событий, near-real-time scoring
– Графовые БД: Neo4j, TigerGraph — для knowledge graph и семантического поиска
Чем предстоит заниматься
– Проектирование и реализация ML-решений для анализа текстов, классификации и сегментирования контента
– Построение RAG-пайплайнов: chunking, retrieval, reranking, борьба с hallucinations
– Разработка агентских систем: tool-use, planning, ограничение действий, трассировка
– Создание рекомендательных систем: от классического CF до learning-to-rank с учетом CTR, retention и diversity
– Упаковка моделей в production-сервисы: API, контрактирование, интеграция с продуктом
– Подготовка данных: разметка, очистка, балансировка, hard negatives
– Оффлайн- и онлайн-оценка качества: A/B тесты, error analysis, наблюдаемость
– Развитие до solution architect: проектирование компонентов, интерфейсов, схемы деградации
Наши ожидания
– Уверенные навыки разработки на Python: типизация, тестирование, профилирование, код-стайл, работа с памятью/скоростью
– Стек ML: PyTorch (или TensorFlow), Hugging Face Transformers/Datasets, sentence-transformers, scikit-learn
– Инференс и оптимизация: batching, quantization (8-bit/4-bit), distillation (понимание), latency/cost trade-offs
– Построение RAG: выбор векторного хранилища (FAISS/Milvus/PGVector/Elastic), chunking-стратегии, rerankers, кеширование
– Агентские пайплайны: оркестрация (например, LangGraph/LangChain-подходы или кастом), tool-calling, ограничение действий, трассировка
– Data pipeline: подготовка датасетов, разметка/weak supervision, очистка, балансировка, hard negatives
– API/сервисы: упаковка модели в сервис (FastAPI/Flask), контрактирование (OpenAPI), интеграция с продуктом
– Контур качества: оффлайн eval (наборы, regression tests), online A/B, error analysis, наблюдаемость (логирование, traces, dashboards)
Будет плюсом
– Понимание домена: контентные таксономии, редакционные процессы, лента/витрины, модерация, тренды
– Персонализация и ранжирование ленты: multi-objective (CTR, retention, diversity, quality), exploration vs exploitation
– Контентная безопасность: токсичность/ненависть/NSFW/дезинформация (на уровне подходов), human-in-the-loop
– Мультиязычность: RU/EN/локальные языки, кросс-лингвальные эмбеддинги, трансформа качества на разных языках
– Понимание источников трафика и аналитики: event tracking, атрибуция, cohort/retention, экспериментальная платформа
Что предлагаем
– Удалённая работа (по РФ) или офис в Москве, гибкий график
– Конкурентный уровень вознаграждения
– Предоставление современной техники
– ДМС с первого месяца работы
– Экспертная и вовлечённая команда
– Льготы ИТ-аккредитованной компании