Вакансии компании Центр цифровой трансформации Республики Татарстан в Казани – Работа в Центр цифровой трансформации Республики Татарстан

Требуется LLM-инженер на проекты регионального масштаба, направленные на улучшение качества жизни жителей Республики Татарстан Обязанности: – Деплой, конфигурирование и поддержка LLM-сервисов в продакшне (vLLM, SGLang, TGI и др.); – Оптимизация inference-пайплайнов для высоконагруженных систем (3k+ concurrent users); – Квантизация моделей (GPTQ, AWQ, GGUF, SmoothQuant и пр.); – Fine-tuning и дообучение LLM (SFT, LoRA/QLoRA, RLHF/DPO); – Подбор, эксперименты и исследования в сфере LLM; – Разработка и реализация алгоритмов на основе LLM (RAG, agents, function calling и пр.); – Улучшение существующих решений и мониторинг качества моделей в проде. Требования: – Основной язык Python. Будет плюсом знание GoLang или C++; – Уверенное знание LLM-serving фреймворков: vLLM, SGLang и других фреймворков для Text Generation Inference— понимание их архитектурных отличий, сценариев применения, преимуществ и ограничений; – Глубокое понимание механизмов оптимизации инференса: continuous batching, PagedAttention, speculative decoding, flash attention, tensor parallelism, pipeline parallelism; – Опыт квантизации LLM: GPTQ, AWQ, GGUF, INT4/INT8, SmoothQuant; – Опыт дообучения LLM: SFT, LoRA / QLoRA, DPO, RLHF — понимание когда и что применять; – Работа с популярными open-source моделями (LLaMA, Mistral, Qwen, DeepSeek, GPT OSS) и их весами (HuggingFace Transformers); – Понимание и практический опыт построения RAG-систем, цепочек промптов, agentic-пайплайнов; – Опыт работы с высоконагруженными системами: оценка throughput/latency, профилирование, горизонтальное масштабирование, балансировка запросов; – Базовое понимание аппаратной части: GPU-архитектуры (NVIDIA A100/H100/B200), VRAM management, NVLink, multi-GPU setups; – Понимание и изучение SOTA-решений в сфере LLM для последующей имплементации в проект; – Знания базовых алгоритмов машинного обучения и основ трансформерных архитектур (attention, MoE, RoPE и пр.); – Знание OpenAI-совместимых API; – Опыт с multimodal LLM (Kimi K2.5, Qwen-VL и пр.). Знание NLP: – Знание классических и современных NLP-задач: NER, text classification, summarization, machine translation, question answering, text generation; – Понимание этапов NLP-пайплайна: токенизация, нормализация, работа с BPE/SentencePiece/tiktoken; – Опыт работы с embeddings-моделями (sentence-transformers, E5, BGE и пр.) и векторными хранилищами (Weaviate, Qdrant, Milvus, FAISS) в контексте RAG и semantic search; – Понимание метрик качества NLP-моделей: BLEU, ROUGE, BERTScore, perplexity, human eval. Будет плюсом: – Понимание архитектур диффузионных моделей: DDPM, DDIM, LDM (Latent Diffusion), flow matching; – Опыт работы с text-to-image моделями (Stable Diffusion, FLUX, Kandinsky и пр.) и их компонентами — VAE, UNet/DiT, CLIP/text encoder – Базовое понимание video generation моделей (Wan, CogVideoX, HunyuanVideo, Mochi и пр.) и их отличий от image-моделей – Базовое понимание audio generation моделей (AudioCraft/MusicGen, Stable Audio, Bark и пр.) – Опыт fine-tuning диффузионных моделей: DreamBooth, LoRA, ControlNet, IP-Adapter – Знание inference-оптимизаций для диффузионок: SDXL Turbo / LCM / Lightning (distillation-подходы), cfg-distillation, tiling, xformers, torch.compile – Опыт работы от 3 лет. Условия: – Работа в команде профессионалов над интересными проектами республиканского значения; – Официальное трудоустройство, стабильная «белая» заработная плата (выплаты 2 раза в месяц); – Удаленный формат работы; – Заработная плата согласовывается по итогам собеседования с успешным кандидатом; – График работы 5/2: стандартно с 10:00 до 18:00-19:00 (по задачам); – Поддержка профессионального развития. Оставляй свой отклик, и мы обязательно рассмотрим твое резюме!