Обязанности:
-
Развертывание и эксплуатация LLM:
- Запуск и масштабирование больших языковых моделей (LLM) в продакшн-среде (инференс-кластеры).
- Реализация техник оптимизации: квантизация (GPTQ, AWQ), vLLM, TensorRT-LLM, speculative decoding для снижения задержек (latency) и увеличения пропускной способности (throughput).
- Настройка автоматического масштабирования (autoscaling) инференс-эндингов в зависимости от нагрузки. -
Поддержка и развитие ML-архитектуры:
- Сопровождение и рефакторинг текущей архитектуры ML Inference.
- Разработка и поддержка платформенных решений для бесшовного переключения между разными моделями (A/B тестирование, канареечные деплои). -
Сетевая инфраструктура для продуктов:
- Проектирование и настройка высокоскоростной сетевой связности между GPU-кластерами (NVIDIA NCCL), объектным хранилищем (S3) и приложениями.
- Настройка Service Mesh (Istio) и Ingress-контроллеров для маршрутизации трафика к AI-сервисам с учетом требований безопасности.
- Обеспечение сетевой изоляции (VPC, Security Groups) для тенантов, работающих с чувствительными данными.
Требования:
-
Продвинутый опыт с Kubernetes (Helm, Kustomize, операторы).
-
Опыт работы с GPU-оператором (NVIDIA GPU Operator) и настройкой node-пулов с различными типами GPU (A100, H100, и др).
-
Уверенное владение инструментами для управления инфраструктурой как кодом (IaC).
-
Опыт развертывания LLM в продакшн с использованием vLLM, Sglang.
-
Желательно понимание техник оптимизации: квантизация (FP8, INT4/8), пакетная обработка (continuous batching), управление KV-cache. Глубокое понимание работы CNI (Calico, Cilium) в Kubernetes.
-
Опыт настройки балансировщиков нагрузки (NLB/ALB) для высоконагруженных AI-эндпоинтов.
-
Глубокое знание сетевой модели OSI, TCP/IP стека.
-
Опыт администрирования Unix-подобных ОС.
-
Опыт написания скриптов для автоматизации (Bash, Python).
-
Опыт администрирования веб-серверов, понимание протокола HTTP.
-
Опыт администрирования Open Source баз данных (Postgresql, Clickhouse и т.д.).
-
Практические знания и опыт в построении архитектуры, разработке и внедрении CI/CD решений.
-
Уверенное владение DevOps инструментами для сборки и развертывания приложений (Gitlab), опыт интеграции и настройки инструментов контроля и тестирования.
-
Опыт настройки и интеграции систем хранения секретов (Vault).
-
Владение Python/Go.
-
Большим преимуществом будет умение работать в Envoy - в частности его настройка и расширение при помощи extproc.