Для нас привлекательны следующие знания и опыт:
⠀
⠀
⠀
-
Опыт администрирования и эксплуатации кластеров Kubernetes (облачные и локальные решения).
-
Владение языком программирования Python и основными платформами ML Ops (Kubeflow, Airflow).
-
Навыки построения и поддержки процессов непрерывной интеграции и доставки (CI/CD) с использованием Jenkins.
- Опыт интеграции и работы с распределенными системами хранения и векторными базами данных (например, Weaviate, Qdrant, PGVector).
- Экспертиза в области мониторинга, алертинга и централизованного логирования (стек Prometheus/Grafana, ELK, OpenTelemetry).
- Базовое понимание архитектуры и принципов работы больших языковых моделей (LLM), генеративного ИИ и Retrieval-Augmented Generation (RAG) систем.
⠀
⠀
- Развертывание, настройка и техническая поддержка платформы для работы с LLM в среде Kubernetes (с применением Helm, Terraform, операторов K8s).
- Проектирование и поддержка CI/CD-контуров для машинно-обучаемых сервисов, включая пайплайны обучения, инференса и обработки данных.
- Автоматизация и оркестрация рабочих процессов машинного обучения в среде Kubeflow.
- Внедрение системы мониторинга для ML-моделей в продакшне, отслеживающей метрики производительности (latency), качества (drift) и экономической эффективности (cost).
- Организация и управление пайплайнами данных для задач обучения и инференса, включая работу с потоковыми данными (Kafka), озерами данных, объектными хранилищами (S3) и векторными БД.
- Оптимизация загрузки и управления ресурсами GPU-кластеров, включая настройку распределенного обучения.
- Обеспечение информационной безопасности и соответствия стандартам: реализация изоляции окружений, управления доступом (RBAC) и полного аудита действий.