Обязанности:
- Разработка, внедрение и поддержка CI/CD пайплайнов, автоматизация релизов и инфраструктуры.
- Работа с Kubernetes, контейнерами (Docker), helm-чартами, построение и автоматика кластеров.
- Мониторинг, логирование, трассировка: настройка SLI/SLO, error-budget, инцидентный отбор.
- Сотрудничество с Dev, AI, MLOps командами: обеспечение надёжности, отказоустойчивости и соблюдения требований безопасности.
- Оптимизация платформы под GPU/нагрузки inference, подготовка инфраструктуры под LLM/генеративные модели.
Требования:
- Высшее образование в CS/IT или эквивалентный опыт.
- 4+ лет опыта в DevOps/SRE или аналогичной роли, желательно - в среде с высокими требованиями к отказоустойчивости.
- Опыт: Kubernetes, Docker, Helm, GitLab CI/CD (или аналоги).
- Опыт инфраструктуры как кода (Terraform, Ansible, CM tools).
- Опыт мониторинга/логирования: Prometheus, Grafana, ELK/Loki и др.
- Отличные навыки работы с Linux, scripting (Bash, Python).
- Знание облачных платформ (AWS/Azure/GCP) и использования контейнеров/VM под GPU.
- Понимание принципов SRE: SLI/SLO, error budgets, recovery time optimisation.
- Высокая ответственность, навыки решения проблем и проактивный подход.
Желательно:
- Опыт работы с MLOps/LLM-инфраструктурой.
- Опыт DevSecOps и обеспечения безопасности CI/CD и инфраструктуры.
- Знание сетевых и облачных архитектур, балансировки нагрузки, сервисов высокой доступности.