BetBoom

Site Reliability Engineer

Не указана

Москва
Полная занятость
Полный день
Более 6 лет

Kubernetes
Ansible
Terraform
Python
Go
Linux
laC
PostgreSQL
Mariadb

Наша команда SRE отвечает за надёжность и доступность сервисов, обеспечивающих работу клубов. Мы поддерживаем множество сервисов, взаимодействуем с несколькими командами разработки, поддерживаем сотни серверов и кластера Kubernetes. Идём по пути открытых технологий и популярных практик. Открыты к новому.

Чем предстоит заниматься:

Участие в разработке продуктов (базовый стек: NodeJS/Go/PHP, RabbitMQ, Docker, K8s, Gitlab, Redis, PostgreSQL, MariaDB, Grafana, Prometheus, ELK, Jaeger, Vault);
Автоматизация и избавление от рутины в процессах разработки, тестирования и эксплуатации;
Поддержка и развитие текущей распределенной инфраструктуры проекта, улучшение здоровья и увеличение аптайма сервисов, участие в инцидентах;
Совместная работа с LeSS-командами.

Что мы хотим видеть:

Опыт работы SRE, DevOps-инженером или администратором Linux;
Уверенное понимание основных подсистем Linux;
Опыт администрирования кластеров PostgreSQL, Mariadb: репликация, расследование инцидентов, тонкая настройка под задачи;
Опыт администрирования кластеров Kubernetes, работа с Helm 3;
Опыт работы с opensource web- и app- сервисами, балансировщиками нагрузки;
Опыт программирования на Python/Go/Bash;
Понимание TCP/IP стека, HTTP;
Опыт реализации и развития CI/СD (особенно на базе GitLab);
Понимание и опыт организации комплексного мониторинга, логирования, опыт работы с Prometheus, Grafana, ELK;
Опыт автоматизации инфраструктуры, понимание принципов IaC, уверенные знания Ansible и Terraform;
Опыт работы с нереляционными СУБД;
Понимание DevOps методологии.

Источник вакансии

Вернуться, к списку вакансий