BetBoom
Site Reliability Engineer
Не указана
- Kubernetes
- Ansible
- Terraform
- Python
- Go
- Linux
- laC
- PostgreSQL
- Mariadb
Наша команда SRE отвечает за надёжность и доступность сервисов, обеспечивающих работу клубов. Мы поддерживаем множество сервисов, взаимодействуем с несколькими командами разработки, поддерживаем сотни серверов и кластера Kubernetes. Идём по пути открытых технологий и популярных практик. Открыты к новому.
Чем предстоит заниматься:
- Участие в разработке продуктов (базовый стек: NodeJS/Go/PHP, RabbitMQ, Docker, K8s, Gitlab, Redis, PostgreSQL, MariaDB, Grafana, Prometheus, ELK, Jaeger, Vault);
- Автоматизация и избавление от рутины в процессах разработки, тестирования и эксплуатации;
- Поддержка и развитие текущей распределенной инфраструктуры проекта, улучшение здоровья и увеличение аптайма сервисов, участие в инцидентах;
- Совместная работа с LeSS-командами.
Что мы хотим видеть:
- Опыт работы SRE, DevOps-инженером или администратором Linux;
- Уверенное понимание основных подсистем Linux;
- Опыт администрирования кластеров PostgreSQL, Mariadb: репликация, расследование инцидентов, тонкая настройка под задачи;
- Опыт администрирования кластеров Kubernetes, работа с Helm 3;
- Опыт работы с opensource web- и app- сервисами, балансировщиками нагрузки;
- Опыт программирования на Python/Go/Bash;
- Понимание TCP/IP стека, HTTP;
- Опыт реализации и развития CI/СD (особенно на базе GitLab);
- Понимание и опыт организации комплексного мониторинга, логирования, опыт работы с Prometheus, Grafana, ELK;
- Опыт автоматизации инфраструктуры, понимание принципов IaC, уверенные знания Ansible и Terraform;
- Опыт работы с нереляционными СУБД;
- Понимание DevOps методологии.